1.項目經典:深度剖析三大企業級項目實戰案例——電商推薦繫統、汽車銷售數據分析繫統、微博數據分析繫統,幫助讀者進一步提高自己;
2.詳細介紹HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大數據工具。
進入21世紀,我們迎來了數據爆炸式增長的時代,人們計量數據的單位由GB進入到了TB、PB、EB、ZB……舉個簡單的例子,十年前或者五年前我們購買移動硬盤,它的存儲容量為80GB至500GB;現在我們購買移動硬盤,它的存儲容量為1TB至2TB。因此,在數據爆炸式增長的同時,我們也迎來了大數據的時代。所謂大數據,簡單來講就是數據體量巨大、數據種類繁多、數據價值密度低、數據處理速度快,大數據是需要新處理模式纔能具有更強大決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。
在過去很多年,各個企業、單位都積累了大量豐富的數據,並購買服務器來存儲這些數據。數據是積累下來了,可是對於持續不斷增長的數據,除了需要不斷購買服務器,花巨大的硬件成本來存儲,我們又能從這些持續不斷積累下來的數據中得到什麼?如何去挖掘和利用這些數據?這些數據都是歷史數據,也叫離線數據,於是一個全新的技術Hive離線計算進入了大眾的視野。它提出海量數據可以繼續沿用傳統的數據分析方法SQL語句來處理,開發人員不需要學習新的腳本語言而繼續使用熟悉的SQL結構化查詢語句來處理大規模的數據。區別是,此時此刻SQL語句不再運行在傳統的數據庫或者數據倉庫中,而是運行在大數據分布式並行計算處理平臺上。該數據平臺為我們提供了一個工具,那就是Hive離線計算處理工具,所用到的語言稱之為HiveQL查詢語言,其語法結構與傳統SQL語言幾乎是一模一樣的,這就是本書將要介紹的Hive大數據離線計算的相關技術。它能解決不斷增長的海量離線數據處理計算問題,幫助企業從數據中獲取經驗,並得到巨大的潛在商業價值。
本書將帶您認識Hive大數據離線計算的基本概念。通過學習本書,您將對Hive大數據離線技術有一個深刻的認識,並且掌握大數據技術中主流的離線計算工具Hive,再通過大數據的離線計算項目案例,讓您從Hive大數據離線計算技術的實戰應用中得到訓練。這也許是您學習大數據離線計算技術的最佳入門途徑之一。