了得網圖書_大數據Hive離線計算開發實戰

編輯推薦

1.項目經典：深度剖析三大企業級項目實戰案例——電商推薦繫統、汽車銷售數據分析繫統、微博數據分析繫統，幫助讀者進一步提高自己；
2.詳細介紹HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大數據工具。

進入21世紀，我們迎來了數據爆炸式增長的時代，人們計量數據的單位由GB進入到了TB、PB、EB、ZB……舉個簡單的例子，十年前或者五年前我們購買移動硬盤，它的存儲容量為80GB至500GB；現在我們購買移動硬盤，它的存儲容量為1TB至2TB。因此，在數據爆炸式增長的同時，我們也迎來了大數據的時代。所謂大數據，簡單來講就是數據體量巨大、數據種類繁多、數據價值密度低、數據處理速度快，大數據是需要新處理模式纔能具有更強大決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。
在過去很多年，各個企業、單位都積累了大量豐富的數據，並購買服務器來存儲這些數據。數據是積累下來了，可是對於持續不斷增長的數據，除了需要不斷購買服務器，花巨大的硬件成本來存儲，我們又能從這些持續不斷積累下來的數據中得到什麼？如何去挖掘和利用這些數據？這些數據都是歷史數據，也叫離線數據，於是一個全新的技術Hive離線計算進入了大眾的視野。它提出海量數據可以繼續沿用傳統的數據分析方法SQL語句來處理，開發人員不需要學習新的腳本語言而繼續使用熟悉的SQL結構化查詢語句來處理大規模的數據。區別是，此時此刻SQL語句不再運行在傳統的數據庫或者數據倉庫中，而是運行在大數據分布式並行計算處理平臺上。該數據平臺為我們提供了一個工具，那就是Hive離線計算處理工具，所用到的語言稱之為HiveQL查詢語言，其語法結構與傳統SQL語言幾乎是一模一樣的，這就是本書將要介紹的Hive大數據離線計算的相關技術。它能解決不斷增長的海量離線數據處理計算問題，幫助企業從數據中獲取經驗，並得到巨大的潛在商業價值。
本書將帶您認識Hive大數據離線計算的基本概念。通過學習本書，您將對Hive大數據離線技術有一個深刻的認識，並且掌握大數據技術中主流的離線計算工具Hive，再通過大數據的離線計算項目案例，讓您從Hive大數據離線計算技術的實戰應用中得到訓練。這也許是您學習大數據離線計算技術的最佳入門途徑之一。

目錄
第01章數據倉庫基礎1
1．1數據處理平臺1
1．2數據庫2
1．3關繫型數據庫2
1．3．1數據庫三範式3
1．3．2數據庫事務6
1．3．3數據庫設計理念7
1．4數據倉庫7
1．4．1無數據倉庫的時代7
1．4．2數據倉庫的發展8
1．5數據倉庫設計理念9
1．6數據庫與數據倉庫的不同10
1．7本章總結11
1．8本章習題11
第02章Hive安裝部署12
2．1Hive基本概念12
2．1．1Hive簡介12
2．1．2Hive設計特性13
2．1．3Hive與傳統數據庫的對比14
2．2Hive安裝部署14
2．3安裝配置MySQL16
2．4配置啟動Hive22
2．5Hive常用內部命令26
2．6Hive數據類型27
2．6．1Hive基本數據類型28
2．6．2Hive集合數據類型30
2．7本章總結36
2．8本章習題36
第03章Hive數據定義與操作37
3．1HiveQL數據定義語言37
3．1．1創建數據庫38
3．1．2刪除數據庫40
3．1．3創建表40
3．1．4修改表45
3．1．5刪除表46
3．1．6分區表47
3．2HiveQL數據操作53
3．2．1向管理表中裝載數據54
3．2．2經查詢語句向表中插入數據54
3．2．3單個查詢語句中創建表並加載數據55
3．2．4導入數據55
3．2．5導出數據56
3．3本章總結56
3．4本章習題57
第04章HiveQL數據查詢基礎58
4．1HiveQL數據查詢語句58
4．1．1SELECT語句58
4．1．2WHERE語句59
4．1．3GROUP BY語句60
4．1．4HAVING分組篩選61
4．1．5ORDER BY 語句和
SORTBY語句62
4．2HiveQL連接查詢語句64
4．3本章總結70
4．4本章習題70
第05章HiveQL數據查詢進階71
5．1Hive內置函數71
5．1．1數學函數72
5．1．2字符函數74
5．1．3轉換函數76
5．1．4日期函數76
5．1．5條件函數77
5．1．6聚合函數77
5．2Hive構建搜索引擎日志數據分析繫統79
5．2．1數據預處理（Linux環境）79
5．2．2基於Hive構建日志數據的數據倉庫81
5．2．3數據分析需求（1）：條數統計84
5．2．4數據分析需求（2）：關鍵詞分析84
5．2．5數據分析需求（3）：UID分析85
5．2．6數據分析需求（4）：用戶行為
分析86
5．3Sqoop應用與開發88
5．3．1Sqoop簡介89
5．3．2Sqoop安裝部署89
5．3．3Sqoop將Hive表中的數據導入MySQL91
5．4本章總結96
5．5本章習題96
第06章Hive數據庫對像與
用戶自定義函數97
6．1Hive視圖97
6．1．1創建視圖98
6．1．2查看視圖98
6．1．3視圖應用實戰99
6．1．4刪除視圖100
6．2Hive分桶表100
6．2．1創建表101
6．2．2插入數據101
6．3Hive用戶自定義函數102
6．3．1用戶自定義函數簡介102
6．3．2UDF應用開發103
6．4Hive用戶自定義聚合函數105
6．4．1用戶自定義聚合函數簡介105
6．4．2UDAF應用開發105
6．5本章總結108
6．6本章習題108
第07章Azkaban任務調度器109
7．1Azkaban簡介109
7．1．1Azkaban基本原理110
7．1．2Azkaban核心組件111
7．2Azkaban安裝部署112
7．2．1準備工作112
7．2．2安裝MySQL112
7．2．3配置MySQL113
7．2．4配置AzkabanWebServer114
7．2．5啟動AzkabanWebServer
服務器116
7．2．6配置AzkabanExecutorServer116
7．2．7啟動AzkabanExecutorServer
執行服務器117
7．2．8登錄訪問WebServer並創建
工作流調度項目117
7．3Hadoop作業的設置與書寫119
7．4Hive作業的設置與書寫128
7．5本章總結130
7．6本章習題131
第08章電商推薦繫統開發實戰132
8．1構建數據倉庫132
8．1．1創建數據倉庫133
8．1．2創建原始數據表134
8．1．3加載數據到數據倉庫136
8．1．4驗證數據結果136
8．2數據清洗139
8．2．1創建臨時表139
8．2．2數據清洗詳細步驟140
8．2．3驗證清洗143
8．3推薦算法實現144
8．3．1Mahout安裝部署144
8．3．2itembase協同過濾推薦算法147
8．3．3路徑準備148
8．3．4運行推薦算法150
8．3．5查看推薦結果151
8．4數據ETL152
8．4．1獲取數據152
8．4．2創建數據庫和表152
8．4．3加載數據153
8．4．4驗證ETL過程153
8．5本章總結155
8．6本章習題156
第09章汽車銷售數據分析
繫統實戰開發157
9．1數據概況157
9．2項目實戰158
9．2．1構建數據倉庫158
9．2．2創建原始數據表159
9．2．3加載數據到數據倉庫161
9．2．4驗證數據結果161
9．2．5統計乘用車輛和商用車輛的
銷售數量和銷售數量占比162
9．2．6統計山西省2013年每個月的
汽車銷售數量的比例162
9．2．7統計買車的男女比例及男女對車的
品牌的選擇163
9．2．8統計車的所有權、車輛型號和
車輛類型165
9．2．9統計不同類型車在一個月（對應一段
時間，如每月或每年）的總銷量167
9．2．10通過不同類型（品牌）車銷售情況，
來統計發動機型號和燃料種類168
9．2．11統計五菱某一年每月的銷售量168
9．3本章總結169
9．4本章習題169
第10章新浪微博數據分析繫統
實戰開發170
10．1數據概況170
10．1．1數據參數170
10．1．2數據類型171
10．2項目實戰172
10．2．1組織數據172
10．2．2統計需求174
10．2．3特殊需求179
10．2．4數據ETL182
10．3本章總結184
10．4本章習題184

查看全部↓

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】

編輯推薦

內容簡介

作者簡介

目錄