了得網研究生_Hadoop大數據技術應用實踐

內容簡介

本書繫統闡述了Hadoop大數據技術應用實踐的原理、方法和應用相關知識，同時給出了每一章內容對應的實現指令或源程序。全書共九章內容。內容由淺入深，分為基礎篇及提高篇兩部分，其中第1章到第4章為基礎篇，內容涵蓋Hadoop初識簡介、Hadoop基礎環境搭建、分布式存儲HDFS介紹以及MapReduce編程模型等知識，提高篇包括Hadoop數據倉庫Hive、Hadoop數據庫Hbase、Pig語言、Hadoop項目案例以及Mahout項目案例等較深入的知識。本書理論結合實際，每一個章節都包含有相關內容的實踐部分，以便讀者在了解相關知識後，能及時進行項目的實踐，有助於提高讀者動手實踐的能力。每章提供適量習題，進一步加深對內容的理解。

作者簡介

太原理工大學信息與計算機學院教師，博士，教授，碩士生導師。2012年以來，主持和參與山西省自然科學基金、博士後基金（面上資助）項目、山西省科技重大專項、山西省科技攻關計劃項目以及校教改項目等多項；獲批2017年*產學合作紅亞科技協同育人項目1項；為2013年科技部重點領域創新團隊核心成員； 2015年獲山西省科技進步二等獎一項，2016年獲煤炭工業協會三等獎一項。在Information Sciences等刊物發表SCI及EI收錄學術論文30餘篇；獲批授權國家發明專利3項；申請國家發明專利9項，2016年以副主編參與編寫“十二五”規劃教材《數字語音處理及Matlab仿真》一部，2013年副主編參與編寫部委級規劃教材《電路分析基礎》1部；2010年參編兩本部委級規劃教材，指導研究生14名。
承擔課程：《電路分析基礎》、《可編程控制器原理》、《現代信號處理理論與方法》、《大數據技術與應用》

目錄 IV
第1章 Hadoop初識簡介 1
1.1 Hadoop介紹 1
1.1.1 Hadoop簡述 1
1.1.2 Hadoop的特點 1
1.1.3 Hadoop的發展 3
1.2 Hadoop體繫架構 3
1.2.1 HDFS結構 3
1.2.2 MapReduce結構 4
1.2.3 HBase結構 6
1.2.4 Hive結構 6
1.2.5 Mahout介紹 7
1.3 Hadoop軟件安裝及配置 8
1.3.1 編譯安裝與基礎介紹 8

目錄 IV
第1章 Hadoop初識簡介 1
1.1 Hadoop介紹 1
1.1.1 Hadoop簡述 1
1.1.2 Hadoop的特點 1
1.1.3 Hadoop的發展 3
1.2 Hadoop體繫架構 3
1.2.1 HDFS結構 3
1.2.2 MapReduce結構 4
1.2.3 HBase結構 6
1.2.4 Hive結構 6
1.2.5 Mahout介紹 7
1.3 Hadoop軟件安裝及配置 8
1.3.1 編譯安裝與基礎介紹 8
1.3.2 Linux環境下安裝 12
1.3.3 安裝配置環境變量 15
1.3.4 設置免密碼登陸 16
1.3.5 配置時間同步 16
本章習題 21
第2章 Hadoop開源項目及偽分布式實現 23
2.1 Zookeeper簡介 23
2.1.1 Zookeeper介紹 23
2.1.2 Zookeeper用途及特點 24
2.1.3 Zookeeper安裝使用 25
2.2 單節點偽分布式安裝 29
2.2.1 Hadoop配置文件說明 29
2.2.2 格式化HDFS文件繫統 30
2.2.3 進程管理 30
本章習題 34
第3章分布式存儲HDFS 36
3.1 HDFS分布式文件繫統安裝 36
3.1.1 HDFS介紹 36
3.1.2 HDFS的安裝過程 36
3.1.3 HDFS常用的一些簡單的Shell命令 40
3.2 HDFS的相關概念 40
3.2.1 塊及數據分片 40
3.2.1 名稱節點NameNode和數據節點DataNode 41
3.2.3 第二個名稱節點SecondaryNameNode 43
3.3 HDFS的文件存儲機制 45
3.3.1 文件存儲機制概述 45
3.3.2 HDFS的命名空間 45
3.3.3 客戶端 46
3.3.4 通信協議 46
3.4 HDFS的數據存儲管理 46
3.4.1 數據冗餘存儲 46
3.4.2 數據存取策略 46
3.4.3 數據錯誤與恢復 48
3.5 HDFS的數據讀寫過程 48
3.5.1 讀取數據過程 48
3.5.2 寫入數據過程 49
3.6 分布式及RPC通信簡介 50
3.6.1 什麼是RPC 50
3.6.2 如何實現一個RPC框架 50
3.6.3 Hadoop的RPC框架 50
3.6.4 實驗過程 50
3.7 創建HDFS項目 55
3.7.1 Hadoop的Shell命令 55
3.7.2 利用Java API與HDFS進行人機交互 56
本章習題 63
第4章 MapReduce編程模型 65
4.1 MapReduce簡介 65
4.1.1 MapReduce產生 65
4.1.2 MapReduce的數據類型 65
4.2 MapReduce架構 66
4.2.1 MapReduce的執行過程 66
4.2.2 Mapper過程 71
4.2.3 Reducer過程 71
4.2.4 Shuffle過程 71
4.3 MapReduce接口類 72
4.3.1 輸入的處理類 72
4.3.2 輸出的處理類 74
4.4 MapReduce編程模型實現 74
4.4.1 創建項目 74
4.4.2 編寫MapReduce程序代碼 75
4.4.3 本地運行測試 77
4.4.4 Jar打包 79
4.5 MapReduce典型案例-WordCount 79
4.5.1 WordCount任務目標 79
4.5.2 基於MapReduce的WordCount設計思路 80
4.5.3 任務執行 80
4.5.4 實例演示 81
4.6 分布式資源調度繫統YARN的安裝 83
4.6.1 YARN的概念 83
4.6.2 YARN的運行機制 84
4.6.3 YARN資源調度方式 84
4.6.4 YARN的安裝配置 85
4.7 MapReduce和YARN命令 88
4.7.1 Hadoop的shell腳本 88
4.7.2 集群上運行介紹 90
4.7.3 實驗過程 91
本章習題 94
第5章 Hadoop數據倉庫Hive 97
5.1 Hive簡介 97
5.1.1 Hive設計特點 97
5.1.2 Hive繫統架構 98
5.1.3 Hive數據模型 98
5.1.4 Hive安裝 99
5.2 Hive DDL 104
5.2.1 DDL基本格式 104
5.2.2 Hive數據類型 105
5.2.3 使用Hive創建數據庫 106
5.3 Hive DML 113
5.3.1 數據操縱語言DML操作 113
5.3.2 類型 113
5.3.3 向Hive插入數據 114
5.3.4 Hive的其他語句 116
5.4 基於Hive的UDF V1.0 118
5.4.1 UDF的使用介紹 118
5.4.2 實驗操作 120
5.5 Hive數據清洗項目 122
5.5.1 數據清洗介紹 122
5.5.2 用戶關繫模型介紹 124
5.5.3 挖掘用戶的基本問題 124
5.5.4 Hive數據清洗項目使用 125
5.6 Hive統計UV項目 127
5.6.1 PV統計（頁面訪問量） 127
5.6.2 UV統計（獨立訪客） 128
5.6.3 Hive統計UV項目的使用 128
本章習題 131
第6章 Hadoop數據庫HBase 133
6.1 HBase簡介 133
6.2 HBase的shell應用v2.0 134
6.2.1 HBase體繫架構 134
6.2.2 HBase邏輯視圖 137
6.2.3 HBase的使用操作 138
6.3 使用Hive操作HBase 140
6.3.1 Hive整合HBase原理 140
6.3.2 操作使用 141
6.4 HBase的JavaAPI應用 142
6.4.1 創建連接 142
6.4.2 實驗步驟 144
6.5 HBase學生選課案例 147
6.5.1 學生選課案例簡介 147
6.5.2 學生選課案例講解與操作 149
6.6 HBase微博案例 155
6.6.1 微博案例簡介 155
6.6.2 微博案例講解與操作 157
本章練習 164
第7章 Pig語言 166
7.1 Pig簡介 166
7.1.1 認識Pig 166
7.1.2 Pig和MapReduce的區別 167
7.1.3 Pig的用途 168
7.1.4 Pig和Hive 168
7.2 Pig的安裝與運行 169
7.2.1 Pig包的下載 169
7.2.2 Pig的安裝 170
7.3 命令行交互工具Grunt 171
7.3.1 Grunt介紹 171
7.3.2 Grunt中輸入Pig Latin腳本 171
7.3.3 Grunt中使用HDFS命令 171
7.3.4 Grunt中控制Pig 172
7.3.5 實驗案例 172
7.4 Pig數據模型 175
7.4.1 數據類型 175
7.4.2 模式 177
7.4.3 數據模型的使用 178
7.5 Pig Latin基礎知識 179
7.5.1 Pig Latin介紹 179
7.5.2 輸入和輸出 180
7.5.3 Pig Latin的使用 181
7.6 Pig Latin關繫操作 182
7.6.1 Foreach數據轉換 182
7.6.2 Filter過濾 182
7.6.3 Group分組 182
7.6.7 Order by排序 182
7.6.5 Distinct 183
7.6.6 Join 183
7.6.7 Limit 183
7.6.8 Sample 183
7.6.9 Parallel 183
7.6.10 運行Pig程序示例 183
7.7 Pig Latin高級應用 191
7.7.1 Group應用 191
7.7.2 Cross應用 192
7.7.3 Distinct應用 192
7.7.4 Filter應用 192
7.7.5 Foreach應用 192
7.7.6 復雜關繫應用 192
7.7.7 在Pig中集成遺留代碼和MapReduce程序 194
7.7.8 非線性數據流 194
7.7.9 執行過程控制 195
7.7.10 Pig Latin預處理器 195
7.7.11 運行Pig程序示例 195
本章練習 202
第8章 Hadoop項目案例 204
8.1 QQ好友推薦算法 204
8.1.1 實現思路 204
8.1.2 代碼實現 204
8.2 PageRank算法 209
8.2.1 PageRank算法簡介 209
8.2.2 PageRank原理介紹 210
8.2.3 PageRank簡單計算 210
8.3 TF-IDF算法 213
8.3.1 TF-IDF簡介 213
8.3.2 TF-IDF實現 214
8.3.3 TF-IDF應用 214
8.3.4 權重 214
8.4 數據關聯案例 222
8.4.1 常用思路 223
8.4.2 編碼思路 223
8.4.3 實驗 223
8.5 ETL案例 224
8.5.1 數據ETL 225
8.5.2 實驗 225
8.6 PV、UV統計案例 228
8.6.1 針對某一類網址的PV、UV 228
8.6.2 得到PV、UV的後續處理 229
8.6.3 實驗 229
8.7 用戶流失和新增分析案例 231
8.8 Hadoop總結 234
8.8.1 打包作業 234
8.8.2 啟動作業 235
8.8.3 提交命令封裝 236
本章習題 236
第9章 Mahout項目案例 239
9.1 Mahout環境配置 240
9.1.1 單機環境配置 240
9.1.2 基於Hadoop集群的Mahout環境配置 240
9.2 協同過濾推薦算法 243
9.2.1 Taste簡介 243
9.2.2 基於用戶的協同過濾算法 244
9.2.3 基於項目的協同過濾算法 247
9.2.4 基於ALS的矩陣分解算法 248
9.2.5 基於SVD的推薦算法 249
9.3 聚類算法 252
9.3.1 Canopy聚類 252
9.3.2 K-Means聚類 253
9.3.3 Fuzzy K-Means聚類算法 253
9.3.4 Streaming K-Means聚類 254
9.3.5 Spectral譜聚類算法類 255
9.4 分類算法 255
9.4.1 Logistic回歸算法 256
9.4.2 樸素貝葉斯分類器 258
9.4.3 隨機森林 258
9.4.4 隱馬爾科夫模型 259
本章習題 260
參考文獻 263
附錄 265
一．本書中出現的專業術語縮寫英漢對照表 265
二．習題參考答案 267

前言

前言
大數據時代的到來，改變了許多行業的人纔需求模式，大數據方面的人纔成為各信息產業尤其是IT行業的熱門人纔。許多高等院校已經新增大數據技術相關專業，部分院校成立了大數據學院，標志著進行大數據技術人纔培養已經正式納入高等教育的培養需求。基於Hadoop架構搭建大數據分析環境是培養大數據人纔的基本要求，《Hadoop大數據技術應用實踐》教材可作為大數據技術相關專業本科生及高職院校相關專業實踐類的教材，以為培養大數據技術相關人纔打下堅實的基礎。
培養技術型及實踐型人纔是大數據時代*對大數據技術相關人纔的基本要求，也是各信息產業對人纔的基本需求。編寫本書的目的就是要讓大數據技術相關專業學生通過本課程的學習，了解大數據技術的基礎知識，掌握基於Hadoop環境搭建大數據分析架構的基本流程及實現過程，提高學習本課程的興趣，培養解決實際問題的能力。
本書的特色就是實踐性較強，在闡述大數據技術相關基礎知識的同時，輔以大量實踐內容及項目實例，培養了學生的學習興趣，可極大提高學生的動手能力。克服了許多教材注重理論缺少實踐內容的弊端。學生們可在課後，自己進一步動手實踐，提高了學生的學習效率。

前言
大數據時代的到來，改變了許多行業的人纔需求模式，大數據方面的人纔成為各信息產業尤其是IT行業的熱門人纔。許多高等院校已經新增大數據技術相關專業，部分院校成立了大數據學院，標志著進行大數據技術人纔培養已經正式納入高等教育的培養需求。基於Hadoop架構搭建大數據分析環境是培養大數據人纔的基本要求，《Hadoop大數據技術應用實踐》教材可作為大數據技術相關專業本科生及高職院校相關專業實踐類的教材，以為培養大數據技術相關人纔打下堅實的基礎。
培養技術型及實踐型人纔是大數據時代*對大數據技術相關人纔的基本要求，也是各信息產業對人纔的基本需求。編寫本書的目的就是要讓大數據技術相關專業學生通過本課程的學習，了解大數據技術的基礎知識，掌握基於Hadoop環境搭建大數據分析架構的基本流程及實現過程，提高學習本課程的興趣，培養解決實際問題的能力。
本書的特色就是實踐性較強，在闡述大數據技術相關基礎知識的同時，輔以大量實踐內容及項目實例，培養了學生的學習興趣，可極大提高學生的動手能力。克服了許多教材注重理論缺少實踐內容的弊端。學生們可在課後，自己進一步動手實踐，提高了學生的學習效率。
本書主要以大數據技術及計算機相關專業的本科生及高職院校學生為讀者對像，注重大數據技術相關基礎知識，尤其是實踐環節的描述，避免了繁瑣的理論知識介紹。全書共包括9章，第1章是Hadoop初識簡介，第2章是Hadoop相關開源項目及偽分布式環境安裝，第3章是分布式存儲HDFS，第4章是MapReduce編程模型，第5章是Hadoop數據倉庫Hive，第6章是Hadoop數據庫HBase，第7章是Pig語言，第8章是Hadoop項目案例，第9章是Mahout項目案例。附錄部分是本書中出現過的專業名詞縮寫、全拼及中文解釋，按照英文字母順序排列，供大家學習時參考。
第1章到第4章屬於Hadoop基礎知識部分，在搭建Hadoop架構時是的知識，第5章到第9章是提高部分，實際中可根據應用需要選擇學習。本書可以用作工科高校相關專業32-40學時的課程教程，其中第7章Pig語言及第9章Mahout項目案例可作為選學內容。
本書由太原理工大學李鳳蓮教授、北京紅亞華宇科技有限公司鄭洪賓CEO任主編，由太原理工大學李彥民、遼寧大學馮勇、中國地質大學吳湘寧、青海警官職業學院張志強、江蘇安全學院黃健任副主編，具體分工是：由馮勇、吳湘寧、張志強、黃健參與教材整體框架設計，由北京紅亞華宇科技有限公司提供實訓素材，由李鳳蓮教授完成教材第1，2，3，4，5，6，8及9章的編寫，太原理工大學李彥民完成教材第7章及附錄的編寫。本書在編寫及校對過程中，特別是項目實踐內容驗證過程中，得到了北京紅亞華宇科技有限公司以及太原理工大學信息與計算機學院數字音視頻技術研究中心大數據課題組碩士生的大力幫助，在此表示衷心感謝。
由於編著者水平有限，書中難免存在錯誤之處，敬請讀者批評指正。

編著者
前言
大數據時代的到來，改變了許多行業的人纔需求模式，大數據方面的人纔成為各信息產業尤其是IT行業的熱門人纔。許多高等院校已經新增大數據技術相關專業，部分院校成立了大數據學院，標志著進行大數據技術人纔培養已經正式納入高等教育的培養需求。基於Hadoop架構搭建大數據分析環境是培養大數據人纔的基本要求，《Hadoop大數據技術應用實踐》教材可作為大數據技術相關專業本科生及高職院校相關專業實踐類的教材，以為培養大數據技術相關人纔打下堅實的基礎。
培養技術型及實踐型人纔是大數據時代*對大數據技術相關人纔的基本要求，也是各信息產業對人纔的基本需求。編寫本書的目的就是要讓大數據技術相關專業學生通過本課程的學習，了解大數據技術的基礎知識，掌握基於Hadoop環境搭建大數據分析架構的基本流程及實現過程，提高學習本課程的興趣，培養解決實際問題的能力。
本書的特色就是實踐性較強，在闡述大數據技術相關基礎知識的同時，輔以大量實踐內容及項目實例，培養了學生的學習興趣，可極大提高學生的動手能力。克服了許多教材注重理論缺少實踐內容的弊端。學生們可在課後，自己進一步動手實踐，提高了學生的學習效率。
本書主要以大數據技術及計算機相關專業的本科生及高職院校學生為讀者對像，注重大數據技術相關基礎知識，尤其是實踐環節的描述，避免了繁瑣的理論知識介紹。全書共包括9章，第1章是Hadoop初識簡介，第2章是Hadoop相關開源項目及偽分布式環境安裝，第3章是分布式存儲HDFS，第4章是MapReduce編程模型，第5章是Hadoop數據倉庫Hive，第6章是Hadoop數據庫HBase，第7章是Pig語言，第8章是Hadoop項目案例，第9章是Mahout項目案例。附錄部分是本書中出現過的專業名詞縮寫、全拼及中文解釋，按照英文字母順序排列，供大家學習時參考。
第1章到第4章屬於Hadoop基礎知識部分，在搭建Hadoop架構時是的知識，第5章到第9章是提高部分，實際中可根據應用需要選擇學習。本書可以用作工科高校相關專業32-40學時的課程教程，其中第7章Pig語言及第9章Mahout項目案例可作為選學內容。
本書由太原理工大學李鳳蓮教授、北京紅亞華宇科技有限公司鄭洪賓CEO任主編，由太原理工大學李彥民、遼寧大學馮勇、中國地質大學吳湘寧、青海警官職業學院張志強、江蘇安全學院黃健任副主編，具體分工是：由馮勇、吳湘寧、張志強、黃健參與教材整體框架設計，由北京紅亞華宇科技有限公司提供實訓素材，由李鳳蓮教授完成教材第1，2，3，4，5，6，8及9章的編寫，太原理工大學李彥民完成教材第7章及附錄的編寫。本書在編寫及校對過程中，特別是項目實踐內容驗證過程中，得到了北京紅亞華宇科技有限公司以及太原理工大學信息與計算機學院數字音視頻技術研究中心大數據課題組碩士生的大力幫助，在此表示衷心感謝。
由於編著者水平有限，書中難免存在錯誤之處，敬請讀者批評指正。

編著者

商品搜索

商品分类

【醫學】

【各大出版社】