作 者:王秀友,丁小娜,劉運 編
定 價:59.8
出 版 社:人民郵電出版社
出版日期:2021年02月01日
頁 數:272
裝 幀:平裝
ISBN:9787115530080
1. 慕課版教材,各章節都配備了以二維碼為載體的微課。 2. 配套資源豐富,包括課件、源代碼、題庫。 3. 教材厚度適中,難度較低,案例式教學,適合應用型本科和職業院校。
●第1章緒論1
1.1認識大數據2
1.1.1大數據的定義2
1.1.2大數據的特點2
1.1.3大數據行業應用3
1.1.4Hadoop與大數據5
1.1.5其他大數據處理平臺5
1.1.6大數據人纔7
1.2什麼是Hadoop8
1.2.1Hadoop簡介8
1.2.2Hadoop的發展歷史8
1.2.3Hadoop的特點9
1.3Hadoop核心10
1.3.1分布式文件繫統——HDFS11
1.3.2分布式計算框架——MapReduce13
1.4Hadoop常用組件14
1.5Hadoop在國內外的應用情況16
小結16
習題16
第2章Linux操作繫統的安裝17
2.1VirtualBox虛擬機的安裝18
2.1.1VirtualBox的下載和安裝18
2.1.2設置VirtualBox存儲文件夾22
2.1.3在VirtualBox中創建虛擬機24
2.2Linux操作繫統簡介28
2.2.1概述28
2.2.2特點28
2.2.3Linux操作繫統的組成29
2.2.4Linux基本命令31
2.2.5Linux操作繫統的版本34
2.3Linux操作繫統(Ubuntu)的安裝34
2.3.1Linux操作繫統(Ubuntu)的下載34
2.3.2安裝Ubuntu36
2.3.3啟動Ubuntu41
2.3.4設置終端42
2.3.5設置共享剪貼板45
2.3.6設置共享文件夾49
小結52
習題52
第3章Hadoop的偽分布式安裝53
3.1JDK的檢查與安裝54
3.1.1檢查是否安裝JDK54
3.1.2安裝JDK54
3.2配置SSH無密碼登錄58
3.3Hadoop的下載與安裝61
3.3.1Hadoop的安裝模式61
3.3.2Hadoop的下載62
3.3.3Hadoop的安裝63
3.3.4配置Hadoop前準備65
3.4Hadoop環境配置66
3.4.1設置Hadoop環境變量66
3.4.2修改Hadoop配置文件68
3.4.3創建並格式化文件繫統73
3.5啟動Hadoop73
3.6查看HDFSWeb頁面75
3.7查看YARNWeb頁面76
小結77
習題77
第4章Hadoop集群的搭建及配置78
4.1Hadoop集群中節點角色79
4.2設置集群前的準備工作80
4.2.1集群中節點的規劃80
4.2.2設置網絡81
4.3設置服務器83
4.3.1設置Master服務器83
4.3.2復制虛擬機89
4.3.3設置Slave服務器92
4.3.4設置Master服務器到Slave服務器的SSH無密碼登95
4.3.5格式化文件繫統96
4.4啟動和關閉Hadoop集群97
4.4.1啟動和關閉Hadoop集群97
4.4.2驗證Hadoop集群是否啟動成功98
4.5查看Hadoop集群的基本信息99
4.5.1查看集群的HDFS信息99
4.5.2查看集群的YARN信息101
4.6在Hadoop集群中運行程序102
小結103
習題103
第5章HadoopHDFS命令104
5.1HDFS常用命令總覽105
5.2創建與查看HDFS目錄105
5.2.1創建HDFS目錄105
5.2.2查看HDFS目錄106
5.3本地計算機和HDFS之間的文件復制107
5.3.1從本地計算機復制文件到HDFS107
5.3.2將HDFS上的文件復制到本地計算機110
5.4復制與刪除HDFS文件112
5.5查看HDFS文件內容113
小結114
習題114
第6章MapReduce編程入門115
6.1認識MapReduce116
6.1.1MapReduce的編程思想116
6.1.2MapReduce的運行環境118
6.2使用Eclipse創建MapReduce工程122
6.2.1下載與安裝Eclipse122
6.2.2配置MapReduce環境127
6.3第一個MapReduce程序:WordCount131
6.3.1WordCount的設計思路131
6.3.2編寫WordCount132
6.3.3分析WordCount程序140
6.3.4運行程序142
小結144
習題144
第7章Hive145
7.1Hive簡介146
7.1.1什麼是Hive146
7.1.2為什麼使用Hive146
7.1.3Hive的體繫結構146
7.1.4Hive與關繫型數據庫的區別147
7.數據庫148
7.2.1下載和安裝MySQL數據庫148
7.2.2登錄MySQL數據庫153
7.2.3使用MySQL數據庫153
7.3安裝與配置Hive156
7.3.1準備工作156
7.3.2下載Hive156
7.3.3安裝Hive157
7.3.4配置Hive158
7.3.5啟動並驗證Hive161
7.4數據類型和存儲格式162
7.4.1基本數據類型162
7.4.2復雜數據類型162
7.4.3存儲格式163
7.4.4數據格式163
7.5Hive中的數據定義164
7.5.1操作數據庫164
7.5.2查看與創建數據表166
7.5.3Hive中其他的數據表169
7.5.4修改數據表170
7.5.5刪除數據表171
7.6Hive中的數據操作171
7.6.1加載數據171
7.6.2插入數據174
7.6.3導出數據178
小結179
習題179
第8章Sqoop180
8.1安裝並配置Sqoop181
8.1.1下載並安裝Sqoop181
8.1.2配置Sqoop183
8.1.3驗證Sqoop185
8.1.4測試Sqoop與MySQL的連接185
8.2Sqoop命令186
8.3Sqoop導入188
8.3.1使用Sqoop把MySQL數據導入HDFS189
8.3.2使用Sqoop把MySQL數據導入Hive191
8.3.3有選擇地導入數據192
8.4Sqoop導出193
8.4.1使用Sqoop將Hadoop數據導出到MySQL194
8.4.2使用Sqoop將Hive數據導出到MySQL195
小結197
習題197
第9章HBase198
9.1ZooKeeper集群的安裝與配置199
9.1.1ZooKeeper簡介199
9.1.2ZooKeeper安裝199
9.1.3配置ZooKeeper集群201
9.1.4啟動ZooKeeper集群204
9.2HBase集群的安裝與配置206
9.2.1下載並安裝HBase206
9.2.2配置HBase207
9.2.3啟動並驗證HBase211
9.3HBase的基本應用212
9.3.1創建表212
9.3.2插入數據213
9.3.3掃描全表的數據213
9.3.4獲取某一行的數據213
9.3.5刪除表213
小結213
習題214
第10章Spark的介紹與安裝215
10.1Spark概述216
10.1.1Spark繫統架構216
10.1.2Spark運行流程217
10.2安裝與配置Scala218
10.2.1下載Scala218
10.2.2安裝Scala219
10.2.3啟動與應用Scala220
10.3安裝與配置Spark222
10.3.1安裝模式222
10.3.2安裝Spark222
10.3.3配置環境變量224
10.3.4啟動並驗證Spark226
10.4運行Spark程序227
小結228
習題228
第11章綜合案例——網絡爬蟲大數據分析229
11.1網絡爬蟲概述230
11.1.1網絡爬蟲230
11.1.2網絡爬蟲——快手爬票230
11.1.3開發語言選擇231
11.2搭建Python開發環境231
11.2.1開發環境概述231
11.2.2安裝Python232
11.3搭建Qt環境235
11.3.1安裝Qt235
11.3.2安裝PyCharm開發工具237
11.4主窗體設計244
11.4.1Qt拖曳控件244
11.4.2代碼調試細節248
11.5分析網頁請求參數251
11.6下載站名文件253
11.7車票信息的請求與顯示255
11.7.1發送與分析車票信息的查詢請求255
11.7.2主窗體中顯示查票信息258
11.8Hadoop中的網絡爬蟲261
小結262
習題262
本書繫統全面地介紹了有關Hadoop的各類知識。全書共分11章,內容包括緒論、Linux操作繫統的安裝、Hadoop的偽分布式安裝、Hadoop集群的搭建及配置、Hadoop HDFS命令、MapReduce編程入門、Hive、Sqoop、HBase、Spark的介紹與安裝、綜合案例——網絡爬蟲大數據分析。全書每章內容都與實例緊密結合,有助於學生理解知識、應用知識,達到學以致用的目的。
本書各章都配備了視頻課程,並且在人郵學院平臺上提供了相應的慕課課程。此外,本書還提供了所有實例的源代碼、制作精良的電子課件、重點及難點教學視頻、在線測試題(包括選擇題、填空題題庫及自測試卷等內容)。其中,源代碼全部經過精心測試,能夠在Ubuntu繫統上編譯和運行。
本書可作為應用型本科院校計算機專業和軟件工程專業、高職院校軟件專業及相關專業的教材,同時也適合Hadoop愛好者、初級的等