作 者:熊澤明,王興奎 編
定 價:55
出 版 社:華中科技大學出版社
出版日期:2022年08月01日
頁 數:248
裝 幀:平裝
ISBN:9787568083775
本書包含課件PPT+習題及答案+視頻素。采用目前行業主流大數據處理技術。校企深度合作,共同開發。理論與實戰相結合,實操性強。
●第1章 大數據概述
1.1 大數據簡介
1.1.1 大數據的發展歷程
1.1.2 大數據的特征
1.1.3 大數據思維
1.2 大數據應用開發流程
1.2.1 數據采集
1.2.2 數據預處理
1.2.3 數據存儲
1.2.4 數據分析
1.2.5 數據可視化
1.3 Hadoop生態體繫
1.3.1 什麼是Hadoop
1.3.2 Hadoop體繫
1.4 本章小結
1.5 課後習題
第2章 Hadoop平臺部署
2.1 安裝準備
2.1.1 虛擬機安裝
2.1.2 安裝CentoS 7操作繫統
2.1.3 centos 7常用指令
2.1.4 網絡配置
2.1.5 SSH服務配置
2.2 Hadoop核心組件
2.2.1 HDFS
2.2.2 MapReduce
2.2.3 YARN
2.3 Hadoop的搭建
2.3.1 配置準備
2.3.2 關閉防火牆
2.3.3 本地模式的環境搭建
2.3.4 偽分布式模式
2.3.5 全分布式模式
2.4 MapReduce開發環境的搭建
2.4.1 安裝IDK
2.4.2 安裝IDEA
2.4.3 配置IDEA及新建測試項目
2.5 本章小結
2.6 課後習題
第3章 Hadoop應用開發
3.1 使用HDFS的shell指令
3.2 使用Java操作HDFS
3.2.1 導入Hadoop開發包
3.2.2 HDFS文件列表
3.2.3 HDFS上傳文件
3.2.4 讀取HDFS文件數據
3.2.5 新建HDFS目錄
3.2.6 刪除HDFS文件、目錄
3.3 認識MapReduce
3.3.1 MapReduce結構
3.3.2 MapReduce基本數據類型
3.3.3 MapReduce案例:WordCount
3.4 本章小結
3.5 課後習題
第4章 Hive數據倉庫開發
4.1 Hive概述
4.1.1 Hive簡介
4.1.2 Hive的特點
4.1.3 Hive體繫結構
4.1.4 Hive和普通關繫型數據庫的異同
4.2 Hive開發環境的搭建
4.2.1 下栽與安裝Hive
4.2.2數據庫
4.2.3 配置Hive
4.3 Hive基本操作
4.3.1 Hive數據類型
4.3.2 Hive常見函數
4.3.3 Hive表操作
4.4 Hive高級操作
4.4.1 排序
4.4.2 分組
4.5 本章小結
4.6 課後習題
第5章 Flume開發應用
5.1 Flume概述
5.2 Flume行業應用
5.2.1 華為雲日志服務
5.2.2 企業核心集成
5.3 安裝Flume
5.3.1 下載Flume源碼
5.3.2 安裝Agent
5.3.3 數據獲取
5.3.4 數據組合
5.3.5 環境配置
5.4 配置過濾器
5.4.1 過濾器的常見用法
5.4.2 環境變量過濾器
5.4.3 外部進程配置過濾器
5.4.4 Hadoop存儲配置過濾器
5.5 Flume自定義實現
5.5.1 RPC客戶端
5.5.2 安全RPC客戶端
5.5.3 故障轉移客戶端
5.5.4 負載均衡RPC客戶端
5.5.5 Transaction接口
5.5.6 Sink
5.5.7 Source
5.6 本章小結
5.7 課後習題
第6章 Kafka開發應用
6.1 Kafka概述
6.1.1 Kafka簡介
6.1.2 Kafka企業聚能
6.2 Kafka的安裝與配置
6.2.1 資源包下載
6.2.2 集群環境
6.2.3 支持軟件安裝
6.2.4 Kafka安裝
6.2.5 Kafka命令行操作
6.2.6 Consumer基礎配置
6.2.7 Producer基礎配置
6.3 Kafka API簡介
6.3.1 Kafka API Producer
6.3.2 Kafka API Consumer
6.3.3 體繫架構
6.3.4 Kafka技術實現
6.4 Kafka監控
6.4.1 Kafka Eagle版本介紹
6.4.2 Kafka Eagle安裝
6.4.3 Kafka Eagle訪問
6.5 Kafka編程
6.5.1 Kafka消息發送流程
6.5.2 Kafka同步發送API
6.5.3 Kafka Consumer
6.5.4 Kafka手動提交offset
6.6 本章小結
6.7 課後習題
第7章 PySpark開發應用
7.1 PySpark概述
7.1.1 PySpark簡介
7.1.2 PySpark與生活
7.2 PySpark配置
7.2.1 下載Spark
7.2.2 安裝配置
7.3 PySpark常用接口
7.3.1 RDD
7.3.2 SQLSI擎
7.4 PySpark案例
7.4.1 聚類分析
7.4.2 數據處理
7.4.3 PageRank算法
7.5 本章小結
7.6 課後習題
第8章 Flink開發應用
8.1 Flink概述
8.1.1 Flink簡介
8.1.2 Flink與電商
8.2 Flink部署
8.2.1 Flink架構簡介
8.2.2 輸入流程
8.2.3 環境搭建
8.2.4 Flink Web用戶界面介紹
8.3 Flink API
8.3.1 常用API介紹
8.3.2 Watermark策略
8.3.3 Keyed DataStream
8.4 Flink案例
8.4.1 項目案例簡介
8.4.2 MySQL配置文件
8.4.3 創建讀取配置文件的工具類
8.4.4 Json解析工具類
8.4.5 創建Druid連接池
8.4.6 創建MySQL的代理類
8.4.7 訪問人數統計
8.4.8 實時統計
8.4.9 實時統計商品
8.4.10 實時數據統計
8.5 本章小結
8.6 課後習題
參考文獻
本書主要圍繞大數據處理技術展開編寫,配套教學資源完善(包含錄制的操作性較強的視頻微課和教師授課PPT資料)。全書共分8章,第1章概述了大數據;第2章介紹了大數據平臺部署的詳細過程;第3章介紹了Hadoop應用開發、使甩Java操作HDFS和認識MapReduce;第4章介紹了Hive數據倉庫開發、Hive開發環境的搭建租Hive高級操作;第5章介紹了Flume開發應用、安裝Flume、Flume自定義實現;第6章介紹了Kafka開發應用、Kafka的安裝與配置、Kafka監控和編程實現;第7章介紹了PySpark開發應用、PySpark配置和PySpark案例;第8章介紹了Flink開發應用、Flink部署和Flink案例。本書項目案例通俗易懂,大數據開發技術采用的是目前行業主流技術。實訓環境部署簡單,學習案例步驟完備。可作為高等職業院校大數據專業核心課程的教學用書,也可作為大數據處理技術等
熊澤明,王興奎 編
公開發表論文13篇,其中核心期刊6篇;主持主研重慶市級教改項目及科研項目15項;國家軟件著作權2項;國家職業技能標準《農業經理人5-05-01-02》核心專家;國家農業行業標準《農業職業經理人》NY/T2805-2015核心專家。中國農業大學出版社《計算機應用基礎》,2008,主編西南大學出版社《農村實用信息技術》,2015,主編電子科技大學出版社《高級辦公軟件應用教程》,2019,副主編電子科技大學出版社《python程序設計基礎教程》,2020,主編四川大學出版社《3DS MAX2018虛擬現實(VR)模型制作項目案例》,主編中國傳媒大學出版社《大學信息技術基礎》,副主編合肥工業大學出版社等