●前言
第一部分 基礎篇
第1章 淺談大數據
1.1 大數據產生的背景
1.1.1 信息化浪潮
1.1.2 信息技術變革
1.1.3 數據生產方式變革
1.1.4 大數據的發展歷程
1.1.5 大數據時代的挑戰
1.1.6 大數據時代面臨的機遇
1.2 大數據概述
1.2.1 大數據的概念
1.2.2 大數據的特征
1.2.3 大數據的影響
1.2.4 大數據與互聯網、雲計算的關繫
1.3 大數據挖掘概述
1.3.1 數據挖掘的概念
1.3.2 大數據環境下的數據挖掘
1.3.3 數據挖掘的過程
1.3.4 數據挖掘常用工具
1.4 大數據平臺
1.5 小結
第2章 大數據基礎架構Hadoop——實現大數據分布式存儲與計算
2.1 Hadoop技術概述
2.1.1 Hadoop的發展歷史
2.1.2 Hadoop的特點
2.1.3 Hadoop存儲框架—HDFS
2.1.4 Hadoop計算引擎—MapReduce
2.1.5 Hadoop資源管理器—YARN
2.2 Hadoop應用場景介紹
2.3 Hadoop生態繫統
2.4 Hadoop安裝配置
2.4.1 創建Linux虛擬機
2.4.2 設置固定IP
2.4.3 遠程連接虛擬機
2.4.4 配置本地yum源及安裝常用軟件
2.4.5 在Linux下安裝Java
2.4.6 修改配置文件
2.4.7 克隆虛擬機
2.4.8 配置SSH免密登錄
2.4.9 配置時間同步服務
2.4.10 啟動關閉集群
2.5 Hadoop HDFS文件操作命令
2.5.1 創建目錄
2.5.2 上傳和下載文件
2.5.3 查看文件內容
2.5.4 刪除文件或目錄
2.6 Hadoop MapReduce編程開發
2.6.1 使用IDEA搭建MapReduce開發環境
2.6.2 通過詞頻統計了解MapReduce執行流程
2.6.3 通過源碼認識MapReduce編程
2.7 場景應用:電影網站用戶影評分析
2.7.1 了解數據字段並分析需求
2.7.2 多維度分析用戶影評
2.8 小結
第3章 數據倉庫Hive——實現大數據查詢與處理
3.1 Hive技術概述
3.1.1 Hive簡介
3.1.2 Hive的特點
3.1.3 Hive的架構
3.2 Hive應用場景介紹
3.3 Hive安裝配置
3.3.1 配置MySQL數據庫
3.3.2 配置Hive數據倉庫
3.4 HiveQL查詢語句
3.4.1 Hive的基礎數據類型
3.4.2 創建與管理數據庫
3.4.3 創建與管理數據表
3.4.4 Hive表的數據裝載
3.4.5 掌握select查詢
3.4.6 了解運算符的使用
3.4.7 掌握Hive內置函數
3.5 Hive自定義函數的使用
3.5.1 了解Hive自定義函數
3.5.2 自定義UDF
3.5.3 自定義UDAF
3.5.4 自定義UDTF
3.6 場景應用:基站掉話率排名統計
3.6.1 創建基站數據表並導入數據
3.6.2 統計基站掉話率
3.7 小結
第4章 分布式協調框架ZooKeeper——實現應用程序分布式協調服務
4.1 ZooKeeper技術概述
4.1.1 ZooKeeper簡介
4.1.2 ZooKeeper的特點
4.2 ZooKeeper應用場景介紹
4.3 ZooKeeper分布式安裝配置
4.4 ZooKeeper客戶端常用命令
4.4.1 創建znode
4.4.2 獲取znode數據
4.4.3 監視znode
4.4.4 刪除znode
4.4.5 設置znode權限
4.5 ZooKeeper Java API操作
4.5.1 創建IDEA工程並連接ZooKeeper
4.5.2 獲取、修改和刪除znode數據
4.6 場景應用:服務器上下線動態監控
4.7 小結
第5章 分布式數據庫HBase——實現大數據存儲與快速查詢
5.1 HBase技術概述
5.1.1 HBase的發展歷程
5.1.2 HBase的特點
5.1.3 HBase的核心功能模塊
5.1.4 HBase的數據模型
5.1.5 設計表結構的原則
5.2 HBase應用場景介紹
5.3 HBase安裝配置
5.4 HBase Shell操作
5.4.1 創建與刪除表
5.4.2 插入數據
5.4.3 查詢數據
5.4.4 刪除數據
5.4.5 掃描全表
5.4.6 按時間版本查詢記錄
5.5 HBase高級應用
5.5.1 IDEA開發環境搭建
5.5.2 HBase Java API使用
5.5.3 HBase與MapReduce交互
5.6 場景應用:用戶通話記錄數據存儲設計及查詢
5.6.1 設計通話記錄數據結構
5.6.2 查詢用戶通話記錄
5.7 小結
第6章 分布式計算框架Spark——實現大數據分析與挖掘
6.1 Spark技術概述
6.1.1 Spark的發展歷史
6.1.2 Spark的特點
6.1.3 Spark生態圈
6.2 Spark應用場景介紹
6.3 Spark集群安裝配置
6.4 Spark Core—底層基礎框架
6.4.1 Spark集群架構
6.4.2 Spark作業運行模式
……
這是一本講解如何基於Hadoop技術棧進行大數據挖掘和分析的著作。它能帶領你零基礎快速掌握Hadoop技術棧,以及基於它的大數據挖掘與分析的流程和方法。 全書核心內容分為兩部分。 1)Hadoop技術棧: 詳細講解了Hadoop、Hive、HBase、Spark、Flume、Kafka等大數據技術的基礎、原理、應用,通過這部分內容讀者能對Hadoop技術棧有從宏觀到微觀的全面了解。 2)Hadoop大數據挖掘: 通過3個綜合案例,逐步展示了基於Hadoop的大數據挖掘的完整流程和方法。 幾位作者在大數據項目研發、教育、咨詢等領域有10餘年的豐富經驗,對教育界和企業界供需兩端的了解非常深入,全書的結構和內容圍繞這兩端的需求精心設計,能讓Hadoop大數據挖掘與分析的教育和學習事半功倍。 本書第1版出版後,獲得了教育界和企業界的良好反饋,等