●基礎篇
章大數據概論
1.1大數據概述
1.1.1大數據的定義
1.1.2大數據的特征
1.2大數據的分析過程
1.2.1大數據的采集
1.2.2大數據的存儲方式
1.2.3大數據分析技術
1.2.4大數據的展示及應用
1.3大數據的價值、挑戰與風險
1.3.1商業價值
1.3.2社會生活價值
1.3.3大數據的挑戰與風險
1.4大數據的應用
1.5大數據的處理流程
1.6大數據成為人工智能產業的燃料
1.7大數據技術的發展前景
小結
習題
第2章大數據集群繫統基礎
2.1大數據集群繫統概述
2.1.1集群的分類
2.1.2集群的目的
2.2Linux操作繫統
2.2.1Linux操作繫統簡介
2.2.2Linux操作繫統的特性
2.2.3Linux安裝與基礎操作
2.2.4Linux常用命令
2.3虛擬化技術
2.3.1虛擬化技術簡介
2.3.2虛擬技術的原理
2.3.3常見的虛擬化軟件
2.3.4虛擬化技術的優勢和劣勢
2.4CentOS大數據集群繫統的組成
2.5大數據集群技術的架構
2.6操作實踐:大數據集群的部署
2.6.1集群規劃
2.6.2網絡配置
2.6.3安全配置
2.6.4時間同步
2.6.5SSH登錄
小結
習題
第3章Hadoop分布式繫統
3.1Hadoop概述
3.1.1Hadoop簡介
3.1.2Hadoop的發展歷程
3.1.3Hadoop原理及運行機制
3.2Hadoop相關技術及生態繫統
3.3操作實踐:Hadoop安裝與配置
3.3.1安裝JDK
3.3.2安裝Hadoop
3.3.3配置Hadoop
3.3.4格式化
3.3.5運行Hadoop
小結
習題
第4章HDFS分布式文件繫統
4.1HDFS
4.1.1設計前提和設計目標
4.1.2Namenode和Datanode
4.1.3文件繫統的名字空間
4.1.4數據復制
4.1.5HDFS讀流程
4.1.6HDFS寫流程
4.2HDFS操作實踐
4.2.1HDFSShell
4.2.2HDFSJavaAPI
4.2.3Eclipse開發環境
4.2.4綜合實例
小結
習題
第5章MapReduce分布式計算
5.1MapReduce簡介
5.1.1MapReduce架構
5.1.2MapReduce的原理
5.1.3MapReduce的工作機制
5.2MapReduce操作實踐
5.2.1MapReduceWordCount編程實例
5.2.2MapReduce倒排索引編程實例
小結
習題
第6章HBase分布式數據庫應用
6.1HBase簡介
6.1.1HBase架構
6.1.2HBase的存儲
6.2HBase集群部署
6.2.1HBase參數配置
6.2.2HBase運行與測試
6.3HBaseShell操作命令
6.3.1general操作
6.3.2namespace操作
6.3.3DDL操作
6.3.4DML操作
6.3.5授權
6.4HBase過濾器
6.5HBase編程
6.5.1HBase表操作編程
6.5.2HBase過濾查詢編程
小結
習題
核心篇
第7章YARN資源分配
7.1統一資源管理和調度平臺引例
7.1.1背景
7.1.2特點
7.1.3典型的統一資源調度平臺
7.2YARN簡介
7.2.1YARN架構
7.2.2YARN的工作流程
7.2.3YARN的優勢
7.3操作實踐:YARNShell實例
小結
習題
第8章Spark集群計算
8.1Spark簡介
8.1.1Spark生態繫統
8.1.2Spark架構
8.2SparkRDD
8.2.1RDD的依賴關繫
8.2.2作業調度
8.2.3內存管理
8.2.4檢查點支持
8.3Spark集群部署及應用案例
8.3.1Spark參數配置
8.3.2Spark集群運行
8.3.3Spark交互
8.3.4Spark算子
8.3.5Spark算法實例1:詞頻統計
8.3.6Spark算法實例2:相關繫數
小結
習題
第9章Spark機器學習
9.1機器學習概述
9.1.1機器學習的發展史
9.1.2機器學習步驟
9.2SparkMLlib概述
9.2.1數據類型
9.2.2基本統計——基於DataFrame的API
9.2.3基本統計——基於RDD的API
9.3Spark實例
9.3.1聚類問題
9.3.2隨機森林
小結
習題
0章Hive數據倉庫應用
10.1Hive簡介
10.1.1Hive組成模塊
10.1.2Hive執行流程
10.1.3MetaStore存儲模式
10.2Hive安裝與配置
10.2.1Hive參數配置
10.2.2Hive運行與測試
10.2.3HiveBeeline
10.3數據類型和文件格式
10.3.1數據類型
10.3.2文件格式
10.4Hive數據定義與數據操作
10.4.1基本概念
10.4.2數據庫管理
10.4.3表的管理
10.4.4外部表的管理
10.4.5分區管理
10.4.6數據操作
10.4.7桶的操作
10.4.8索引
10.5Hive數據查詢
10.5.1簡單查詢
10.5.2復雜查詢
10.5.3JOIN連接查詢
10.5.4其他語句
10.6Hive編程
10.6.1JDBC函數
10.6.2完整實例
小結
習題
1章ZooKeeper協調服務
11.1ZooKeeper簡介
11.1.1ZAB協議
11.1.2ZooKeeper數據模型
11.1.3會話
11.1.4事件監聽器
11.1.5訪問權限
11.2ZooKeeper集群部署
11.3ZooKeeper基本命令
11.4ZooKeeper應用
11.4.1Hadoop
11.4.2Spark
11.4.3Hive
11.5ZooKeeper編程
11.5.1ZooKeeper讀/寫操作
11.5.2集群狀態監控
小結
習題
應用篇
2章醫藥大數據案例分析
12.1項目概述
12.2功能需求
12.3軟件關鍵技術
12.4效果展示
12.5繫統構架設計
12.5.1繫統組成
12.5.2繫統協作方式
12.5.3繫統網絡拓撲
12.5.4繫統建設方案
12.6數據存儲設計
12.7數據分析
12.8數據展示
小結
習題
參考文獻
內容簡介
本書共分12章,分為基礎篇、核心篇和應用篇。基礎篇包括大數據概論、大數據集群繫統基礎、Hadoop分布式繫統、HDFS分布式文件繫統、MapReduce分布式計算、HBase分布式數據庫應用;核心篇包括YARN資源分配、Spark集群計算、Spark機器學習、Hive數據倉庫應用、ZooKeeper協調服務;應用篇包括醫藥大數據案例分析。本書可以作為高等院校大數據技術相關課程本科生教材,也可以作為大數據技術基礎相關課程研究生教材,還可以作為從事大數據相關工作的工程技術人員的參考用書。