了得網計算機/網絡_Cloudera Hadoop大數據平臺實戰指南

產品特色

編輯推薦

本書的定位是大數據從入門到應用的簡明繫統教程。對於Hadoop生態體繫，企業通常使用的是Hadoop商業版本，因此本書實操的運行環境采用Cloudera的CDH。本書的特色是理論聯繫實踐、實用性強、內容全面、講解詳細、深入淺出，是大數據技術愛好者入門的*圖書。本書*後給出的兩個實戰案例極有價值，方便讀者對所學的知識融會貫通。

內容簡介

對於入門和學習大數據技術的讀者來說，大數據技術的生態圈和知識體繫過於龐大，可能還沒有開始學習就已經陷入眾多的陌生名詞和泛泛的概念中。本書的切入點明確而清晰，從Hadoop 生態繫統的明星 Cloudera 入手，逐步引出各類大數據基礎和核心應用框架。
本書分為18章，繫統介紹Hadoop 生態繫統大數據相關的知識，包括大數據概述、Cloudera Hadoop平臺的安裝部署、HDFS分布式文件繫統、MapReduce計算框架、資源管理調度框架YARN 、Hive數據倉庫、數據遷移工具Sqoop、分布式數據庫HBase、ZooKeeper分布式協調服務、準實時分析繫統Impala、日志采集工具Flume、分布式消息繫統Kafka、ETL工具Kettle、Spark計算框架等內容，*後給出兩個綜合實操案例，以鞏固前面所學的知識點。
本書既適合Hadoop初學者、大數據技術工程師和大數據技術愛好者自學使用，亦可作為高等院校和培訓機構大數據相關課程的培訓用書。

作者簡介

宋立桓，連續十屆微軟有價值專家MVP、繫統集成高級項目經理、大數據與雲計算培訓講師、微軟技術大會動手實驗講師，有20年的工作經驗，曾服務於微軟擔任合作伙伴技術顧問。目前在騰訊，擔任騰訊雲解決方案架構師。

陳建平，曾擔任IBM(上海)高級數據分析經理，資深技術講師，10年相關項目經歷，長期從事大數據相關研究分析工作。

目錄
第1章大數據概述 1
1.1 大數據時代的數據特點 1
1.2 大數據時代的發展趨勢——數據將成為資產 2
1.3 大數據時代處理數據理念的改變 3
1.3.1 要全體不要抽樣 3
1.3.2 要效率不要精確 3
1.3.3 要相關不要因果 4
1.4 大數據時代的關鍵技術 5
1.5 大數據時代的典型應用案例 5
1.5.1 塔吉特超市精準營銷案例 5
1.5.2 谷歌流感趨勢案例 6
1.5.3 證券行業案例 6
1.5.4 某運營商大數據平臺案例 7目   錄
第1章大數據概述   1
1.1 大數據時代的數據特點   1
1.2 大數據時代的發展趨勢——數據將成為資產   2
1.3 大數據時代處理數據理念的改變   3
1.3.1 要全體不要抽樣   3
1.3.2 要效率不要精確   3
1.3.3 要相關不要因果   4
1.4 大數據時代的關鍵技術   5
1.5 大數據時代的典型應用案例   5
1.5.1 塔吉特超市精準營銷案例   5
1.5.2 谷歌流感趨勢案例   6
1.5.3 證券行業案例   6
1.5.4 某運營商大數據平臺案例   7
1.6 Hadoop概述和介紹   7
1.6.1 Hadoop 發展歷史和應用現狀   7
1.6.2 Hadoop 的特點   8
1.6.3 Hadoop 的生態繫統   8
第2章 Cloudera大數據平臺介紹   10
2.1 Cloudera簡介   10
2.2 Cloudera的Hadoop發行版CDH簡介   11
2.2.1 CDH概述   11
2.2.2 CDH和Apache Hadoop對比   12
2.3 Cloudera Manager大數據管理平臺介紹   12
2.3.1 Cloudera Manager概述和整體架構   12
2.3.2 Cloudera Manager的基本核心功能   14
2.3.3 Cloudera Manager的高級功能   18
2.4 Cloudera平臺參考部署架構   19
2.4.1 Cloudera的軟件體繫結構   19
2.4.2 群集硬件規劃配置   19
2.4.3 Hadoop集群角色分配   21
2.4.4 網絡拓撲   23
第3章 Cloudera Manager及CDH離線安裝部署   25
3.1 安裝前的準備工作   25
3.2 Cloudera Manager及CDH安裝   30
3.3 添加其他大數據組件   35
第4章分布式文件繫統HDFS   37
4.1 HDFS簡介   37
4.2 HDFS體繫結構   38
4.2.1 HDFS 架構概述   38
4.2.2 HDFS命名空間管理   38
4.2.3 NameNode   39
4.2.4 SecondaryNameNode   39
4.3 HDFS 2.0新特性   41
4.3.1 HDFS HA   41
4.3.2 HDFS Federation   42
4.4 HDFS操作常用shell命令   43
4.4.1 HDFS目錄操作和文件處理命令   43
4.4.2 HDFS的Web管理界面   44
4.4.3 dfsadmin管理維護命令   45
4.4.4 namenode命令   47
4.5 Java編程操作HDFS實踐   47
4.6 HDFS 的參數配置和規劃   49
4.7 使用Cloudera Manager啟用HDFS HA   51
4.7.1 HDFS HA高可用配置   51
4.7.2 HDFS HA高可用功能測試   54
第5章分布式計算框架MapReduce   57
5.1 MapReduce概述   57
5.2 MapReduce原理介紹   58
5.2.1 工作流程概述   58
5.2.2 MapReduce框架的優勢   58
5.2.3 MapReduce執行過程   59
5.3 MapReduce編程——單詞示例解析   59
5.4 MapReduce應用開發   60
5.4.1 配置MapReduce開發環境   60
5.4.2 編寫和運行MapReduce程序   61
第6章資源管理調度框架YARN   65
6.1 YARN產生背景   65
6.2 YARN框架介紹   66
6.3 YARN工作原理   67
6.4 YARN框架和MapReduce1.0框架對比   69
6.5 CDH集群的YARN參數調整   69
第7章數據倉庫Hive   72
7.1 Hive簡介   72
7.2 Hive體繫架構和應用場景   73
7.2.1 Hive體繫架構   73
7.2.2 Hive應用場景   74
7.3 Hive的數據模型   75
7.3.1 內部表   75
7.3.2 外部表   75
7.3.3 分區表   75
7.3.4 桶   75
7.4 Hive實戰操作   76
7.4.1 Hive內部表操作   77
7.4.2 Hive外部表操作   77
7.4.3 Hive分區表操作   79
7.4.4 桶表   80
7.4.5 Hive應用實例WordCount   82
7.4.6 UDF   84
7.5 基於Hive的應用案例   86
第8章數據遷移工具Sqoop   88
8.1 Sqoop概述   88
8.2 Sqoop工作原理   89
8.3 Sqoop版本和架構   91
8.4 Sqoop實戰操作   93
第9章分布式數據庫HBase   100
9.1 HBase概述   100
9.2 HBase數據模型   101
9.3 HBase生態地位和繫統架構   101
9.3.1 HBase的生態地位解析   101
9.3.2 HBase繫統架構   102
9.4 HBase運行機制   103
9.4.1 Region   103
9.4.2 Region Server工作原理   103
9.4.3 Store工作原理   104
9.5 HBase操作實戰   104
9.5.1 HBase常用shell命令   104
9.5.2 HBase編程實踐   107
9.5.3 HBase參數調優的案例分享   109
第10章分布式協調服務ZooKeeper   111
10.1 ZooKeeper的特點   111
10.2 ZooKeeper的工作原理   112
10.2.1 基本架構   112
10.2.2 ZooKeeper實現分布式Leader節點選舉   112
10.2.3 ZooKeeper配置文件重點參數詳解   112
10.3 ZooKeeper典型應用場景   115
10.3.1 ZooKeeper實現HDFS的NameNode高可用HA   115
10.3.2 ZooKeeper實現HBase的HMaster高可用   116
10.3.3 ZooKeeper在Storm集群中的協調者作用   116
第11章準實時分析繫統Impala   118
11.1 Impala概述   118
11.2 Impala組件構成   119
11.3 Impala繫統架構   119
11.4 Impala的查詢處理流程   120
11.5 Impala和Hive的關繫和對比   121
11.6 Impala安裝   122
11.7 Impala入門實戰操作   124
第12章日志采集工具Flume   128
12.1 Flume概述   128
12.2 Flume體繫結構   129
12.2.1 Flume外部結構   129
12.2.2 Flume的Event事件概念   130
12.2.3 Flume的Agent   130
12.3 Flume安裝和集成   131
12.3.1 搭建Flume環境   131
12.3.2 Kafka與Flume集成   132
12.4 Flume操作實例介紹   132
12.4.1 例子概述   132
12.4.2 步：配置數據流向   132
12.4.3 第二步：啟動服務   133
12.4.4 第三步：新建空數據文件   133
12.4.5 第四步：運行flume-ng命令   133
12.4.6 第五步：運行命令腳本   134
12.4.7 後一步：測試結果   134
第13章分布式消息繫統Kafka   135
13.1 Kafka架構設計   135
13.1.1 基本架構   135
13.1.2 基本概念   136
13.1.3 Kafka主要特點   136
13.2 Kafka原理解析   137
13.2.1 主要的設計理念   137
13.2.2 ZooKeeper在Kafka的作用   137
13.2.3 Kafka在ZooKeeper的執行流程   137
13.3 Kafka安裝和部署   138
13.3.1 CDH5完美集成Kafka   138
13.3.2 Kafka部署模式和配置   139
13.4 Java操作Kafka消息處理實例   141
13.4.1 例子概述   141
13.4.2 步：新建工程   141
13.4.3 第二步：編寫代碼   141
13.4.4 第三步：運行發送數據程序   142
13.4.5 後一步：運行接收數據程序   143
13.5 Kafka與HDFS的集成   143
13.5.1 與HDFS集成介紹   143
13.5.2 與HDFS集成實例   144
13.5.3 步：編寫代碼——發送數據   144
13.5.4 第二步：編寫代碼——接收數據   145
13.5.5 第三步：導出文件   146
13.5.6 第四步：上傳文件   146
13.5.7 第五步：運行程序——發送數據   146
13.5.8 第六步：運行程序——接收數據   147
13.5.9 後一步：查看執行結果   147
第14章大數據ETL工具Kettle   148
14.1 ETL原理   148
14.1.1 ETL簡介   148
14.1.2 ETL在數據倉庫中的作用   149
14.2 Kettle簡介   149
14.3 Kettle完整案例實戰   150
14.3.1 案例介紹   150
14.3.2 終效果   150
14.3.3 表說明   150
14.3.4 步：準備數據庫數據   151
14.3.5 第二步：新建轉換   152
14.3.6 第三步：新建數據庫連接   153
14.3.7 第四步：拖動表輸入組件   153
14.3.8 第五步：設置屬性——order表   154
14.3.9 第六步：設置屬性——user表   155
14.3.10 第七步：拖動流查詢並設置屬性——流查詢   155
14.3.11 第八步：設置屬性——product表   156
14.3.12 第九步：連接組件   156
14.3.13 第十步：設置屬性——文本輸出   156
14.3.14 後一步：運行程序並查看結果   157
14.4 Kettle調度和命令   158
14.4.1 通過頁面調度   158
14.4.2 通過腳本調度   159
14.5 Kettle使用原則   161
第15章大規模數據處理計算引擎Spark   162
15.1 Spark簡介   162
15.1.1 使用背景   162
15.1.2 Spark特點   163
15.2 Spark架構設計   163
15.2.1 Spark整體架構   163
15.2.2 關鍵運算組件   164
15.2.3 RDD介紹   164
15.2.4 RDD操作   165
15.2.5 RDD依賴關繫   166
15.2.6 RDD源碼詳解   167
15.2.7 Scheduler   168
15.2.8 Storage   168
15.2.9 Shuffle   169
15.3 Spark編程實例   170
15.3.1 實例概述   170
15.3.2 步：編輯數據文件   170
15.3.3 第二步：編寫程序   171
15.3.4 第三步：上傳JAR文件   171
15.3.5 第四步：遠程執行程序   172
15.3.6 後一步：查看結果   172
15.4 Spark SQL實戰   173
15.4.1 例子概述   173
15.4.2 步：編輯數據文件   173
15.4.3 第二步：編寫代碼   174
15.4.4 第三步：上傳文件到服務器   174
15.4.5 第四步：遠程執行程序   174
15.4.6 後一步：查看結果   175
15.5 Spark Streaming實戰   175
15.5.1 例子概述   175
15.5.2 步：編寫代碼   175
15.5.3 第二步：上傳文件到服務器   176
15.5.4 第三步：遠程執行程序   177
15.5.5 第四步：上傳數據   177
15.5.6 後一步：查看結果   177
15.6 Spark MLlib實戰   178
15.6.1 例子步驟   178
15.6.2 步：編寫代碼   178
15.6.3 第二步：上傳文件到服務器   179
15.6.4 第三步：遠程執行程序   179
15.6.5 第四步：上傳數據   180
15.6.6 後一步：查看結果   180
第16章大數據全棧式開發語言Python   182
16.1 Python簡介   182
16.2 Python安裝和配置   183
16.2.1 Anaconda介紹   183
16.2.2 Anaconda下載   183
16.2.3 Anaconda安裝   184
16.2.4 Anaconda包管理   185
16.2.5 PyCharm下載   185
16.2.6 PyCharm安裝   185
16.2.7 PyCharm使用   187
16.3 Python入門   190
16.3.1 例子概述   190
16.3.2 步：新建Python文件   190
16.3.3 第二步：設置字體大小   191
16.3.4 第三步：編寫代碼   191
16.3.5 第四步：執行程序   192
16.3.6 後一步：改變輸入   192
16.4 Python數據科學庫pandas入門   193
16.4.1 例子概述   193
16.4.2 pandas包介紹   194
16.4.3 步：打開Jupyter Notebook   194
16.4.4 第二步：導入包   194
16.4.5 第三步：定義數據集   195
16.4.6 第四步：過濾數據   195
16.4.7 後一步：獲取數據   196
16.5 Python繪圖庫matplotlib入門   197
16.5.1 例子概述   197
16.5.2 步：新建一個Python文件   197
16.5.3 第二步：引入畫圖包   197
16.5.4 第三步：組織數據   198
16.5.5 第四步：畫圖   198
16.5.6 後一步：查看結果   199
第17章大數據實戰案例：實時數據流處理項目   200
17.1 項目背景介紹   200
17.2 業務需求分析   200
17.3 項目技術架構   201
17.4 項目技術組成   202
17.5 項目實施步驟   202
17.5.1 步：運用Kafka產生數據   202
17.5.2 第二步：運用Spark接收數據   208
17.5.3 第三步：安裝Redis軟件   211
17.5.4 第四步：準備程序運行環境   214
17.5.5 第五步：遠程執行Spark程序   216
17.5.6 第六步：編寫Python實現可視化   218
17.5.7 後一步：執行Python程序   221
17.6 項目總結   222
第18章大數據實戰案例：用戶日志綜合分析項目   223
18.1 項目背景介紹   223
18.2 項目設計目的   223
18.3 項目技術架構和組成   224
18.4 項目實施步驟   225
18.4.1 步：本地數據FTP到Linux環境   225
18.4.2 第二步：Linux數據上傳到HDFS   225
18.4.3 第三步：使用Hive訪問HDFS數據   226
18.4.4 第四步：使用Kettle把數據導入HBase   228
18.4.5 第五步：使用Sqoop把數據導入MySQL   234
18.4.6 第六步：編寫Python程序實現可視化   236
18.4.7 後一步：執行Python程序   238

前言

前言
大數據這個詞也許幾年前你聽著還有點陌生，但我相信你現在聽到Hadoop這個詞時會覺得“熟悉”！你會發現身邊從事Hadoop開發或者正在學習Hadoop的人越來越多。
早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：“數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。互聯網技術發展到現今階段，大量日常、工作等事務產生的數據比以前有了爆炸式的增長，以前的傳統數據處理技術已經無法勝任，需求催生技術——一套用來處理海量數據的軟件技術框架Hadoop應運而生！
我本人一直從事雲計算、大數據方面的咨詢和培訓工作。大數據產業高速發展促使Hadoop人纔的需求井噴式增長，但Hadoop大數據工程師培養數量遠遠無法滿足市場的需求。為了不被淹沒在大數據技術的浪潮中，我們隻有堅持學習，通過增加知識來實現對自我價值的挖掘和體現。
關於本書前言
大數據這個詞也許幾年前你聽著還有點陌生，但我相信你現在聽到Hadoop這個詞時會覺得“熟悉”！你會發現身邊從事Hadoop開發或者正在學習Hadoop的人越來越多。
早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：“數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。互聯網技術發展到現今階段，大量日常、工作等事務產生的數據比以前有了爆炸式的增長，以前的傳統數據處理技術已經無法勝任，需求催生技術——一套用來處理海量數據的軟件技術框架Hadoop應運而生！
我本人一直從事雲計算、大數據方面的咨詢和培訓工作。大數據產業高速發展促使Hadoop人纔的需求井噴式增長，但Hadoop大數據工程師培養數量遠遠無法滿足市場的需求。為了不被淹沒在大數據技術的浪潮中，我們隻有堅持學習，通過增加知識來實現對自我價值的挖掘和體現。
關於本書
Hadoop的發行版除了社區的Apache Hadoop外，Cloudera、Hortonworks、華為等公司都提供了自己的商業版本。因為企業通常使用的是Hadoop商業版本，所以本書實操的運行環境采用Cloudera的CDH。本書定位是大數據從入門到應用的簡明繫統教程，特色是理論聯繫實踐、實戰實用為主、內容全面繫統、講解深入淺出，是大數據技術愛好者入門的圖書。
本書分為18章（宋立桓老師撰寫第1~12章、陳建平撰寫第13~18章），分別從大數據概述、Cloudera Hadoop平臺的安裝部署、大數據Hadoop組件三方面進行介紹，內容包括HDFS分布式文件繫統、MapReduce計算框架、資源管理框架YARN 、Hive數據倉庫、數據遷移工具Sqoop、分布式數據庫HBase、ZooKeeper分布式協調服務、準實時分析繫統Impala、日志采集工具Flume、分布式消息繫統Kafka、ETL工具Kettle、Spark計算框架等知識，後用兩個綜合實操案例把所有知識點串起來。
本書使用的操作環境是Hadoop商業發行版的Cloudera Express（Express是免費版本，企業版需付費）。全書秉承“實踐為主、理論夠用”的原則，將演示實驗融入各個知識點講解中。
本書另提供豐富的案例源文件和大數據工具軟件下載，供讀者親自操作練習，在作者博客中有下載地址。
學習本書之前，希望大家應該具有如下基礎：有一定計算機網絡基礎知識，熟悉常用Linux操作命令，對Java語言和數據庫理論有基本的了解。

感謝我的妻子，她是我完成此書的堅強後盾。
感謝我的朋友和同事，他們讓我學會知識的增值和變現。
感謝清華大學出版社的編輯夏毓彥和其他工作人員幫助我出版了這本有意義的著作。
阿基米德有一句名言：“給我一個支點，我就能撬起地球。”謹以此書獻給那些為大數據與商業智能分析鋪路的人，讓更多的人享受到大數據時代到來的紅利。

宋立桓
雲計算架構師、大數據咨詢顧問
2018年11月

商品搜索

商品分类

【醫學】

【各大出版社】