了得網圖書_自己動手做大數據繫統(第2版)

作者:劉未昕等著

定價:79

出版社:電子工業出版社

出版日期:2020年04月01日

頁數:339

裝幀:平裝

ISBN:9787121382024

"?在本書第1版的基礎上，按照離線大數據和流式大數據兩個場景進行劃分?在代碼實現上以Python為主，緊貼主流編程語言?代碼的可用性增強"

●第一部分大數據概述
第1章大數據的時代背景及應用落地2
1.1 大數據與“雲大物區智”的關聯2
1.2 大數據平臺的應用優勢4
1.3 大數據平臺的技術架構選型和產品對比4
第2章大數據繫統的安裝及配置7
2.1 服務器及操作繫統的準備7
2.2 JDK、PYTHON和SCALA8
2.3 HADOOP12
2.3.1 安裝環境的確認及文件準備16
2.3.2 配置環境變量及無密碼傳輸16
2.3.3 配置Hadoop的對應參數18
2.3.4 啟動並驗證Hadoop20
2.4 SQOOP20
2.4.1 Sqoop安裝文件的準備22
2.4.2 Sqoop的安裝及配置23
2.4.3 Sqoop運行驗證24
2.5 HIVE25
2.5.1 安裝文件的準備26
2.5.2 配置環境變量和安裝MySQL26
2.5.3 配置Hive參數26
2.5.4 驗證Hive的相關服務29
2.6 ZOOKEEPER和HBASE29
2.6.1 ZooKeeper安裝文件的準備30
2.6.2 ZooKeeper的安裝及配置30
2.6.3 ZooKeeper運行驗證31
2.6.4 HBase安裝文件的準備31
2.6.5 HBase的安裝及配置31
2.6.6 HBase運行驗證32
2.7 FLUME33
2.8 KAFKA35
2.9 SPARK37
2.9.1 Spark安裝文件的準備38
2.9.2 Spark的安裝及配置38
2.9.3 Spark運行驗證39
2.10 FLINK39
2.11 開源大數據繫統各組件的組合40
2.12 CDH41
2.13 FUSIONINSIGHT42
2.14 小結44
第二部分離線大數據處理
第3章使用PYTHON爬蟲獲取數據47
3.1 PYTHON爬蟲模塊的安裝47
3.1.1 requests模塊的安裝及驗證47
3.1.2 Beautiful Soup模塊的安裝及驗證47
3.2 抓取並解析JSON數據49
3.2.1 利用Fiddler找出所抓取的網址49
3.2.2 解析JSON對像51
3.3 抓取並解析HTML中的數據52
3.3.1 使用Beautiful Soup提取網頁內容52
3.3.2 保存抓取內容53
3.3.3 不同爬蟲模塊所適用的場景55
3.4 使用PYTHON提取文章的關鍵字55
3.4.1 中文分詞和關鍵字的提取55
3.4.2 Python的中文分詞模塊jieba56
3.4.3 使用自定義詞典和停用詞57
3.4.4 提取文章的關鍵字58
3.5 小結60
第4章 HIVE在大數據中的角色61
4.1 HIVE的核心概念及配置使用61
4.1.1 Hive在大數據生態繫統中的作用61
4.1.2 Hive的幾種使用方法62
4.1.3 使用Tez引擎替代MapReduce65
4.2 概要設計和物理模型的創建68
4.2.1 使用Hive要解決哪些問題68
4.2.2 數據庫的概要設計68
4.2.3 物理模型的定義及創建表73
4.3 加載爬蟲數據79
4.4 數據的合並、去重和轉換80
4.4.1 數據的合並80
4.4.2 利用臨時表去掉重復的數據81
4.4.3 使用Hive內置函數轉換數據83
4.5 使用UDF實現數據的轉換84
4.5.1 用戶自定義函數的實現原理84
4.5.2 利用Python實現UDF84
4.5.3 數據進入rpt表87
4.6 使用PYTHON操作HIVE89
4.6.1 安裝impyla模塊89
4.6.2 使用Python讀取數據示例89
4.7 ETL數據調度和數據治理90
4.7.1 數據處理的自動化90
4.7.2 數據治理95
4.8 小結96
第5章使用HBASE實現大數據存儲97
5.1 非關繫型數據庫及HBASE97
5.2 HBASE的幾個核心概念98
5.3 HBASE數據操作命令99
5.3.1 HBase客戶端99
5.3.2 創建表及插入數據100
5.3.3 按照行鍵值檢索102
5.3.4 掃描檢索102
5.3.5 刪除表和數據104
5.4 使用PYTHON操作HBASE107
5.4.1 啟動HBase Thrift Server107
5.4.2 安裝happybase模塊107
5.4.3 插入數據及刪除數據107
5.4.4 組合查詢代碼示例109
5.5 把HIVE數據導入HBASE110
5.6 用HIVE外部表讀取HBASE數據111
5.7 小結112
第6章 SPARK數據分析引擎113
6.1 SPARK簡介113
6.2 SPARK集群的配置及啟動114
6.2.1 Spark集群的安裝與配置115
6.2.2 作業提交方式116
6.2.3 操作界面的啟動類型117
6.2.4 三類Web監控界面119
6.3 調用HIVE數據121
6.3.1 使用beeline客戶端121
6.3.2 使用HiveContext對像122
6.3.3 使用Spark SQL123
6.3.4 使用JDBC123
6.4 調用HBASE數據123
6.4.1 設定環境變量123
6.4.2 讀數據示例124
6.5 使用PYSPARK進行數據分析126
6.5.1 將RDD轉換為DataFrame127
6.5.2 Spark SQL等值連接129
6.5.3 使用matplotlib繪制直方圖129
6.6 小結130
第7章使用FLASK實現數據展示131
7.1 FLASK框架簡介及站點搭建流程131
7.2 FLASK微框架的特性132
7.3 使用MVC模式搭建項目框架133
7.3.1 訪問地址133
7.3.2 MVC模式簡介133
7.3.3 項目目錄結構134
7.4 檢索及加載新聞數據135
7.4.1 模型層的開發135
7.4.2 模型測試136
7.4.3 控制器層的開發138
7.4.4 控制器測試139
7.4.5 視圖層的開發140
7.5 小結141
第二部分技術點總結141
第三部分流式大數據處理
第8章使用FLUME獲取網站訪問日志145
8.1 FLUME的安裝及數據流模型145
8.1.1 Flume簡介及安裝145
8.1.2 Flume的數據流模型146
8.2 核心組件的配合使用146
8.2.1 6種核心組件146
8.2.2 配置文件147
8.2.3 flume-ng命令148
8.3 各種數據組合的流動方式150
8.3.1 將日志收集至文件150
8.3.2 Sink的多路復用152
8.3.3 使用Avro作為數據源154
8.3.4 Channel的多路復用155
8.4 APACHE服務器的日志格式158
8.5 合並兩個網站的日志160
8.6 小結162
第9章 KAFKA的安裝、配置及其與FLUME的整合163
9.1 KAFKA的特性及安裝、配置163
9.1.1 Kafka的特性和適用場合163
9.1.2 安裝、配置Kafka164
9.2 幾種術語166
9.3 BROKER的使用方法167
9.3.1 單節點單Broker168
9.3.2 單節點多Broker169
9.3.3 分布式Broker172
9.3.4 分區及偏移量174
9.3.5 分區選擇策略176
9.4 分布式生產者/消費者176
9.4.1 兩個生產者176
9.4.2 消費者組177
9.5 KAFKA CONNECTOR180
9.5.1 File Source181
9.5.2 File Sink182
9.6 KAFKA和FLUME的整合183
9.6.1 給Flume提供數據183
9.6.2 從Flume中獲取數據184
9.7 使用PYTHON連接KAFKA186
9.8 小結187
第10章 REDIS數據庫簡介188
10.1 REDIS的特點及適用場景188
10.2 REDIS的安裝及命令行使用方法188
10.2.1 Redis的安裝及啟動188
10.2.2 命令行客戶端189
10.2.3 5種數據類型190
10.2.4 字符串命令191
10.3 使用PYTHON操作REDIS193
10.4 使用JAVA操作REDIS194
10.5 小結195
第11章 FLINK簡介及其與KAFKA的整合196
11.1 FLINK概述及其與SPARK的區別196
11.2 FLINK的架構、特性及工作流程196
11.3 FLINK的安裝199
11.3.1 單節點的安裝199
11.3.2 集群的安裝201
11.3.3 利用ZooKeeper實現Flink的高可用性203
11.4 FLINK的作業提交方式205
11.4.1 以Standalone方式運行205
11.4.2 利用YARN Session運行207
11.4.3 利用Python調用Flink服務212
11.4.4 使用REST API查看狀態213
11.5 FLINK-KAFKA CONNECTOR214
11.5.1 Flink為Kafka提供數據215
11.5.2 Flink從Kafka接收數據219
11.6 使用FLINK統計PAGEVIEW221
11.6.1 Flink開發的一般步驟221
11.6.2 Flink DataStream API221
11.6.3 將數據落地至Redis和HBase227
11.7 小結235
第12章網站頁面訪問量的動態展示236
12.1 百度的ECHARTS圖表功能簡介236
12.2 頁面訪問量的動態統計238
12.2.1 模型層的開發239
12.2.2 控制器層的開發242
12.2.3 視圖層的開發242
12.3 生成詞雲圖和占比餅圖245
12.3.1 詞雲圖模型層的開發245
12.3.2 詞雲圖控制器層的開發248
12.3.3 詞雲圖視圖層的開發249
12.3.4 關鍵字餅圖的模型層開發249
12.3.5 關鍵字餅圖的控制器層開發250
12.3.6 關鍵字餅圖的視圖層開發251
12.4 訪問日志檢索252
12.5 小結253
第三部分技術點總結253
第四部分雲平臺搭建
第13章搭建基於雲平臺的容器級數據繫統256
13.1 雲平臺256
13.1.1 雲平臺架構256
13.1.2 雲平臺的搭建及部署259
13.1.3 雲平臺的高級配置303
13.2 基於雲平臺的容器集群309
13.2.1 Magnum309
13.2.2 Docker Swarm311
13.2.3 Mesos和Marathon的結合316
13.2.4 Kubernetes323
13.3 基於容器的大數據繫統331
13.4 小結339

在第一版的基礎上，根據近幾年大數據領域近期新出現的各種流行組件，逐個進行介紹，並以兩個具體的示例，貫穿各個章節，對組件之間的協同工作關繫進行剖析。新增大數據平臺架構選型及很好實踐案例，大數據治理，流計算開發，flink等流式大數據處理。基於docker的大數據運維部署等部分，書中所使用的示例程序，是基於筆者在進行企業培訓時，企業提出的業務需求而展開，示例程序更有代表性。

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】