了得網圖書_Spark大數據分析實戰

作者:張偉洋著

定價:79

出版社:清華大學出版社

出版日期:2020年08月01日

頁數:376

裝幀:平裝

ISBN:9787302556954

"Spark已成為當今非常活躍、高效的大數據計算平臺，很多互聯網公司都使用Spark來實現公司的核心業務，如阿裡的雲計算平臺、京東的推薦繫統等，隻要和海量數據相關的領域都有Spark的身影。本書基於Spark 2.4.x新版本編寫，涵蓋當前整個Spark生態繫統主流的大數據處理技術，以實操案例為主，理論為輔，一步一步手把手對常用的Spark離線計算及實時計算等繫統進行詳細論述。"

●第1章Spark開發準備——Scala基礎1
1.1什麼是SCALA1
1.2安裝SCALA2
1.2.1在Windows中安裝Scala2
1.2.2在CentOS7中安裝Scala3
1.3SCALA基礎4
1.3.1變量聲明4
1.3.2數據類型5
1.3.3表達式7
1.3.4循環8
1.3.5方法與函數10
1.4集合14
1.4.1數組14
1.4.2List16
1.4.3Map映射17
1.組19
1.4.5Set20
1.5類和對像21
1.5.1類的定義21
1.5.2單例對像22
1.5.3伴生對像22
1.5.4get和set方法23
1.5.5構造器25
1.6抽像類和特質28
1.6.1抽像類28
1.6.2特質30
1.7使用ECLIPSE創建SCALA項目31
1.7.1安裝ScalaforEclipseIDE31
1.7.2創建Scala項目33
1.8使用INTELLIJIDEA創建SCALA項目33
1.8.1在IDEA中安裝Scala插件34
1.8.2創建Scala項目37
第2章初識Spark40
2.1大數據開發總體架構40
2.2什麼是SPARK42
2.3SPARK主要組件43
2.4SPARK運行時架構45
2.4.1YARN集群架構45
2.4.2SparkStandalone架構49
2.4.3SparkOnYARN架構50
2.5SPARK集群搭建與測試53
2.5.1SparkStandalone模式的集群搭建53
2.5.2SparkOnYARN模式的集群搭建55
2.5.3SparkHA的搭建56
2.6SPARK應用程序的提交60
2.7SPARKSHELL的使用63
第3章SparkRDD彈性分布式數據集66
3.1什麼是RDD66
3.2創建RDD67
3.2.1從對像集合創建RDD67
3.2.2從外部存儲創建RDD68
3.3RDD的算子69
3.3.1轉化算子69
3.3.2行動算子77
3.4RDD的分區78
3.4.1分區數量79
3.4.2自定義分區器88
3.5RDD的依賴93
3.5.1窄依賴94
3.5.2寬依賴94
3.5.3Stage劃分95
3.6RDD的持久化97
3.6.1存儲級別98
3.6.2查看緩存100
3.7RDD的檢查點102
3.8共享變量104
3.8.1廣播變量104
3.8.2累加器106
3.9案例分析：SPARKRDD實現單詞計數107
3.10案例分析：SPARKRDD實現分組求TOPN116
3.11案例分析：SPARKRDD實現二次排序120
3.12案例分析：SPARKRDD計算成績平均分124
3.13案例分析：SPARKRDD倒排索引統計每日新增用戶126
3.14案例分析：SPARKRDD讀寫HBASE130
3.14.1讀取HBase表數據131
3.14.2寫入HBase表數據134
3.15案例分析：SPARKRDD數據傾斜問題解決143
3.15.1數據傾斜的常用解決方法144
3.15.2使用隨機key進行雙重聚合145
3.15.3WebUI查看Spark歷史作業149
第4章Spark內核源碼分析151
4.1SPARK集群啟動原理分析151
4.2SPARK應用程序提交原理分析162
4.3SPARK作業工作原理分析175
4.3.1MapReduce的工作原理175
4.3.2Spark作業工作的原理177
4.4SPARK檢查點原理分析191
第5章SparkSQL結構化數據處理引擎196
5.1什麼是SPARKSQL196
5.2DATAFRAME和DATASET197
5.3SPARKSQL的基本使用198
5.4SPARKSQL數據源201
5.4.1基本操作201
5.4.2Parquet文件206
5.4.3JSON數據集209
5.4.4Hive表211
5.4.5JDBC213
5.5SPARKSQL內置函數214
5.5.1自定義函數216
5.5.2自定義聚合函數218
5.5.3開窗函數220
5.6案例分析：使用SPARKSQL實現單詞計數223
5.7案例分析：SPARKSQL與HIVE整合228
5.7.1整合Hive的步驟228
5.7.2操作Hive的幾種方式231
5.8案例分析：SPARKSQL讀寫MYSQL233
5.9案例分析：SPARKSQL每日UV統計238
5.10案例分析：SPARKSQL熱點搜索詞統計241
5.11綜合案例：SPARKSQL智慧交通數據分析244
5.11.1項目介紹244
5.11.2數據準備246
5.11.3統計正常卡口數量249
5.11.4統計車流量排名前3的卡口號249
5.11.5統計車輛高速通過的卡口TOP5250
5.11.6統計每個卡口通過速度最快的前3輛車254
5.11.7車輛軌跡分析255
第6章Kafka分布式消息繫統256
6.1什麼是KAFKA256
6.2KAFKA架構257
6.3主題與分區259
6.4分區副本260
6.5消費者組262
6.6數據存儲機制264
6.7集群環境搭建266
6.8命令行操作268
6.8.1創建主題268
6.8.2查詢主題269
6.8.3創建生產者269
6.8.4創建消費者270
6.9JAVAAPI操作271
6.9.1創建Java工程271
6.9.2創建生產者271
6.9.3創建消費者273
6.9.4運行程序275
6.10案例分析：KAFKA生產者277
第7章SparkStreaming實時流處理引擎285
7.1什麼是SPARKSTREAMING285
7.2SPARKSTREAMING工作原理286
7.3輸入DSTREAM和RECEIVER287
7.4第一個SPARKSTREAMING程序288
7.5SPARKSTREAMING數據源290
7.5.1基本數據源290
7.5.2高級數據源292
7.5.3自定義數據源293
7.6DSTREAM操作297
7.6.1無狀態操作297
7.6.2狀態操作299
7.6.3窗口操作300
7.6.4輸出操作302
7.6.5緩存及持久化303
7.6.6檢查點304
7.7案例分析：SPARKSTREAMING按批次累加單詞數量306
7.8案例分析：SPARKSTREAMING整合KAFKA計算實時單詞數量311
7.9案例分析：SPARKSTREAMING實時用戶日志黑名單過濾318
7.10綜合案例：用戶行為分析322
第8章StructuredStreaming結構化流處理引擎325
8.1什麼是STRUCTUREDSTREAMING325
8.2STRUCTUREDSTREAMING單詞計數326
8.3STRUCTUREDSTREAMING編程模型328
8.4STRUCTUREDSTREAMING查詢輸出330
8.5STRUCTUREDSTREAMING窗口操作334
8.5.1事件時間334
8.5.2窗口聚合單詞計數335
8.5.3延遲數據和水印339
8.6案例分析：STRUCTUREDSTREAMING整合KAFKA實現單詞計數343
第9章GraphX圖計算引擎347
9.1什麼是GRAPHX347
9.2第一個GRAPHX程序348
9.3GRAPHX數據結構352
9.4GRAPHX圖操作352
9.4.1基本操作352
9.4.2屬性操作355
9.4.3結構操作357
9.4.4連接操作359
9.4.5聚合操作362
9.5案例分析：使用GRAPHX計算社交網絡中粉絲的平均年齡363

本書基於Spark 2.4.x新版本編寫，從Spark核心編程語言Scala講起，涵蓋當前整個Spark生態繫統主流的大數據開發技術。全書共9章，第1章講解Scala語言的基礎知識，包括IDEA工具的使用等；第2章講解Spark的主要組件、集群架構原理、集群環境搭建以及Spark應用程序的提交和運行；第3~9章講解離線計算框架Spark RDD、Spark SQL和實時計算框架Kafka、Spark Streaming、Structured Streaming以及圖計算框架GraphX等的基礎知識、架構原理，同時包括常用Shell命令、API操作、內核源碼剖析，並通過多個實際案例講解各個框架的具體應用以及與Hadoop生態繫統框架Hive、HBase、Kafka的整合操作。
本書內容豐富，以實操案例為主，理論為輔，可作為Spark新手的入門書，也可作為大數據開發人員和從業者的學等

商品搜索

商品分类

【醫學】

【各大出版社】