作 者:王家林,段智華 著
定 價:329
出 版 社:清華大學出版社
出版日期:2020年06月01日
頁 數:1303
裝 幀:精裝
ISBN:9787302544531
基於近期新的Spark2.4.X版本,分為內核解密篇,商業案例篇,性能調優篇和Spark+AI解密篇,共32章,學習過程中有任何疑問,可加入QQ群418110145,有專業人員答疑解惑。
●第1篇內核解密篇
第1章電光石火間體驗Spark2.4開發實戰
1.1通過RDD實戰電影點評繫統入門及源碼閱讀
1.1.1Spark核心概念圖解
1.1.2通過RDD實戰電影點評繫統案例
1.2通過DataFrame和DataSet實戰電影點評繫統
1.2.1通過DataFrame實戰電影點評繫統案例
1.2.2通過DataSet實戰電影點評繫統案例
1.3Spark2.4源碼閱讀環境搭建及源碼閱讀體驗
第2章Spark2.4技術及原理
2.1Spark2.4綜述
2.1.1連續應用程序
2.1.2新的API
2.2Spark2.4Core
2.2.1第二代Tungsten引擎
2.2.2SparkSession
2.2.3累加器API
2.3Spark2.4SQL
2.3.1SparkSQL
2.3.2DataFrame和DatasetAPI
2.3.3TimedWindow
2.4Spark2.4Streaming
2.4.1StructuredStreaming
2.4.2增量輸出模式
2.5Spark2.4MLlib
2.5.1基於DataFrame的MachineLearningAPI
2.5.2R的分布式算法
2.6Spark2.4GraphX
第3章Spark的靈魂:RDD和DataSet
3.1為什麼說RDD和DataSet是Spark的靈魂
3.1.1RDD的定義及五大特性剖析
3.1.2DataSet的定義及內部機制剖析
3.2RDD彈性特性7個方面解析
3.3RDD依賴關繫
3.3.1窄依賴解析
3.3.2寬依賴解析
3.4解析Spark中的DAG邏輯視圖
3.4.1DAG生成的機制
3.4.2DAG邏輯視圖解析
3.5RDD內部的計算機制
3.5.1Task解析
3.5.2計算過程深度解析
3.6SparkRDD容錯原理及其四大核心要點解析
3.6.1SparkRDD容錯原理
3.6.2RDD容錯的四大核心要點
3.7SparkRDD中Runtime流程解析
3.7.1Runtime架構圖
3.7.2生命周期
3.8通過WordCount實戰解析SparkRDD內部機制
3.8.1SparkWordCount動手實踐
3.8.2解析RDD生成的內部機制
3.9基於DataSet的代碼如何轉化為RDD
第4章SparkDriver啟動內幕剖析
4.1SparkDriverProgram剖析
4.1.1SparkDriverProgram
4.1.2SparkContext深度剖析
4.1.3SparkContext源碼解析
4.2DAGScheduler解析
4.2.1DAG的定義
4.2.2DAG的實例化
4.2.3DAGScheduler劃分Stage的原理
4.2.4DAGScheduler劃分Stage的具體算法
4.2.5Stage內部Task獲取很好位置的算法
4.3TaskScheduler解析
4.3.1TaskScheduler原理剖析
4.3.2TaskScheduler源碼解析
4.4SchedulerBackend解析
4.4.1SchedulerBackend原理剖析
4.4.2SchedulerBackend源碼解析
4.4.3Spark程序的注冊機制
……
第2篇商業案例篇
第3篇性能調優篇
第4篇Spark+AI解密篇
本書基於Spark2.4.X版本,以Spark商業案例實戰和Spark在生產環境下幾乎所有類型的性能調優為核心,以Spark內核解密為基石,對企業生產環境下的Spark商業案例與性能調優抽絲剝繭地進行剖析。全書共分4篇,內核解密篇基於Spark源碼,從一個實戰案例入手,循序漸進地全面解析Spark2.4.X版本的新特性及Spark內核源碼;商業案例篇選取Spark開發中擁有代表性的經典學習案例,在案例中綜合介紹Spark的大數據技術;性能調優篇覆蓋Spark在生產環境下的所有調優技術;Spark+AI解密篇講解深度學習實踐、Spark+PyTorch案例實戰、Spark+TensorFlow實戰以及Spark上的深度學習內核解密。本書適合所有Spark學習者和從業人員使用。對於有分布式計算框架應用經驗的人員,本書也可作為Spark高手修煉的參考用書。本書還適合作為高等院校的大數據課程教材。