本書以Spark 2.0 版本為基礎進行編寫,全面介紹了Spark 核心及其生態圈組件技術。主要內容包括Spark 生態圈、實戰環境搭建、編程模型和內部重要模塊的分析,重點介紹了消息通信框架、作業調度、容錯執行、監控管理、存儲管理以及運行框架,同時還介紹了Spark 生態圈相關組件,包括了Spark SQL 的即席查詢、Spark Streaming 的實時流處理應用、MLbase/MLlib 的機器學習、GraphX 的圖處理、SparkR 的數學計算和Alluxio 的分布式內存文件繫統等。本書從Spark 核心技術進行深入分析,重要章節會結合源代碼解讀其實現原理,圍繞著技術原理介紹了相關典型實例,讀者通過這些實例可以更加深入地理解Spark&nb等