了得網圖書_SPARK海量數據處理:技術詳解與平臺實戰計算機與互聯網範東來

	[ 收藏 ] [ 简体中文 ]
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款，4-7個工作日送達，999元臺幣免運費　　　在線留言商品價格為新臺幣

商品搜索

类别：

关键字：

商品分类

新类目

　管理
　投资理财
　经济
　社会科学

點擊放大圖片

SPARK海量數據處理:技術詳解與平臺實戰計算機與互聯網範東來
該商品所屬分類：圖書 -> ε
【市場價】	540-784元
【優惠價】	338-490元
【出版社】	人民郵電出版社
【ISBN】	9787115507006
【折扣說明】	一次購物滿999元台幣免運費+贈品一次購物滿2000元台幣95折+免運費+贈品一次購物滿3000元台幣92折+免運費+贈品一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】	①優質無紡布環保袋，做工棒！②品牌簽字筆 ③品牌手帕紙巾

版本	正版全新電子版PDF檔
您已选择：	正版全新
溫馨提示：如果有多種選項，請先選擇再點擊加入購物車。 . 電子圖書價格是0.69折，例如了得網價格是100元，電子書pdf的價格則是69元。 . 購買電子書不支持貨到付款，購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意，可以聯絡我們退款。謝謝。

內容介紹

出版社：人民郵電出版社

ISBN：9787115507006

商品編碼：65020274781

開本：16開

出版時間：2019-12-01

代碼：99

"

商品基本信息，請以下列介紹為準
商品名稱：	SPARK海量數據處理:技術詳解與平臺實戰計算機與互聯網書籍
作者：	範東來
代碼：	99.0
出版社：	人民郵電出版社
出版日期：	2019-12-01
ISBN：	9787115507006
印次：
版次：
裝幀：	平裝-膠訂
開本：	16開

內容簡介

本書基於Spark發行版2.4.4寫作而成，包含大量的實例與一個完整項目，層次分明，循序漸進。全書分為3部分，涵蓋了技術理論與實戰，讀者可以從實戰中鞏固學習到的知識。*部分主要圍繞BDAS（伯克利數據分析棧），不僅介紹了如何開發Spark應用的基礎內容，還介紹了Structured Streaming、Spark機器學習、Spark圖挖掘、Spark深度學習等主題，此外還介紹了Alluxio繫統。第二部分實現了一個企業背景調查繫統，比較新穎的是，該繫統借鋻了數據湖與Lambda架構的思想，涵蓋了批處理、流處理應用開發，並加入了一些開源組件來滿足需求，既是對本書*部分很好的鞏固，又完整呈現了一個實時大數據應用的開發過程。第三部分是對全書的總結和展望。本書適合準備學習Spark的開發人員和數據分析師，以及準備將Spark應用到實際項目中的開發人員和管理人員閱讀，也適合計算機相關專業的本科生和研究生學習和參考，對於具有一定的Spark使用經驗並想進一步提升的數據科學從業者也是很好的參考資料。

第一部分基礎篇

第 1章序篇 2
1.1 Spark與BDAS 3
1.2 Databricks 4
1.3 如何通過GitHub向Spark貢獻代碼 5
1.4 如何選擇Spark編程語言 8
1.5 函數式編程思想 9
1.6 小結 12
第 2章 Spark編程 13
2.1 Spark架構 13
2.2 Spark 2.x與Spark 3.x 15
2.2.1 Tungsten項目 16
2.2.2 統一Dataset和DataFrame 接口 20
2.2.3 新一代流處理技術：Structured Streaming與持續型應用 21
2.2.4 Hydrogen項目和Spark 3.x 22
2.3 部署Spark 26
2.3.1 Spark on YARN 27
2.3.2 Spark on Mesos 28
2.3.3 Spark Standalone 29
2.3.4 Spark on Kubernetes 30
2.3.5 安裝Spark 31
2.3.6 提交作業 31
2.3.7 Spark Shell 33
2.3.8 初始化SparkSession 34
2.4 RDD與算子 34
2.4.1 RDD 34
2.4.2 創建RDD 36
2.4.3 轉換算子 38
2.4.4 行動算子 43
2.4.5 RDD血統與Spark容錯 45
2.5 Spark Shuffle 47
2.5.1 Hash Shuffle 47
2.5.2 Sort-based Shuffle 49
2.6 共享變量 50
2.6.1 廣播變量 50
2.6.2 累加器 53
2.7 Spark的多語言支持 55
2.7.1 PySpark 55
2.7.2 SparkR 56
2.8 Spark性能調優 56
2.8.1 硬件配置與資源管理平臺 57
2.8.2 參數調優與應用調優 57
2.9 使用Jupyter Notebook基於Spark探索數據：蒙特卡羅方法預測股票價格 64
2.9.1 Jupyter Notebook 64
2.9.2 用蒙特卡羅方法預測股票價格 67
2.10 小結 70
第3章 Spark統一編程接口：DataFrame、Dataset和Spark SQL 71
3.1 Catalyst優化器 72
3.1.1 SQL抽像語法樹 72
3.1.2 從ULEP到RLEP的過程 73
3.1.3 調優RLEP 73
3.1.4 全階段代碼生成 74
3.2 DataFrame API 75
3.2.1 創建DataFrame 75
3.2.2 查詢 77
3.2.3 窗口函數 80
3.2.4 用戶自定義函數 83
3.2.5 寫入 85
3.3 Dataset API 86
3.3.1 RDD、DataFrame和Dataset 87
3.3.2 類型的UDAF 88
3.4 Spark SQL 89
3.4.1 創建臨時視圖 90
3.4.2 使用H數據 90
3.4.3 查詢語句 91
3.4.4 函數 94
3.4.5 用戶自定義函數 97
3.5 Google Dremel與列式存儲 97
3.5.1 Apache Parquet 99
3.5.2 Apache ORC 100
3.5.3 Apache CarbonData 100
3.5.4 對比測試 101
3.6 使用Spark SQL進行數據探索 102
3.7 小結 107
第4章 Spark流處理：Spark Streaming
與Structured Streaming 108
4.1 一個Spark Streaming流處理的例子 109
4.2 消息送達保證 110
4.3 Google MillWheel繫統和Google Dataflow模型 114
4.3.1 Google MillWheel設計思想 114
4.3.2 Google MillWheel如何實現“恰好一次”消息送達語義 114
4.3.3 Google MillWheel對亂序數據與晚到數據的處理 115
4.3.4 Google Dataflow：流處理和批處理的統一與取舍 117
4.4 Spark Streaming 122
4.4.1 關鍵抽像與架構 123
4.4.2 無狀態的轉換算子 125
4.4.3 有狀態的轉換算子 129
4.4.4 輸入與輸出 134
4.4.5 Spark Streaming與Spark SQL 138
4.4.6 容錯與結果正確性 139
4.4.7 性能調優 141
4.5 Structured Streaming 144
4.5.1 關鍵抽像與架構 144
4.5.2 作 147
4.5.3 輸入和輸出 154
4.5.4 股票交易價格實時分析 157
4.6

編輯

在數字經濟時代，數據是*重要的資源要素；同時，新的數據又在源源不斷地產生，企業面臨的一個基本問題就是如何管理和利用這些數據，這對傳統的數據處理方法與分析框架提出了新的訴求和挑戰，也是業界與學界*為關心的問題。為了滿足大數據時代對信息的快速處理的需求，一個分布式的開源計算框架Apache Spark應運而生。經過十年的發展，Spark已經成為目前大數據處理的標杆，在整個業界得到了廣泛的使用。對大數據工程師來說，用Spark構建數據管道無疑是很好的選擇，而對數據科學家來說，Spark也是的數據探索工具。本書基於Spark發行版2.4.4寫作而成，包含大量的實例與一個完整項目，技術理論與實戰相結合，層次分明，循序漸進。本書不僅介紹了如何開發Spark應用的基礎內容，包括Spark架構、Spark編程、SparkSQL、Spark調優等，還探討了Structured Streaming、Spark機器學習、Spark圖挖掘、Spark深度學習、Alluxio繫統等主題，同時完整實現了一個企業背景調查繫統，借鋻了數據湖與Lambda架構的思想，涵蓋了批處理、流處理應用開發，並加入了一些開源組件來滿足業務需求。學習該繫統可以使讀者從實戰中鞏固所學，並將技術理論與應用實戰融會貫通。本書適合準備學習Spark的開發人員和數據分析師，以及準備將Spark應用到實際項目中的開發人員和管理人員閱讀，也適合計算機相關專業的本科生和研究生學習和參考，對於具有一定的Spark使用經驗並想進一步提升的數據科學從業者也是很好的參考資料。

媒體評論

Spark是一個被廣泛使用的大數據平臺。本書從技術出發，通過實例和一個完整項目對Spark進行了全面講解，充分展示了作者過去幾年在大數據公司的實戰經驗，值得所有學習Spark的人閱讀。 ——李祥林，上海交通大學上海金融學院教授如果將數據比作數字經濟時代的“汽油”，那麼Spark就是目前*強勁的“引擎”，相信讀完本書，讀者能夠更好地挖掘出數據的價值與潛力。 ——張鵬，北京微星優財網絡科技有限公司董事長 Spark誕生於學界，發展於業界，是目前*流行的大數據處理技術之一，在

"

網友評論我們期待著您對此商品發表評論

相關商品

在線留言 商品價格為新臺幣

關於我們送貨時間安全付款會員登入加入會員我的帳戶網站聯盟

返回頂部

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】