| | | 基於Apache Spark的流處理 圖書 | 該商品所屬分類:圖書 -> 科技 | 【市場價】 | 662-960元 | 【優惠價】 | 414-600元 | 【作者】 | 傑拉德·馬斯弗朗索瓦·加裡洛 | 【出版社】 | 中國電力出版社 | 【ISBN】 | 9787519852948 | 【折扣說明】 | 一次購物滿999元台幣免運費+贈品 一次購物滿2000元台幣95折+免運費+贈品 一次購物滿3000元台幣92折+免運費+贈品 一次購物滿4000元台幣88折+免運費+贈品
| 【本期贈品】 | ①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
| |
版本 | 正版全新電子版PDF檔 | 您已选择: | 正版全新 | 溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。 *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。 | | | | 內容介紹 | |
![](/c3/10031632334128.jpg)
出版社:中國電力出版社 ISBN:9787519852948 商品編碼:10031632334128 品牌:文軒 出版時間:2021-03-01 代碼:128 作者:傑拉德·馬斯,弗朗索瓦·加裡洛
"![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg) 作 者:(美)傑拉德·馬斯,(美)弗朗索瓦·加裡洛 著 陳志鵬 譯 定 價:128 出 版 社:中國電力出版社 出版日期:2021年03月01日 頁 數:444 裝 幀:平裝 ISBN:9787519852948 ●序 1 前言 3 第一部分 Apache Spark 流處理的基本原理 第1章 流處理概述 13 什麼是流處理 14 批處理與流處理 15 流處理中的時間概念 15 不確定性因素 16 流處理案例 16 可擴展的數據處理能力 18 擴展性與容錯性 19 分布式流處理 19 Apache Spark 概述 20 第一波浪潮:函數式API 20 第二波浪潮:SQL 21 統一的引擎21 Spark 組件 22 Spark Streaming 23 Structured Streaming 23 接下來? 24 第2章 流處理模型 25 數據源與接收器 26 不可變流 27 轉換與聚合 27 窗口聚合 28 滾動窗口 28 滑動窗口 29 無狀態處理與有狀態處理 29 有狀態的流 30 案例:Scala中的本地狀態計算 31 無狀態流,還是有狀態流? 33 時間效應 33 帶時間戳的事件計算 33 通過時間戳來定義時間概念 34 事件時間與處理時間 34 使用水位線計算 37 小結 39 第3章 流處理架構 41 數據平臺的組件 41 體繫模型 43 在流處理應用中使用批處理組件 44 流處理架構參考 45 Lambda 架構 45 Kappa 架構 46 流處理算法與批處理算法 47 流處理算法有時候本質上與批處理算法接近不同 47 流處理算法難以保證比批處理算法表現更好 48 小結 50 第4章 流處理引擎Apache Spark 51 兩種API 的由來 51 Spark 的內存使用 52 故障恢復 53 惰性執行 53 緩存使用建議 53 延遲 54 面向吞吐的數據處理 55 Spark的多語言API 55 快速實現數據分析 56 更多關於Spark的內容 57 小結 57 第5章 Spark分布式處理模型 59 通過集群管理器來運行Apache Spark 59 Spark的集群管理器 61 分布式繫統的彈性與容錯 62 故障恢復 63 集群管理器對容錯的支持 63 數據交付語義 64 微批處理與一次處理一個 66 微批處理:整體同步處理應用案例 66 一次處理一個 68 微批與一次處理一個:權衡 68 微批處理與一次處理一個方式地結合 69 動態的批次間隔 69 Structured Streaming處理模型 69 第6章 Spark彈性模型 71 Spark中的彈性分布式數據集 71 Spark組件 73 Spark容錯保證 75 Task失敗恢復 76 stage失敗恢復 77 Driver失敗恢復 77 小結 78 參考文獻 81 第二部分 Structured Streaming 第7章 Structured Streaming 概述 87 學習Structured Streaming 之前 88 批處理分析 89 流分析 92 連接Stream 93 準備流數據93 流式Dataset操作 94 創建查詢(Query) 95 啟動流處理96 瀏覽數據 97 小結 97 第8章 Structured Streaming 編程模型 99 初始化Spark實例 100 source:接收流數據 100 流數據的轉換 102 sink:輸出結果數據 105 format 106 outputMode 107 queryName 107 option 108 options 108 trigger 108 start() 109 小結 109 第9章 Structured Streaming 實戰 111 消費流source 112 程序邏輯 114 寫入流sink 114 小結 116 第10章 Structured Streaming的Source 117 source概述 117 可靠的source需要能夠重放數據 118 source需要提供schema 119 可用的source 121 文件source 122 指定文件格式 122 公共配置 123 常用的文本解析配置項(CSV、JSON) 124 JSON文件source 125 CSV文件source127 Parquet文件source 128 文本文件source 128 Kafka source 129 創建Kafka source 130 選擇訂閱主題的方法 131 Kafka source的配置項 132 Kafka消費者的配置項 133 Socket source 134 配置 135 操作 136 Rate source 136 第11章 Structured Streaming的Sink 139 sink概述 139 可用的sink 140 可靠的sink 140 實驗型sink 141 sink API 141 深入學習sink 141 文件sink 142 在文件sink中使用觸發器 143 文件格式的通用配置項 145 常見的時間和日期格式化設置(CSV、JSON) 146 CSV文件sink 146 JSON文件sink 147 Parquet文件sink 148 文本文件sink 148 Kafka sink 148 Kafka發布模型 148 Kafka sink的使用 149 內存sink 152 控制臺sink 153 配置項 153 輸出模式 153 Foreach sink 154 ForeachWriter 接口 154 TCP Writer sink: ForeachWriter使用案例 155 案例總結 158 ForeachWriter序列化問題排查 159 第12章 基於事件時間的流處理 161 Structured Streaming中的事件時間 161 事件時間 163 處理時間 164 水位線 164 基於時間的窗口聚合 165 基於時間的窗口定義 166 如何計算間隔 167 多維聚合 167 滾動窗口和滑動窗口 168 記錄去重 170 小結 170 第13章 高級狀態操作 173 案例:車隊管理 174 分組狀態操作 174 使用MapGroupsWithState 176 使用FlatMapGroupsWithState 180 輸出模式 182 管理狀態的時變性 183 小結 186 第14章 Structured Streaming 應用監控 187 Spark 指標子繫統 188 StreamingQuery 實例 189 StreamingQueryListener 接口 192 第15章 實驗性模塊:連續處理與機器學習 195 連續處理 195 連續處理介紹 195 使用連續處理 197 局限性 198 機器學習 199 學習與應用199 在流中使用機器學習模型 200 案例:利用環境傳感器估計房間使用情況 201 在線訓練 204 參考文獻 207 第三部分 Spark Streaming 第16章 Spark Streaming 概述 213 DStream 抽像 214 基於DStream 的編程模型 214 基於DStream 的執行模型 216 Spark Streaming 程序結構 216 創建Spark Streaming Context 217 定義DStream 218 定義輸出操作 218 啟動Spark Streaming Context 218 停止Streaming進程 219 小結 219 第17章 Spark Streaming編程模型 221 RDD,DStream的底層抽像 221 DStream轉換操作 224 RDD 級別的DStream轉換228 Count操作 229 修改結構的轉換操作 230 小結 231 第18章 Spark Streaming執行模型 233 整體同步架構 233 Receiver 模型 235 Receiver API 235 Receiver 工作流程 236 Receiver 數據流 237 內部的數據彈性 238 Receiver 的並行 239 資源平衡:Receiver 與處理核數 239 通過預寫式日志(Write-Ahead Log)達到零數據丟失 240 無Receiver(Direct)模式 241 小結 242 第19章 Spark Streaming 的Source 245 source 分類 245 基礎source 246 基於Receiver 模式的source 246 基於Direct 模式的source 247 常用source 247 文件source 248 隊列source 251 工作流程 252 使用隊列source 測試 252 隊列source 的簡單替代方案:ConstantInputDStream 254 Socket source 256 Kafka source 258 使用Kafka source 260 工作流程 261 哪裡有更多的source 262 第20章 Spark Streaming 的Sink 263 輸出操作 263 內置的輸出操作 265 print 266 saveAs 繫列 266 foreachRDD 268 使用foreachRDD 編寫自定義sink 268 第三方輸出操作 271 第21章 基於時間的流處理 273 窗口聚合 273 滾動窗口 274 滑動窗口 275 滑動窗口與批次間隔 275 滑動窗口與滾動窗口 276 使用窗口還是較長的批次間隔 276 窗口上的reduce 操作 277 reduceByWindow 278 reduceByKeyAndWindow 278 countByWindow 278 countByValueAndWindow 279 可逆的窗口聚合操作 279 流的分片 281 小結 281 第22章 任意有狀態的流處理 283 流的狀態性 283 updateStateByKey 284 updateStateByKey 的局限性 286 性能 286 內存占用 287 使用mapwithState 進行有狀態的計算 287 使用mapWithState 289 使用mapWithState進行基於事件時間的流計算 291 第23章 使用Spark SQL 295 Spark SQL 296 在Spark Streaming中使用Spark SQL函數 297 靜態數據處理 301 Join 優化 304 更新流處理程序中的參考數據集 307 小結 309 第24章 checkpoint 機制 311 checkpoint的使用 312 DStream的checkpoint機制 317 從checkpoint中恢復 318 checkpoint的代價 320 checkpoint調優 320 第25章 Spark Streaming應用監控 323 Streaming UI 324 通過Streaming UI了解作業性能 326 輸入速率圖326 調度延遲圖327 處理時間圖328 總延遲圖 328 批次細節 329 監控REST API 331 監控REST API 的使用 331 監控REST API 詳解 331 指標子繫統 333 內部事件總線 335 小結 339 第26章 性能調優 341 Spark Streaming中的性能平衡 341 批次間隔與處理延遲的關繫 342 作業是如何失敗的 342 深入理解調度延遲和處理延遲 343 checkpoint對處理時間的影響 344 影響作業性能的外部因素 345 如何提高性能 345 調整批次間隔 346 以固定速率對數據攝入限流 346 反壓 347 動態限流 348 PID 反壓調優 349 自定義速率估算器 349 另一種動態處理策略 350 緩存 350 推測執行 352 參考文獻 353 第四部分 Spark Streaming高級技巧 第27章 流式近似與抽樣算法 357 準確性、實時性與大數據 358 準確性 358 實時處理 358 大數據 359 準確性、實時性與大數據之間的三角關繫 359 近似算法 362 哈希與素描 362 去重統計:HyperLogLog 363 角色扮演練習:假如我們是繫統管理員 364 HyperLogLog 在Spark中的實踐 367 布隆過濾器概述 372 在Spark 中使用布隆過濾器 373 使用Count-min Sketch統計頻率 373 排名與分位數:T-Digest 算法 376 隨機抽樣 379 分層抽樣 380 第28章 實時機器學習 381 利用樸素貝葉斯進行流分類 382 streamDM介紹384 樸素貝葉斯實踐案例 385 訓練一個電影評論分類器 386 決策樹介紹 387 Hoeffding樹 389 使用在線K-means進行流聚類 392 K-means聚類 392 在線數據與在線K-means算法 393 聚類的衰退問題 394 使用Spark Streaming運行流式K-means 396 參考文獻 399 第五部分 Apache Spark之外的世界 第29章 其他分布式實時流處理繫統 405 Apache Storm 405 編程模型 406 Storm 拓撲 406 Storm 集群 407 與Spark 相比 407 Apache Flink 408 流處理優先的框架 408 與Spark相比 409 Kafka Streams 409 Kafka Streams編程模型 410 與Spark相比 410 雲上的流處理繫統 411 AWS上的 Kinesis 411 微軟的Azure Stream Analytics 412 Apache Beam 和Google Cloud Dataflow 413 第30章 展望 417 緊隨Spark 項目 418 在Stack Overflow上尋求幫助 418 在郵件列表中進行討論 418 參加會議 419 參加交流會 419 貢獻Apache Spark 項目 419 參考文獻 421 作者介紹 423 封面介紹 423 利用分析工具可以快速獲取商業洞察,為此你需要了解如何對數據進行實時處理。通過這本實用指南,對於熟悉Apache Spark的讀者來說,你們將了解如何將這個內存框架應用於流數據。你會發現Spark讓你幾乎可以像面對批處理作業一樣來開發流處理作業。 本書介紹了Apache Spark的理論基礎。這本綜合指南通過兩個部分比較了Spark支持的流處理API:早期Spark Streaming和後來的Structured Streaming。 ![](https://img10.360buyimg.com/imgzone/jfs/t1/147514/7/5440/73116/5f34a3beE3ba58783/f5b2391383f5625c.jpg)
" | | | | | |