[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • 基於Apache Spark的流處理 圖書
    該商品所屬分類:圖書 -> 科技
    【市場價】
    662-960
    【優惠價】
    414-600
    【作者】 傑拉德·馬斯弗朗索瓦·加裡洛 
    【出版社】中國電力出版社 
    【ISBN】9787519852948
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:中國電力出版社
    ISBN:9787519852948
    商品編碼:10031632334128

    品牌:文軒
    出版時間:2021-03-01
    代碼:128

    作者:傑拉德·馬斯,弗朗索瓦·加裡洛

        
        
    "
    作  者:(美)傑拉德·馬斯,(美)弗朗索瓦·加裡洛 著 陳志鵬 譯
    /
    定  價:128
    /
    出 版 社:中國電力出版社
    /
    出版日期:2021年03月01日
    /
    頁  數:444
    /
    裝  幀:平裝
    /
    ISBN:9787519852948
    /
    目錄
    ●序 1
    前言 3
    第一部分 Apache Spark 流處理的基本原理
    第1章 流處理概述 13
    什麼是流處理 14
    批處理與流處理 15
    流處理中的時間概念 15
    不確定性因素 16
    流處理案例 16
    可擴展的數據處理能力 18
    擴展性與容錯性 19
    分布式流處理 19
    Apache Spark 概述 20
    第一波浪潮:函數式API 20
    第二波浪潮:SQL 21
    統一的引擎21
    Spark 組件 22
    Spark Streaming 23
    Structured Streaming 23
    接下來? 24
    第2章 流處理模型 25
    數據源與接收器 26
    不可變流 27
    轉換與聚合 27
    窗口聚合 28
    滾動窗口 28
    滑動窗口 29
    無狀態處理與有狀態處理 29
    有狀態的流 30
    案例:Scala中的本地狀態計算 31
    無狀態流,還是有狀態流? 33
    時間效應 33
    帶時間戳的事件計算 33
    通過時間戳來定義時間概念 34
    事件時間與處理時間 34
    使用水位線計算 37
    小結 39
    第3章 流處理架構 41
    數據平臺的組件 41
    體繫模型 43
    在流處理應用中使用批處理組件 44
    流處理架構參考 45
    Lambda 架構 45
    Kappa 架構 46
    流處理算法與批處理算法 47
    流處理算法有時候本質上與批處理算法接近不同 47
    流處理算法難以保證比批處理算法表現更好 48
    小結 50
    第4章 流處理引擎Apache Spark 51
    兩種API 的由來 51
    Spark 的內存使用 52
    故障恢復 53
    惰性執行 53
    緩存使用建議 53
    延遲 54
    面向吞吐的數據處理 55
    Spark的多語言API 55
    快速實現數據分析 56
    更多關於Spark的內容 57
    小結 57
    第5章 Spark分布式處理模型 59
    通過集群管理器來運行Apache Spark 59
    Spark的集群管理器 61
    分布式繫統的彈性與容錯 62
    故障恢復 63
    集群管理器對容錯的支持 63
    數據交付語義 64
    微批處理與一次處理一個 66
    微批處理:整體同步處理應用案例 66
    一次處理一個 68
    微批與一次處理一個:權衡 68
    微批處理與一次處理一個方式地結合 69
    動態的批次間隔 69
    Structured Streaming處理模型 69
    第6章 Spark彈性模型 71
    Spark中的彈性分布式數據集 71
    Spark組件 73
    Spark容錯保證 75
    Task失敗恢復 76
    stage失敗恢復 77
    Driver失敗恢復 77
    小結 78
    參考文獻 81
    第二部分 Structured Streaming
    第7章 Structured Streaming 概述 87
    學習Structured Streaming 之前 88
    批處理分析 89
    流分析 92
    連接Stream 93
    準備流數據93
    流式Dataset操作 94
    創建查詢(Query) 95
    啟動流處理96
    瀏覽數據 97
    小結 97
    第8章 Structured Streaming 編程模型 99
    初始化Spark實例 100
    source:接收流數據 100
    流數據的轉換 102
    sink:輸出結果數據 105
    format 106
    outputMode 107
    queryName 107
    option 108
    options 108
    trigger 108
    start() 109
    小結 109
    第9章 Structured Streaming 實戰 111
    消費流source 112
    程序邏輯 114
    寫入流sink 114
    小結 116
    第10章 Structured Streaming的Source 117
    source概述 117
    可靠的source需要能夠重放數據 118
    source需要提供schema 119
    可用的source 121
    文件source 122
    指定文件格式 122
    公共配置 123
    常用的文本解析配置項(CSV、JSON) 124
    JSON文件source 125
    CSV文件source127
    Parquet文件source 128
    文本文件source 128
    Kafka source 129
    創建Kafka source 130
    選擇訂閱主題的方法 131
    Kafka source的配置項 132
    Kafka消費者的配置項 133
    Socket source 134
    配置 135
    操作 136
    Rate source 136
    第11章 Structured Streaming的Sink 139
    sink概述 139
    可用的sink 140
    可靠的sink 140
    實驗型sink 141
    sink API 141
    深入學習sink 141
    文件sink 142
    在文件sink中使用觸發器 143
    文件格式的通用配置項 145
    常見的時間和日期格式化設置(CSV、JSON) 146
    CSV文件sink 146
    JSON文件sink 147
    Parquet文件sink 148
    文本文件sink 148
    Kafka sink 148
    Kafka發布模型 148
    Kafka sink的使用 149
    內存sink 152
    控制臺sink 153
    配置項 153
    輸出模式 153
    Foreach sink 154
    ForeachWriter 接口 154
    TCP Writer sink: ForeachWriter使用案例 155
    案例總結 158
    ForeachWriter序列化問題排查 159
    第12章 基於事件時間的流處理 161
    Structured Streaming中的事件時間 161
    事件時間 163
    處理時間 164
    水位線 164
    基於時間的窗口聚合 165
    基於時間的窗口定義 166
    如何計算間隔 167
    多維聚合 167
    滾動窗口和滑動窗口 168
    記錄去重 170
    小結 170
    第13章 高級狀態操作 173
    案例:車隊管理 174
    分組狀態操作 174
    使用MapGroupsWithState 176
    使用FlatMapGroupsWithState 180
    輸出模式 182
    管理狀態的時變性 183
    小結 186
    第14章 Structured Streaming 應用監控 187
    Spark 指標子繫統 188
    StreamingQuery 實例 189
    StreamingQueryListener 接口 192
    第15章 實驗性模塊:連續處理與機器學習 195
    連續處理 195
    連續處理介紹 195
    使用連續處理 197
    局限性 198
    機器學習 199
    學習與應用199
    在流中使用機器學習模型 200
    案例:利用環境傳感器估計房間使用情況 201
    在線訓練 204
    參考文獻 207
    第三部分 Spark Streaming
    第16章 Spark Streaming 概述 213
    DStream 抽像 214
    基於DStream 的編程模型 214
    基於DStream 的執行模型 216
    Spark Streaming 程序結構 216
    創建Spark Streaming Context 217
    定義DStream 218
    定義輸出操作 218
    啟動Spark Streaming Context 218
    停止Streaming進程 219
    小結 219
    第17章 Spark Streaming編程模型 221
    RDD,DStream的底層抽像 221
    DStream轉換操作 224RDD 級別的DStream轉換228
    Count操作 229
    修改結構的轉換操作 230
    小結 231
    第18章 Spark Streaming執行模型 233
    整體同步架構 233
    Receiver 模型 235
    Receiver API 235
    Receiver 工作流程 236
    Receiver 數據流 237
    內部的數據彈性 238
    Receiver 的並行 239
    資源平衡:Receiver 與處理核數 239
    通過預寫式日志(Write-Ahead Log)達到零數據丟失 240
    無Receiver(Direct)模式 241
    小結 242
    第19章 Spark Streaming 的Source 245
    source 分類 245
    基礎source 246
    基於Receiver 模式的source 246
    基於Direct 模式的source 247
    常用source 247
    文件source 248
    隊列source 251
    工作流程 252
    使用隊列source 測試 252
    隊列source 的簡單替代方案:ConstantInputDStream 254
    Socket source 256
    Kafka source 258
    使用Kafka source 260
    工作流程 261
    哪裡有更多的source 262
    第20章 Spark Streaming 的Sink 263
    輸出操作 263
    內置的輸出操作 265
    print 266
    saveAs 繫列 266
    foreachRDD 268
    使用foreachRDD 編寫自定義sink 268
    第三方輸出操作 271
    第21章 基於時間的流處理 273
    窗口聚合 273
    滾動窗口 274
    滑動窗口 275
    滑動窗口與批次間隔 275
    滑動窗口與滾動窗口 276
    使用窗口還是較長的批次間隔 276
    窗口上的reduce 操作 277
    reduceByWindow 278
    reduceByKeyAndWindow 278
    countByWindow 278
    countByValueAndWindow 279
    可逆的窗口聚合操作 279
    流的分片 281
    小結 281
    第22章 任意有狀態的流處理 283
    流的狀態性 283
    updateStateByKey 284
    updateStateByKey 的局限性 286
    性能 286
    內存占用 287
    使用mapwithState 進行有狀態的計算 287
    使用mapWithState 289
    使用mapWithState進行基於事件時間的流計算 291
    第23章 使用Spark SQL 295
    Spark SQL 296
    在Spark Streaming中使用Spark SQL函數 297
    靜態數據處理 301
    Join 優化 304
    更新流處理程序中的參考數據集 307
    小結 309
    第24章 checkpoint 機制 311
    checkpoint的使用 312
    DStream的checkpoint機制 317
    從checkpoint中恢復 318
    checkpoint的代價 320
    checkpoint調優 320
    第25章 Spark Streaming應用監控 323
    Streaming UI 324
    通過Streaming UI了解作業性能 326
    輸入速率圖326
    調度延遲圖327
    處理時間圖328
    總延遲圖 328
    批次細節 329
    監控REST API 331
    監控REST API 的使用 331
    監控REST API 詳解 331
    指標子繫統 333
    內部事件總線 335
    小結 339
    第26章 性能調優 341
    Spark Streaming中的性能平衡 341
    批次間隔與處理延遲的關繫 342
    作業是如何失敗的 342
    深入理解調度延遲和處理延遲 343
    checkpoint對處理時間的影響 344
    影響作業性能的外部因素 345
    如何提高性能 345
    調整批次間隔 346
    以固定速率對數據攝入限流 346
    反壓 347
    動態限流 348
    PID 反壓調優 349
    自定義速率估算器 349
    另一種動態處理策略 350
    緩存 350
    推測執行 352
    參考文獻 353
    第四部分 Spark Streaming高級技巧
    第27章 流式近似與抽樣算法 357
    準確性、實時性與大數據 358
    準確性 358
    實時處理 358
    大數據 359
    準確性、實時性與大數據之間的三角關繫 359
    近似算法 362
    哈希與素描 362
    去重統計:HyperLogLog 363
    角色扮演練習:假如我們是繫統管理員 364
    HyperLogLog 在Spark中的實踐 367
    布隆過濾器概述 372
    在Spark 中使用布隆過濾器 373
    使用Count-min Sketch統計頻率 373
    排名與分位數:T-Digest 算法 376
    隨機抽樣 379
    分層抽樣 380
    第28章 實時機器學習 381
    利用樸素貝葉斯進行流分類 382
    streamDM介紹384
    樸素貝葉斯實踐案例 385
    訓練一個電影評論分類器 386
    決策樹介紹 387
    Hoeffding樹 389
    使用在線K-means進行流聚類 392
    K-means聚類 392
    在線數據與在線K-means算法 393
    聚類的衰退問題 394
    使用Spark Streaming運行流式K-means 396
    參考文獻 399
    第五部分 Apache Spark之外的世界
    第29章 其他分布式實時流處理繫統 405
    Apache Storm 405
    編程模型 406
    Storm 拓撲 406
    Storm 集群 407
    與Spark 相比 407
    Apache Flink 408
    流處理優先的框架 408
    與Spark相比 409
    Kafka Streams 409
    Kafka Streams編程模型 410
    與Spark相比 410
    雲上的流處理繫統 411
    AWS上的 Kinesis 411
    微軟的Azure Stream Analytics 412
    Apache Beam 和Google Cloud Dataflow 413
    第30章 展望 417
    緊隨Spark 項目 418
    在Stack Overflow上尋求幫助 418
    在郵件列表中進行討論 418
    參加會議 419
    參加交流會 419
    貢獻Apache Spark 項目 419
    參考文獻 421
    作者介紹 423
    封面介紹 423
    內容簡介
    利用分析工具可以快速獲取商業洞察,為此你需要了解如何對數據進行實時處理。通過這本實用指南,對於熟悉Apache Spark的讀者來說,你們將了解如何將這個內存框架應用於流數據。你會發現Spark讓你幾乎可以像面對批處理作業一樣來開發流處理作業。 本書介紹了Apache Spark的理論基礎。這本綜合指南通過兩個部分比較了Spark支持的流處理API:早期Spark Streaming和後來的Structured Streaming。



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    傑拉德·馬斯弗朗索瓦·加裡洛
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    傑拉德·馬斯弗朗索瓦·加裡洛
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部