[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • Spark快速大數據分析(第2版)人民郵電出版社 9787115576019
    該商品所屬分類:圖書 -> ε
    【市場價】
    707-1024
    【優惠價】
    442-640
    【作者】 朱爾斯·S達米吉等王道遠 
    【出版社】人民郵電出版社 
    【ISBN】9787115576019
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:人民郵電出版社
    ISBN:9787115576019
    商品編碼:10042515491556

    出版時間:2021-11-01
    字數:502
    審圖號:9787115576019

    代碼:119
    作者:朱爾斯·S.達米吉等,王道遠

        
        
    "
    內容介紹

    6cbb0cd1da518919.jpgfc08aa58732f07f1.jpg4f255abd2dbc1f59.jpge89b94cd1aa56a75.jpg130eb5664594ba7a.jpgcabfe834b14504bd.jpg9d298006ac8cca6a.jpgb0de1e55b2505c54.jpg

    本書的主角是在大數據時代應運而生的數據處理與分析利器——Spark。你將通過豐富的示例學習如何使用Spark的結構化數據API,利用Spark SQL進行交互式查詢,掌握Spark應用的優化之道,用Spark和Delta Lake等開源工具構建可靠的數據湖,並用MLlib庫實現機器學習流水線。隨著Spark從2.x版本升級到3.0版本,本書第2版做了全面的更新,以體現Spark生態繫統在機器學習、流處理技術等方面的發展,另新增一章詳解Spark 3.0引入的新特性。



    作者介紹

    【作者簡介】 朱爾斯·S. 達米吉(Jules S. Damji)是Databricks的高級開發人員,也是MLflow的貢獻者。 布魯克·韋尼希(Brooke Wenig)是Databricks的機器學習專家。 泰瑟加塔·達斯(Tathagata Das)是Databricks的軟件工程師,也是Apache Spark PMC成員。 丹尼·李(Denny Lee)是Databricks的軟件工程師。 【譯者簡介】 王道遠 目前就職於阿裡雲開源大數據平臺數據湖存儲團隊,花名“健身”,主要負責數據湖架構下的緩存優化工作。有多年的大數據開發經驗,熟悉Spark源碼,從2014年開始參與Spark項目,曾為Spark貢獻大量修復和新特性,也曾作為主要貢獻者參與了OAP和SparkCube等Spark生態開源項目的開發。

    目錄

    譯者序 xiii ?
    對本書的贊譽 xv ?
    序 .xvii ?
    前言 xix ?
    第 1章Apache Spark簡介:一站式分析引擎 1 ?
    1.1Spark的起源 1 ?
    1.1.1谷歌的大數據和分布式計算 1 ?
    1.1.2雅虎的Hadoop 2 ?
    1.1.3Spark在AMPLab嶄露頭角 3 ?
    1.2什麼是Spar 3 ?
    1.2.1快速 4 ?
    1.2.2易用 4 ?
    1.2.3模塊化 4 ?
    1.2.4可擴展 5 ?
    1.3一站式數據分析 5 ?
    1.3.1由Spark組件組成的一站式軟件棧 6 ?
    1.3.2Spark的分布式執行 9 ?
    1.4開發者體驗 12 ?
    1.4.1哪些人用Spark,用它做什麼 13 ?
    1.4.2社區接受度與社區發展 14 ?
    第 2 章下載並開始使用Apache Spark 16 ?
    2.1第 1 步:下載Spark 16 ?
    2.2第 2 步:使用Scala shell 或PySpark shell 18 ?
    2.3第3 步:理解Spark 應用的相關概念 22 ?
    2.3.1Spark 應用與SparkSession 22 ?
    2.3.2Spark 作業 23 ?
    2.3.3Spark 執行階段 23 ?
    2.3.4Spark 任務 24 ?
    2.4轉化操作、行動操作以及惰性求值 24 ?
    2.5Spark UI 26 ?
    2.6第 一個獨立應用 29 ?
    2.6.1統計M&M 巧克力豆 29 ?
    2.6.2用Scala 構建獨立應用 34 ?
    2.7小結 36 ?
    第3 章Apache Spark 的結構化數據API 37 ?
    3.1RDD 的背後是什麼 37 ?
    3.2Spark 支持結構化數據 38 ?
    3.3DataFrame API 41 ?
    3.3.1Spark 的基本數據類型 41 ?
    3.3.2Spark 中結構化的復雜數據類型 42 ?
    3.3.3表結構與DataFrame 43 ?
    3.3.4列與表達式 47 ?
    3.3.5行 49 ?
    3.3.6常見的DataFrame 操作 50 ?
    3.3.7完整的DataFrame 示例 59 ?
    3.4Dataset API 60 ?
    3.4.1有類型對像、無類型對像,以及普通行 61 ?
    3.4.2創建Dataset 62 ?
    3.4.3Dataset 操作 63 ?
    3.4.4完整的Dataset 示例 65 ?
    3.5對比DataFrame 和Dataset 65 ?
    3.6Spark SQL 及其底層引擎 66 ?
    3.7小結 71 ?
    第4 章Spark SQL 與DataFrame:內建數據源概覽 73 ?
    4.1在Spark 應用中使用Spark SQL 74 ?
    4.2SQL 表和視圖 79 ?
    4.2.1有管理表和無管理表 79 ?
    4.2.2創建SQL 數據庫和SQL 表 79 ?
    4.2.3創建視圖 80 ?
    4.2.4數據 82 ?
    4.2.5緩存SQL 表 82 ?
    4.2.6將表讀取為DataFrame 82 ?
    4.3DataFrame 和SQL 表的數據源 83 ?
    4.3.1DataFrameReader 83 ?
    4.3.2DataFrameWriter 85 ?
    4.3.3Parquet 86 ?
    4.3.4JSON 88 ?
    4.3.5CSV 90 ?
    4.3.6Avro 92 ?
    4.3.7ORC 94 ?
    4.3.8圖像 96 ?
    4.3.9二進制文件 97 ?
    4.4小結 98 ?
    第5 章Spark SQL 與DataFrame:讀寫外部數據源 100 ?
    5.1Spark SQL 與Apache Hive 100 ?
    5.2用Spark SQL shell、Beeline 和Tableau 查詢 106 ?
    5.2.1使用Spark SQL shell 106 ?
    5.2.2使用Beeline 107 ?
    5.2.3使用Tableau 108 ?
    5.3外部數據源 114 ?
    5.3.1JDBC 和SQL 數據庫 114 ?
    5.3.2PostgreSQL 115 ?
    5.3.3MySQL 117 ?
    5.3.4Azure Cosmos DB 118 ?
    5.3.5MS SQL Server 120 ?
    5.3.6其他外部數據源 121 ?
    5.4DataFrame 和Spark SQL 的高階函數 121 ?
    5.4.1方式1:打散再重組 121 ?
    5.4.2方式2:用戶自定義函數 122 ?
    5.4.3針對復雜數據類型的內建函數 122 ?
    5.4.4高階函數 124 ?
    5.5常用的DataFrame 操作和Spark SQL 操作 127 ?
    5.5.1聯合 130 ?
    5.5.2連接 130 ?
    5.5.3窗口 131 ?
    5.5.4修改 134 ?
    5.6小結 137 ?
    第6 章Spark SQL 與Dataset 138 ?
    6.1Java 與Scala 共用一套API 138 ?
    6.2操作Dataset 140 ?
    6.2.1創建示例數據 141 ?
    6.2.2轉化示例數據 142 ?
    6.3Dataset 與DataFrame 的內存管理 147 ?
    6.4Dataset 編碼器 147 ?
    6.4.1Spark 內部格式與Java 對像格式 148 ?
    6.4.2序列化與反序列化 148 ?
    6.5使用Dataset 的開銷 149 ?
    6.6小結 151 ?
    第7 章Spark 應用的優化與調優 152 ?
    7.1為效率而優化與調優 152 ?
    7.1.1查看與設置Spark 配置 152 ?
    7.1.2為大型作業擴展Spark 155 ?
    7.2數據的緩存與持久化 160 ?
    7.2.1DataFrame.cache() 161 ?
    7.2.2DataFrame.persist() 162 ?
    7.2.3什麼時候應該緩存和持久化 164 ?
    7.2.4什麼時候不應該緩存和持久化 164 ?
    7.3Spark 的各種連接算法 164 ?
    7.3.1廣播哈希連接 165 ?
    7.3.2混洗排序合並連接 166 ?
    7.4查看Spark UI 173 ?
    7.5小結 180 ?
    第8 章結構化流處理 181 ?
    8.1Spark 流處理引擎的演進過程 181 ?
    8.1.1以微型批模擬的流處理 182 ?
    8.1.2從DStream 獲取的經驗教訓 183 ?
    8.1.3Structured Streaming 的設計哲學 183 ?
    8.2Structured Streaming 的編程模型 184 ?
    8.3Structured Streaming 查詢 186 ?
    8.3.1五步定義流式查詢 186 ?
    8.3.2探究活躍的流式查詢 191 ?
    8.3.3失敗恢復與“精確一次”語義 192 ?
    8.3.4監控活躍的查詢 194 ?
    8.4流式數據源與數據池 196 ?
    8.4.1文件 197 ?
    8.4.2Kafka 199 ?
    8.4.3自定義流式數據源與數據池 200 ?
    8.5數據轉化 204 ?
    8.5.1增量執行與流處理狀態 204 ?
    8.5.2無狀態轉化操作 204 ?
    8.5.3有狀態轉化操作 205 ?
    8.6有狀態的流式聚合 207 ?
    8.6.1不根據時間維度進行聚合 207 ?
    8.6.2使用事件時間窗口進行聚合 208 ?
    8.7流式連接 214 ?
    8.7.1流與靜態表連接 214 ?
    8.7.2流與流連接 215 ?
    8.8任意的有狀態計算 220 ?
    8.8.1用mapGroupsWithState() 為任意有狀態操作建模 220 ?
    8.8.2用超時管理不活躍的分組 223 ?
    8.8.3用flatMapGroupsWithState() 進行通用操作 226 ?
    8.9性能調優 227 ?
    8.10小結 229 ?
    第9 章用Apache Spark 構建可靠的數據湖 230 ?
    9.1*佳存儲解決方案的重要特點 230 ?
    9.2數據庫 231 ?
    9.2.1數據庫簡介 231 ?
    9.2.2用Spark 讀寫數據庫 232 ?
    9.2.3數據庫的不足之處 232 ?
    9.3數據湖 233 ?
    9.3.1數據湖簡介 233 ?
    9.3.2用Spark 讀寫數據湖 233 ?
    9.3.3數據湖的不足之處 234 ?
    9.4湖倉一體:下一代存儲解決方案 235 ?
    9.4.1Apache Hudi 236 ?
    9.4.2Apache Iceberg 236 ?
    9.4.3Delta Lake 236 ?
    9.5用Spark 與Delta Lake 構建湖倉一體的繫統 237 ?
    9.5.1為使用Delta Lake 配置Spark 237 ?
    9.5.2把數據加載到Delta Lake 表中 238 ?
    9.5.3把數據流加載到Delta Lake 表中 240 ?
    9.5.4寫數據時強化表結構約束以防止數據損壞 241 ?
    9.5.5修改表結構以適應數據變化 242 ?
    9.5.6轉化已有數據 242 ?
    9.5.7根據操作歷史審計數據變更 245 ?
    9.5.8用時間旅行功能查詢表以前的快照數據 245 ?
    9.6小結 246 ?
    第 10 章用MLlib 實現機器學習 247 ?
    10.1什麼是機器學習 247 ?
    10.1.1監督學習 248 ?
    10.1.2無監督學習 249 ?
    10.1.3為什麼將Spark 用於機器學習 250 ?
    10.2設計機器學習流水線 251 ?
    10.2.1接入並探索數據 251 ?
    10.2.2創建訓練集與測試集 252 ?
    10.2.3為轉化器準備特征 254 ?
    10.2.4理解線性回歸 255 ?
    10.2.5用預估器構建模型 256 ?
    10.2.6創建流水線 257 ?
    10.2.7評估模型 262 ?
    10.2.8保存和加載模型 266 ?
    10.3超參數調優 266 ?
    10.3.1基於樹的模型 267 ?
    10.3.2k 折交叉驗證 274 ?
    10.3.3優化流水線 277 ?
    10.4小結 279 ?
    第 11 章用Apache Spark管理、部署與伸縮機器學習流水線 280 ?
    11.1模型管理 280 ?
    11.2用MLlib 部署模型所用的選項 286 ?
    11.2.1批處理 287 ?
    11.2.2流處理 289 ?
    11.2.3導出模型用於實時預測的模式 290 ?
    11.3利用Spark 使用非MLlib 模型 291 ?
    11.3.1Pandas UDF 291 ?
    11.3.2將Spark 用於分布式超參數調優 293 ?
    11.4小結 295 ?
    第 12 章尾聲:Apache Spark 3.0 296 ?
    12.1Spark 內核與Spark SQL 296 ?
    12.1.1動態分區裁剪 296 ?
    12.1.2自適應查詢執行 298 ?
    12.1.3SQL 連接提示 301 ?
    12.1.4Catalog 插件API 與DataSourceV2 302 ?
    12.1.5可感知加速器的調度器 303 ?
    12.2Structured Streaming 304 ?
    12.3PySpark、Pandas UDF 和Pandas 函數API 306 ?
    12.3.1重新設計的帶有Python 類型提示的Pandas UDF 306 ?
    12.3.2Pandas UDF 中的迭代器支持 307 ?
    12.3.3新的Pandas 函數API 307 ?
    12.4有改動的功能 308 ?
    12.4.1支持的與不推薦使用的編程語言 309 ?
    12.4.2DataFrame API 和Dataset API 的改動 309 ?
    12.4.3DataFrame 與SQL 的explain 命令 309 ?
    12.5小結 311 ?
    作者簡介 313 ?
    封面簡介 313





    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部