[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

  •  文化

  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

     保健/养生
     体育/运动
     手工/DIY
     休闲/爱好
     英文原版书
     港台图书
     研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学
  • Spark快速大數據分析 第2版 圖書
    該商品所屬分類:圖書 -> 科技
    【市場價】
    960-1392
    【優惠價】
    600-870
    【作者】 朱爾斯·S達米吉等 
    【出版社】人民郵電出版社 
    【ISBN】9787115576019
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:人民郵電出版社
    ISBN:9787115576019
    商品編碼:10041147391147

    品牌:文軒
    出版時間:2021-11-01
    代碼:119

    作者:朱爾斯·S.達米吉等

        
        
    "
    作  者:(美)朱爾斯·S.達米吉 等 著 王道遠 譯
    /
    定  價:119.8
    /
    出 版 社:人民郵電出版社
    /
    出版日期:2021年11月01日
    /
    頁  數:340
    /
    裝  幀:平裝
    /
    ISBN:9787115576019
    /
    主編推薦
    1.本書作者均來自Spark的母公司Databricks。他們將帶你開始使用Spark,並了解如何利用它適應這個屬於大數據和機器學習的新時代。2.第2版在第1版的基礎上做了大量更新,涵蓋Spark 3.0的新特性,並著重展示如何利用機器學習算法執行大數據分析。3.Spark項目創始人Matei Zaharia、Spark PMC成員Reynold n力薦。毋庸置疑,數據已經成為現代化企業的重要資產,大數據分析技術則是企業挖掘數據價值的核心利器。一直以來,Spark就是大數據分析領域的等
    目錄
    ●譯者序 xiii
    對本書的贊譽 xv
    序 xvii
    前言 xix
    第1章 Apache Spark簡介:一站式分析引擎 1
    1.1 Spark的起源 1
    1.1.1 谷歌的大數據和分布式計算 1
    1.1.2 雅虎的Hadoop 2
    1.1.3 Spark在AMPLab嶄露頭角 3
    1.2 什麼是Spar 3
    1.2.1 快速 4
    1.2.2 易用 4
    1.2.3 模塊化 4
    1.2.4 可擴展 5
    1.3 一站式數據分析 5
    1.3.1 由Spark組件組成的一站式軟件棧 6
    1.3.2 Spark的分布式執行 9
    1.4 開發者體驗 12
    1.4.1 哪些人用Spark,用它做什麼 13
    1.4.2 社區接受度與社區發展 14
    第2章 下載並開始使用Apache Spark 16
    2.1 第1步:下載Spark 16
    2.2 第2步:使用Scala shell 或PySpark shell 18
    2.3 第3步:理解Spark 應用的相關概念 22
    2.3.1 Spark應用與SparkSession 22
    2.3.2 Spark作業 23
    2.3.3 Spark執行階段 23
    2.3.4 Spark任務 24
    2.4 轉化操作、行動操作以及惰性求值 24
    2.5 Spark UI 26
    2.6 第 一個獨立應用 29
    2.6.1 統計M&M巧克力豆 29
    2.6.2 用Scala構建獨立應用 34
    2.7 小結 36
    第3章 Apache Spark的結構化數據API 37
    3.1 RDD的背後是什麼 37
    3.2 Spark支持結構化數據 38
    3.3 DataFrame API 41
    3.3.1 Spark的基本數據類型 41
    3.3.2 Spark中結構化的復雜數據類型 42
    3.3.3 表結構與DataFrame 43
    3.3.4 列與表達式 47
    3.3.5 行 49
    3.3.6 常見的DataFrame操作 50
    3.3.7 完整的DataFrame示例 59
    3.4 Dataset API 60
    3.4.1 有類型對像、無類型對像,以及普通行 61
    3.4.2 創建Dataset 62
    3.4.3 Dataset操作 63
    3.4.4 完整的Dataset示例 65
    3.5 對比DataFrame和Dataset 65
    3.6 SparkSQL及其底層引擎 66
    3.7 小結 71
    第4章 Spark SQL與DataFrame:內建數據源概覽 73
    4.1 在Spark應用中使用Spark SQL 74
    4.2 SQL表和視圖 79
    4.2.1 有管理表和無管理表 79
    4.2.2 創建SQL數據庫和SQL 表 79
    4.2.3 創建視圖 80
    4.2.4數據 82
    4.2.5 緩存SQL表 82
    4.2.6 將表讀取為DataFrame 82
    4.3 DataFrame和SQL表的數據源 83
    4.3.1 DataFrameReader 83
    4.3.2 DataFrameWriter 85
    4.3.3 Parquet 86
    4.3.4 JSON 88
    4.3.5 CSV 90
    4.3.6 Avro 92
    4.3.7 ORC 94
    4.3.8 圖像 96
    4.3.9 二進制文件 97
    4.4 小結 98
    第5章 Spark SQL與DataFrame:讀寫外部數據源 100
    5.1 Spark SQL與Apache Hive 100
    5.2 用Spark SQL shell、Beeline和Tableau 查詢 106
    5.2.1 使用Spark SQL shell 106
    5.2.2 使用Beeline 107
    5.2.3 使用Tableau 108
    5.3 外部數據源 114
    5.3.1 JDBC和SQL數據庫 114
    5.3.2 tgreSQL 115
    5.3.3 MySQL 117
    5.3.4 Azure Cosmos DB 118
    5.3.5 MS SQL Server 120
    5.3.6 其他外部數據源 121
    5.4 DataFrame和Spark SQL的高階函數 121
    5.4.1 方式1:打散再重組 121
    5.4.2 方式2:用戶自定義函數 122
    5.4.3 針對復雜數據類型的內建函數 122
    5.4.4 高階函數 124
    5.5 常用的DataFrame操作和Spark SQL 操作 127
    5.5.1 聯合 130
    5.5.2 連接 130
    5.5.3 窗口 131
    5.5.4 修改 134
    5.6 小結 137
    第6章 Spark SQL與Dataset 138
    6.1 Java與Scala共用一套API 138
    6.2 操作Dataset 140
    6.2.1 創建示例數據 141
    6.2.2 轉化示例數據 142
    6.3 Dataset與DataFrame的內存管理 147
    6.4 Dataset編碼器 147
    6.4.1 Spark內部格式與Java對像格式 148
    6.4.2 序列化與反序列化 148
    6.5 使用Dataset的開銷 149
    6.6 小結 151
    第7章 Spark 應用的優化與調優 152
    7.1 為效率而優化與調優 152
    7.1.1 查看與設置Spark 配置 152
    7.1.2 為大型作業擴展Spark 155
    7.2 數據的緩存與持久化 160
    7.2.1 DataFrame.cache() 161
    7.2.2 DataFrame.persist() 162
    7.2.3 什麼時候應該緩存和持久化 164
    7.2.4 什麼時候不應該緩存和持久化 164
    7.3 Spark的各種連接算法 164
    7.3.1 廣播哈希連接 165
    7.3.2 混洗排序合並連接 166
    7.4 查看Spark UI 173
    7.5 小結 180
    第8章 結構化流處理 181
    8.1 Spark流處理引擎的演進過程 181
    8.1.1 以微型批模擬的流處理 182
    8.1.2 從DStream獲取的經驗教訓 183
    8.1.3 Structured Streaming的設計哲學 183
    8.2 Structured Streaming的編程模型 184
    8.3 Structured Streaming查詢 186
    8.3.1 五步定義流式查詢 186
    8.3.2 探究活躍的流式查詢 191
    8.3.3 失敗恢復與“準確一次”語義 192
    8.3.4 監控活躍的查詢 194
    8.4 流式數據源與數據池 196
    8.4.1 文件 197
    8.4.2 Kafka 199
    8.4.3 自定義流式數據源與數據池 200
    8.5 數據轉化 204
    8.5.1 增量執行與流處理狀態 204
    8.5.2 無狀態轉化操作 204
    8.5.3 有狀態轉化操作 205
    8.6 有狀態的流式聚合 207
    8.6.1 不根據時間維度進行聚合 207
    8.6.2 使用事件時間窗口進行聚合 208
    8.7 流式連接 214
    8.7.1 流與靜態表連接 214
    8.7.2 流與流連接 215
    8.8 任意的有狀態計算 220
    8.8.1 用mapGroupsWithState()為任意有狀態操作建模 220
    8.8.2 用超時管理不活躍的分組 223
    8.8.3 用flatMapGroupsWithState()進行通用操作 226
    8.9 性能調優 227
    8.10 小結 229
    第9章 用Apache Spark構建可靠的數據湖 230
    9.1 很好存儲解決方案的重要特點 230
    9.2 數據庫 231
    9.2.1 數據庫簡介 231
    9.2.2 用Spark讀寫數據庫 232
    9.2.3 數據庫的不足之處 232
    9.3 數據湖 233
    9.3.1 數據湖簡介 233
    9.3.2 用Spark讀寫數據湖 233
    9.3.3 數據湖的不足之處 234
    9.4 湖倉一體:下一代存儲解決方案 235
    9.4.1 Apache Hudi 236
    9.4.2 Apache Iceberg 236
    9.4.3 Delta Lake 236
    9.5 用Spark 與Delta Lake構建湖倉一體的繫統 237
    9.5.1 為使用Delta Lake配置Spark 237
    9.5.2 把數據加載到Delta Lake表中 238
    9.5.3 把數據流加載到Delta Lake表中 240
    9.5.4 寫數據時強化表結構約束以防止數據損壞 241
    9.5.5 修改表結構以適應數據變化 242
    9.5.6 轉化已有數據 242
    9.5.7 根據操作歷史審計數據變更 245
    9.5.8 用時間旅行功能查詢表以前的快照數據 245
    9.6 小結 246
    第10章 用MLlib實現機器學習 247
    10.1 什麼是機器學習 247
    10.1.1 監督學習 248
    10.1.2 無監督學習 249
    10.1.3 為什麼將Spark用於機器學習 250
    10.2 設計機器學習流水線 251
    10.2.1 接入並探索數據 251
    10.2.2 創建訓練集與測試集 252
    10.2.3 為轉化器準備特征 254
    10.2.4 理解線性回歸 255
    10.2.5 用預估器構建模型 256
    10.2.6 創建流水線 257
    10.2.7 評估模型 262
    10.2.8 保存和加載模型 266
    10.3 超參數調優 266
    10.3.1 基於樹的模型 267
    10.3.2 k折交叉驗證 274
    10.3.3 優化流水線 277
    10.4 小結 279
    第11章 用Apache Spark管理、部署與伸縮機器學習流水線 280
    11.1 模型管理 280
    11.2 用MLlib部署模型所用的選項 286
    11.2.1 批處理 287
    11.2.2 流處理 289
    11.2.3 導出模型用於實時預測的模式 290
    11.3 利用Spark使用非MLlib 模型 291
    11.3.1 Pandas UDF 291
    11.3.2 將Spark用於分布式超參數調優 293
    11.4 小結 295
    第12章 尾聲:Apache Spark 3.0 296
    12.1 Spark內核與Spark SQL 296
    12.1.1 動態分區裁剪 296
    12.1.2 自適應查詢執行 298
    12.1.3 SQL連接提示 301
    12.1.4 Catalog插件API 與DataSourceV2 302
    12.1.5 可感知加速器的調度器 303
    12.2 Structured Streaming 304
    12.3 PySpark、Pandas UDF 和Pandas 函數API 306
    12.3.1 重新設計的帶有Python 類型提示的Pandas UDF 306
    12.3.2 Pandas UDF中的迭代器支持 307
    12.3.3 新的Pandas函數API 307
    12.4 有改動的功能 308
    12.4.1 支持的與不推薦使用的編程語言 309
    12.4.2 DataFrame API和Dataset API的改動 309
    12.4.3 DataFrame與SQL 的explain命令 309
    12.5 小結 311
    作者簡介 313
    封面簡介 313
    內容簡介
    本書的主角是在大數據時代應運而生的數據處理與分析利器——Spark。你將通過豐富的示例學習如何使用Spark的結構化數據API,利用Spark SQL進行交互式查詢,掌握Spark應用的優化之道,用Spark和Delta Lake等開源工具構建可靠的數據湖,並用MLlib庫實現機器學習流水線。隨著Spark從2.x版本升級到3.0版本,本書第2版做了全面的更新,以體現Spark生態繫統在機器學習、流處理技術等方面的發展,另新增一章詳解Spark 3.0引入的新特性。本書面向希望利用Spark處理海量數據的讀者,包括數據工程師、數據科學家、機器學習工程師等。
    作者簡介
    (美)朱爾斯·S.達米吉 等 著 王道遠 譯
    【作者簡介】朱爾斯·S. 達米吉(Jules S. Damji)是Databricks的高級開發人員,也是MLflow的貢獻者。布魯克·韋尼希(Brooke Wenig)是Databricks的機器學習專家。泰瑟加塔·達斯(Tathagata Das)是Databricks的軟件工程師,也是Apache Spark PMC成員。丹尼·李(Denny Lee)是Databricks的軟件工程師。【譯者簡介】王道遠目前就職於阿裡雲開源大數據平臺數據湖存儲團隊,花名“健身”,主要負責數據湖架構下的緩存優化工作。有多年的大數據開發經驗,熟悉Spark源碼,從2014年開始參等



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    朱爾斯·S達米吉等
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    朱爾斯·S達米吉等
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部