[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

  •  文化

  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

     保健/养生
     体育/运动
     手工/DIY
     休闲/爱好
     英文原版书
     港台图书
     研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学
  • Kettle構建Hadoop ETL繫統實踐
    該商品所屬分類:計算機/網絡 -> 程序設計
    【市場價】
    872-1264
    【優惠價】
    545-790
    【作者】 王雪迎 
    【所屬類別】 圖書  計算機/網絡  程序設計  其他 
    【出版社】清華大學出版社 
    【ISBN】9787302582618
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302582618
    叢書名:大數據技術叢書

    作者:王雪迎
    出版社:清華大學出版社
    出版時間:2021年08月 


        
        
    "

    產品特色

    編輯推薦

    Kettle易用性好,編碼工作量小,功能完備,基於Java,允許多線程與並發執行以提高效率。本書以CDH作為Hadoop平臺,結合銷售訂單示例,詳細介紹並演示如何使用Kettle完成Hadoop數據倉庫的ETL過程。本書適合大數據分析繫統開發、數據倉庫繫統設計與開發、DBA、架構師等相關技術人員閱讀。

     
    內容簡介

    Kettle是一款國外開源的ETL工具,純Java編寫,無須安裝,功能完備,數據抽取高效穩定。 本書介紹並演示如何用Kettle完成Hadoop數據倉庫上的ETL過程,所有的描繪場景與實驗環境都是基於Linux操作繫統的虛擬機。全書共分10章,主要內容包括ETL與Kettle的基本概念、Kettle安裝與配置、Kettle對Hadoop的支持、建立ETL示例模型、數據轉換與裝載、定期自動執行ETL作業、維度表技術、事實表技術,以及Kettle並行、集群與分區技術。 本書既適合大數據分析繫統開發、數據倉庫繫統設計與開發、DBA、架構師等相關技術人員閱讀,也適合高等院校和培訓機構人工智能與大數據相關專業的師生參考。

    作者簡介

    王雪迎 ,畢業於中國地質大學計算機專業,高級工程師,20年數據庫、數據倉庫相關技術工作經驗。先後供職於北京現代商業信息技術有限公司、北京在線九州信息技術服務有限公司、華北計算技術研究所、北京優貝在線網絡科技有限公司,擔任DBA、數據架構師等職位。著有圖書《Hadoop構建數據倉庫實踐》《HAWQ數據倉庫與數據挖掘實戰》《SQL機器學習庫MADlib技術解析》《MySQL高可用實踐》。

    目錄
    第1章 ETL與Kettle 1
    1.1 ETL基礎 1
    1.1.1 數據倉庫架構中的ETL 1
    1.1.2 數據抽取 3
    1.1.3 數據轉換 5
    1.1.4 數據裝載 6
    1.1.5 開發ETL繫統的方法 6
    1.2 ETL工具 7
    1.2.1 ETL工具的產生 7
    1.2.2 ETL工具的功能 7
    1.3 Kettle基本概念 10
    1.3.1 Kettle設計原則 11
    1.3.2 轉換 12
    1.3.3 作業 15

    第1章  ETL與Kettle 1
    1.1  ETL基礎 1
    1.1.1  數據倉庫架構中的ETL 1
    1.1.2  數據抽取 3
    1.1.3  數據轉換 5
    1.1.4  數據裝載 6
    1.1.5  開發ETL繫統的方法 6
    1.2  ETL工具 7
    1.2.1  ETL工具的產生 7
    1.2.2  ETL工具的功能 7
    1.3  Kettle基本概念 10
    1.3.1  Kettle設計原則 11
    1.3.2  轉換 12
    1.3.3  作業 15
    1.3.4  數據庫連接 18
    1.3.5  連接與事務 21
    1.3.6 &nb數據與資源庫 21
    1.3.7  工具 22
    1.3.8  虛擬文件繫統 26
    1.4  為什麼選擇Kettle 27
    1.4.1  主要特性 27
    1.4.2  與SQL的比較 27
    1.5  小結 30
    第2章  Kettle安裝與配置 31
    2.1  安裝 31
    2.1.1  確定安裝環境 31
    2.1.2  安裝前準備 33
    2.1.3  安裝運行Kettle 41
    2.2  配置 43
    2.2.1  配置文件和.kettle目錄 44
    2.2.2  用於啟動Kettle程序的shell腳本 48
    2.2.3  管理JDBC驅動 49
    2.3  使用資源庫 50
    2.3.1  Kettle資源庫簡介 50
    2.3.2  創建數據庫資源庫 50
    2.3.3  資源庫的管理與使用 51
    2.4  小結 55
    第3章  Kettle對Hadoop的支持 56
    3.1  Hadoop相關的步驟與作業項 56
    3.2  連接Hadoop 57
    3.2.1  連接Hadoop集群 57
    3.2.2  連接Hive 63
    3.2.3  連接Impala 64
    3.2.4  建立MySQL數據庫連接 66
    3.3  導入導出Hadoop集群數據 67
    3.3.1  向HDFS導入數據 67
    3.3.2  向Hive導入數據 67
    3.3.3  從HDFS抽取數據到MySQL 68
    3.3.4  從Hive抽取數據到MySQL 70
    3.4  執行HiveQL語句 72
    3.5  執行MapReduce 72
    3.5.1  生成聚合數據集 72
    3.5.2  格式化原始Web日志 77
    3.6  執行Spark作業 81
    3.6.1  在Kettle主機上安裝Spark客戶端 81
    3.6.2  為Kettle配置Spark 81
    3.6.3  提交Spark作業 82
    3.7  小結 83
    第4章  建立ETL示例模型 84
    4.1  業務場景 84
    4.1.1  操作型數據源 84
    4.1.2  銷售訂單數據倉庫模型設計 85
    4.2  Hive相關配置 86
    4.2.1  選擇文件格式 86
    4.2.2  選擇表類型 88
    4.2.3  支持行級更新 92
    4.2.4  Hive事務支持的限制 94
    4.3  建立數據庫表 94
    4.3.1  源數據庫表 94
    4.3.2  RDS庫表 97
    4.3.3  TDS庫表 98
    4.4  裝載日期維度數據 100
    4.5  小結 103
    第5章  數據抽取 104
    5.1  Kettle數據抽取概覽 104
    5.1.1  文件抽取 105
    5.1.2  數據庫抽取 116
    5.2  變化數據捕獲 119
    5.2.1  基於源數據的CDC 119
    5.2.2  基於觸發器的CDC 125
    5.2.3  基於快照的CDC 126
    5.2.4  基於日志的CDC 130
    5.3  使用Sqoop抽取數據 132
    5.3.1  Sqoop簡介 132
    5.3.2  使用Sqoop抽取數據 134
    5.3.3  Sqoop優化 137
    5.4  小結 138
    第6章  數據轉換與裝載 139
    6.1  數據清洗 139
    6.1.1  處理“髒數據” 139
    6.1.2  數據清洗原則 140
    6.1.3  數據清洗實例 140
    6.2  Hive簡介 146
    6.2.1  Hive體繫結構 147
    6.2.2  Hive工作流程 148
    6.2.3  Hive服務器 149
    6.2.4  Hive優化 152
    6.3  初始裝載 160
    6.3.1  繫統初始化 162
    6.3.2  裝載過渡區 164
    6.3.3  裝載維度表 165
    6.3.4  裝載事實表 167
    6.3.5  設置後裝載日期 168
    6.4  定期裝載 168
    6.4.1  設置繫統日期 169
    6.4.2  裝載過渡區 169
    6.4.3  裝載維度表 169
    6.4.4  裝載事實表 174
    6.4.5  設置後裝載日期 176
    6.5  小結 178
    第7章  定期自動執行ETL作業 179
    7.1  使用crontab 179
    7.1.1  crontab權限 180
    7.1.2  crontab命令 180
    7.1.3  crontab文件 181
    7.1.4  crontab示例 181
    7.1.5  crontab環境 182
    7.1.6  重定向輸出 183
    7.2  使用Oozie 183
    7.2.1  Oozie體繫結構 184
    7.2.2  CDH 6.3.1中的Oozie 185
    7.2.3  建立定期裝載工作流 185
    7.2.4  建立協調器作業定期自動執行工作流 197
    7.2.5  在Kettle中執行Oozie作業 200
    7.2.6  Oozie優化 201
    7.3  使用start作業項 202
    7.4  小結 203
    第8章  維度表技術 205
    8.1  增加列 205
    8.1.1  修改數據庫模式 206
    8.1.2  修改Sqoop作業項 206
    8.1.3  修改定期裝載維度表的轉換 207
    8.1.4  修改定期裝載事實表的轉換 210
    8.1.5  測試 210
    8.2  維度子集 211
    8.2.1  建立包含屬性子集的子維度 212
    8.2.2  建立包含行子集的子維度 214
    8.2.3  使用視圖實現維度子集 216
    8.3  角色扮演維度 217
    8.3.1  修改數據庫模式 217
    8.3.2  修改Kettle定期裝載作業 218
    8.3.3  測試 220
    8.3.4  一種有問題的設計 223
    8.4  層次維度 224
    8.4.1  固定深度的層次 224
    8.4.2  多路徑層次 228
    8.4.3  參差不齊的層次 229
    8.4.4  遞歸 230
    8.5  退化維度 238
    8.5.1  退化訂單維度 239
    8.5.2  修改定期裝載腳本 241
    8.5.3  測試修改後的定期裝載 241
    8.6  雜項維度 242
    8.6.1  新增銷售訂單屬性雜項維度 245
    8.6.2  修改定期裝載Kettle作業 246
    8.6.3  測試修改後的定期裝載 247
    8.7  維度合並 248
    8.7.1  修改數據倉庫模式 249
    8.7.2  初始裝載事實表 251
    8.7.3  修改定期裝載Kettle作業 253
    8.7.4  測試修改後的定期裝載 254
    8.8  分段維度 255
    8.8.1  年度銷售訂單星型模式 256
    8.8.2  初始裝載 258
    8.8.3  定期裝載 260
    8.9  小結 261
    第9章  事實表技術 262
    9.1  事實表概述 262
    9.2  周期快照 263
    9.2.1  修改數據倉庫模式 263
    9.2.2  創建快照表數據裝載Kettle轉換 265
    9.3  累積快照 267
    9.3.1  修改數據庫模式 268
    9.3.2  修改增量抽取銷售訂單表的Kettle轉換 270
    9.3.3  修改定期裝載銷售訂單事實表的Kettle轉換 270
    9.3.4  修改定期裝載Kettle作業 271
    9.3.5  測試 274
    9.4  無事實的事實表 276
    9.4.1  建立新產品發布的無事實的事實表 277
    9.4.2  初始裝載無事實的事實表 278
    9.4.3  修改定期裝載Kettle作業 280
    9.4.4  測試定期裝載作業 281
    9.5  遲到的事實 281
    9.5.1  修改數據倉庫模式 282
    9.5.2  修改定期裝載Kettle轉換 282
    9.5.3  修改裝載月銷售周期快照事實表的作業 283
    9.5.4  測試 286
    9.6  累積度量 289
    9.6.1  修改模式 289
    9.6.2  初始裝載 290
    9.6.3  定期裝載 291
    9.6.4  測試定期裝載 292
    9.6.5  查詢 294
    9.7  小結 295
    第10章  並行、集群與分區 296
    10.1  數據分發方式與多線程 296
    10.1.1  數據行分發 297
    10.1.2  記錄行合並 298
    10.1.3  記錄行再分發 299
    10.1.4  數據流水線 301
    10.1.5  多線程的問題 301
    10.1.6  作業中的並行執行 302
    10.2  Carte子服務器 303
    10.2.1  創建Carte子服務器 303
    10.2.2  定義子服務器 304
    10.2.3  遠程執行 304
    10.2.4  監視子服務器 306
    10.2.5  Carte安全 306
    10.2.6  服務 307
    10.3  集群轉換 308
    10.3.1  定義一個靜態集群 308
    10.3.2  設計集群轉換 310
    10.3.3  執行和監控 310
    10.3.4 &nb數據轉換 312
    10.3.5  配置動態集群 313
    10.4  數據庫分區 315
    10.4.1  在數據庫連接中使用集群 315
    10.4.2  創建數據庫分區schemas 317
    10.4.3  啟用數據庫分區 318
    10.4.4  數據庫分區示例 319
    10.4.5  集群轉換中的分區 321
    10.5  小結 322

    前言
    2017年我寫了本書,名為《Hadoop構建數據倉庫實踐》。那本書詳細地介紹了如何利用Hadoop生態圈組件構建傳統數據倉庫,如使用Sqoop從關繫型數據庫全量或增量抽取數據到Hadoop繫統、使用Hive進行數據轉換和裝載處理、使用Oozie調度ETL過程自動定時執行等。作為進階,書中還講解了多維數據倉庫技術中的漸變維、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到事實、累計度量等常見問題在Hadoop上的處理方法。所有這些內容都以CDH(Cloudera's Distribution Including Apache Hadoop)為運行平臺,並用一個簡單的銷售訂單示例來繫統說明。
    該書介紹的大部分功能都是通過Hive SQL來實現的,其中有些SQL語句邏輯復雜,可讀性也不是很好。如今四年過去了,技術已經有了新的發展,同時我對Hadoop數據倉庫這個主題也有了新的思考,那就是有沒有可能使用一種GUI(Graphical User Interface,圖形用戶界面)工具來實現上述所有功能呢?伴隨著尋找答案的過程,經過持續的實踐與總結,於是就有了呈現在讀者面前的這本新書。本書介紹並演示如何用Kettle完成Hadoop數據倉庫的ETL過程。我們仍然以CDH作為Hadoop平臺,沿用相同的銷售訂單示例進行說明,因此可以將本書當作《Hadoop構建數據倉庫實踐》的另一版本。

    2017年我寫了本書,名為《Hadoop構建數據倉庫實踐》。那本書詳細地介紹了如何利用Hadoop生態圈組件構建傳統數據倉庫,如使用Sqoop從關繫型數據庫全量或增量抽取數據到Hadoop繫統、使用Hive進行數據轉換和裝載處理、使用Oozie調度ETL過程自動定時執行等。作為進階,書中還講解了多維數據倉庫技術中的漸變維、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到事實、累計度量等常見問題在Hadoop上的處理方法。所有這些內容都以CDH(Cloudera's Distribution Including Apache Hadoop)為運行平臺,並用一個簡單的銷售訂單示例來繫統說明。
    該書介紹的大部分功能都是通過Hive SQL來實現的,其中有些SQL語句邏輯復雜,可讀性也不是很好。如今四年過去了,技術已經有了新的發展,同時我對Hadoop數據倉庫這個主題也有了新的思考,那就是有沒有可能使用一種GUI(Graphical User Interface,圖形用戶界面)工具來實現上述所有功能呢?伴隨著尋找答案的過程,經過持續的實踐與總結,於是就有了呈現在讀者面前的這本新書。本書介紹並演示如何用Kettle完成Hadoop數據倉庫的ETL過程。我們仍然以CDH作為Hadoop平臺,沿用相同的銷售訂單示例進行說明,因此可以將本書當作《Hadoop構建數據倉庫實踐》的另一版本。
    面對各種各樣的ETL開發工具,之所以選擇Kettle,主要由於它的一些鮮明特性。首先,很明確的一點是,作為一款GUI工具,Kettle的易用性好,編碼工作量小化。幾乎所有的功能都可以通過用戶界面完成,提高了ETL過程的開發效率。其次,Kettle的功能完備。書中演示所用的Kettle 8.3版本幾乎支持所有常見的數據源,並能滿足ETL功能需求的各種轉換步驟與作業項。第三,Kettle是基於Java的解決方案,天然繼承了Java的跨平臺性,隻要有合適的JVM存在,轉換或作業就能運行在任何環境和平臺之上,真正做到與平臺無關。後,Kettle允許多線程與並發執行,以提高程序執行效率。用戶隻需指定線程數,其他工作都交給Kettle處理,實現細節完全透明化。
    本書內容
    全書共分10章。第1章介紹ETL與Kettle的基本概念,如ETL定義、ETL工具、Kettle的設計原則、Kettle組件與功能特性等。第2章講解Kettle在Linux上的安裝配置,還包括安裝Java環境、安裝GNOME Desktop圖形界面、配置中文字符集和輸入法、安裝配置VNC遠程控制等相關細節問題。第3章介紹Kettle對Hadoop的支持,說明如何配置Kettle連接Hadoop集群、Kettle中包含的Hadoop相關的步驟與作業項,演示Kettle導入導出Hadoop數據、執行MapReduce和Spark作業等。第4章說明貫穿全書的銷售訂單示例的搭建過程。第5章主要講解用Kettle實現各種變換數據捕獲方法,還有Sqoop作業項的使用。第6章說明Kettle的數據轉換與裝載功能,以及在銷售訂單示例上的具體實現。第7章講解Kettle如何支持ETL作業的自動調度,包括使用Oozie和Start作業項的實現。第8、9章詳解多維數據倉庫中常見的維度表和事實表技術,及其Kettle實現。第10章介紹三種與Kettle可擴展性相關的技術,即並行、集群和分區。
    資源下載與技術支持
    本書配套的資源下載信息,請用微信掃描右邊的二維碼獲取,可按頁面提示,把下載鏈接轉發到自己的郵箱中下載。如果閱讀過程中發現問題,請聯繫booksaga@163.com,郵件主題為“Kettle構建Hadoop ETL繫統實踐”。
    讀者對像
    本書所有的描繪場景與實驗環境都是基於Linux操作繫統的虛擬機,需要讀者具有一定的Hadoop、數據倉庫、SQL與Linux基礎。本書適合大數據分析繫統開發、數據倉庫繫統設計與開發、DBA、架構師等相關技術人員閱讀,也適合高等院校和培訓機構人工智能與大數據相關專業的師生教學參考。
    致謝
    在本書編寫過程中,得到了很多人的幫助與支持。首先要感謝我所在的公司(優貝在線)提供的平臺和環境,感謝同事們工作中的鼎力相助。沒有那裡的環境和團隊,也就不會有這本書。感謝清華大學出版社圖格事業部的編輯們,他們的辛勤工作使得本書得以盡早與讀者見面。感謝CSDN提供的技術分享平臺,給我有一個將博客文章整理成書的機會。後,感謝家人對我一如既往的支持。由於本人水平有限,書中疏漏之處在所難免,敬請讀者批評指正。


    著  者
    2021年5月 

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部