[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

【正版圖書】數據清洗 劉鵬,張燕,李法平,陳瀟瀟 著 清華大學出版
該商品所屬分類:圖書 -> 遼寧音響出版社
【市場價】
507-736
【優惠價】
317-460
【作者】 劉鵬張燕李法平陳瀟瀟 
【出版社】清華大學出版社 
【ISBN】9787302493273
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



店鋪:遼寧音像出版社圖書專營店
出版社:清華大學出版社
ISBN:9787302493273

商品編碼:10028930222004
包裝:平裝
出版時間:2018-06-01

作者:劉鵬,張燕,李法平,陳瀟瀟

    
    
"

基本信息

書名:數據清洗

定價

作者:劉鵬,張燕,李法平,陳瀟瀟 著

出版社:清華大學出版社

出版日期:2018-06-01

ISBN:9787302493273

字數:280000

頁碼:238

版次:1

裝幀:平裝

開本:16開

商品重量:

編輯推薦


數據清洗是大數據技術不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,把“髒”的數據變為“干淨”的數據。本書詳細講解了ETL技術方法和常用工具、常用的數據清洗工具、數據抽取、數據轉換與加載、對Web數據的采集、對RDBMS數據的清洗操作。目前市面上此類書還很少,對數據清洗從業人員是一本不可多得的技術參考書,也可以作為應用型院校的課程教材。

內容提要


數據清洗是大數據領域不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,使“髒”數據變為“干淨”數據。
本書共分為8章:章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等;第2章主要介紹Windows和類UNIX操作繫統下的數據常規格式、數據編碼及數據類型轉換等;第3章介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子繫統等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等;第6章介紹數據清洗步驟、數據檢驗、數據錯誤處理、數據質量評估及數據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數據采集,利用技術進行行為日志數據采集等;第8章介紹RDBMS的數據清洗方法和數據脫敏處理技術等。
本書繫統地講解了數據清洗理論和實際應用,適用於高職高專院校和應用型本科的大數據課程教學,也適用於希望了解數據清洗的廣大讀者。

目錄


章 數據清洗概述 1
1.1 數據清洗簡介 1
1.1.1 數據科學過程 1
1.1.2 數據清洗定義 2
1.1.3 數據清洗任務 3
1.1.4 數據清洗流程 4
1.1.5 數據清洗環境 5
1.1.6 數據清洗實例說明 6
1.2 數據標準化 7
1.2.1 數據標準化概念 7
1.2.2 數據標準化常用方法 8
1.3 數據倉庫簡介 9
1.3.1 數據倉庫定義 9
1.3.2 數據倉庫組成要素 10
1.3.3 數據倉庫分類 11
1.3.4 數據倉庫相關技術 12
1.3.5 常用工具簡介 13
1.4 習題 14
第2章 數據格式與編碼 16
2.1 文件文本格式 16
2.1.1 常見文本格式 17
2.1.2 xls及xlsx文件格式 18
2.1.3 JSON文本格式 19
2.1.4 HTML和XML文本格式 19
2.2 數據編碼 20
2.2.1 數據類型 21
2.2.2 數據類型間轉換 25
2.2.3字符編碼 26
2.2.4 空值和亂碼 28
2.3 數據轉換 28
2.3.1 電子表格轉換 29
2.3.2 RDBMS數據轉換 30
2.4 習題 30
第3章 基本技術方法 31
3.1 ETL入門 31
3.1.1 ETL解決方案 31
3.1.2 ETL基本構成 33
3.1.3 ETL技術選型 35
3.2 技術路線 35
3.2.1 文本清洗路線 35
3.2.2 RDBMS清洗路線 36
3.2.3 Web內容清洗路線 36
3.3 ETL工具 37
3.3.1 ETL功能 37
3.3.2 開源ETL工具 38
3.4 ETL子繫統 39
3.4.1 抽取 39
3.4.2 清洗和更正數據 39
3.4.3 數據發布 40
3.4.4 管理ETL 41
3.5 習題 41
第4章 數據清洗常用工具及基本操作 42
4.1 Microsoft Excel數據清洗基本操作 42
4.1.1 Excel數據清洗概述 42
4.1.2 Excel數據清洗 53
4.2 Kettle簡介及基本操作 57
4.2.1 Kettle軟件概述 57
4.2.2 Kettle基本操作 60
4.2.3 Kettle數據清洗實例操作 64
4.3 OpenRefine簡介及基本操作 68
4.3.1 OpenRefine軟件概述 69
4.3.2 OpenRefine基本操作 70
4.3.3 OpenRefine數據清洗實例操作 73
4.4 DataWrangler簡介及基本操作 80
4.4.1 DataWrangler軟件概述 80
4.4.2 DataWrangler基本操作 81
4.4.3 DataWrangler數據清洗實例操作 82
4.5 Hawk簡介及基本操作 86
4.5.1 Hawk軟件概述 86
4.5.2 Hawk基本操作 88
4.5.3 Hawk數據清洗實例操作 91
4.6 上機練習與實訓 98
4.7 習題 103
第5章 數據抽取 104
5.1 文本文件抽取 104
5.1.1 制表符文本抽取 107
5.1.2 CSV文件抽取 111
5.2 Web數據抽取 114
5.2.1 HTML文件抽取 114
5.2.2 JSON數據抽取 116
5.2.3 XML數據抽取 120
5.3 數據庫數據抽取 123
5.3.1 數據導入導出 123
5.3.2 ETL工具抽取 124
5.3.3 SQL到NoSQL抽取 127
5.4 上機練習與實訓 135
5.5 習題 143
第6章 數據轉換與加載 144
6.1 數據清洗轉換 144
6.1.1 數據清洗 145
6.1.2 數據檢驗 151
6.1.3 錯誤處理 156
6.2 數據質量評估 161
6.2.1 數據評估指標 161
6.2.2 審計數據 163
6.3 數據加載 164
6.3.1 數據加載的概念 164
6.3.2 數據加載的方式 164
6.3.3 批量數據加載 165
6.3.4 數據加載異常處理 165
6.4 上機練習與實訓 166
6.5 習題 173
第7章 采集Web數據實例 175
7.1 網頁結構 175
7.1.1 DOM模型 175
7.1.2 正則表達式 178
7.2 網絡爬蟲 181
7.2.1 網絡爬蟲簡介 181
7.2.2 網絡爬蟲異常處理 189
7.3 行為日志采集 190
7.3.1 用戶實時行為數據采集 190
7.3.2 用戶實時行為數據分析 193
7.4 上機練習與實訓 195
7.5 習題 198
第8章 清洗RDBMS數據實例 199
8.1 準備工作 199
8.1.1 準備待清洗的數據集 200
8.1.2 搭建操作環境 200
8.1.3 數據導入MySQL 201
8.2 數據庫數據清洗 205
8.2.1 缺失值清洗 205
8.2.2 格式內容清洗 209
8.2.3 邏輯錯誤清洗 214
8.2.4 非需求數據清洗 217
8.3 數據脫敏處理 218
8.4 習題 222
參考文獻 223
附錄A 大數據和人工智能實驗環境 224
附錄B Hadoop環境要求 234
附錄C 名詞解釋 236

作者介紹


李法平- 副教授/繫統分析師,碩士,重慶電子工程職業學院軟件學院移動應用開發教研室主任,主要從事高職軟件類專業教學研究、教育信息化繫統和企業信息化繫統等應用技術研究。

序言





"
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部