[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 數據清洗
    該商品所屬分類:計算機/網絡 -> 數據庫
    【市場價】
    640-928
    【優惠價】
    400-580
    【作者】 劉鵬 
    【所屬類別】 圖書  教材  研究生/本科/專科教材  工學圖書  計算機/網絡  數據庫  數據庫理論 
    【出版社】清華大學出版社 
    【ISBN】9787302493273
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302493273
    叢書名:大數據應用人纔培養繫列教材

    作者:劉鵬
    出版社:清華大學出版社
    出版時間:2018年06月 


        
        
    "

    產品特色
    編輯推薦
    數據清洗是大數據技術不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,把“髒”的數據變為“干淨”的數據。本書詳細講解了ETL技術方法和常用工具、常用的數據清洗工具、數據抽取、數據轉換與加載、對Web數據的采集、對RDBMS數據的清洗操作。目前市面上此類書還很少,對數據清洗從業人員是一本不可多得的技術參考書,也可以作為應用型院校的課程教材。  
    內容簡介
    數據清洗是大數據領域不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,使“髒”數據變為“干淨”數據。
    本書共分為8章:第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等;第2章主要介紹Windows和類UNIX操作繫統下的數據常規格式、數據編碼及數據類型轉換等;第3章介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子繫統等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等;第6章介紹數據清洗步驟、數據檢驗、數據錯誤處理、數據質量評估及數據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數據采集,利用JavaScript技術進行行為日志數據采集等;第8章介紹RDBMS的數據清洗方法和數據脫敏處理技術等。
    本書繫統地講解了數據清洗理論和實際應用,適用於高職高專院校和應用型本科的大數據課程教學,也適用於希望了解數據清洗的廣大讀者。
    作者簡介
    李法平- 副教授/繫統分析師,碩士,重慶電子工程職業學院軟件學院移動應用開發教研室主任,主要從事高職軟件類專業教學研究、教育信息化繫統和企業信息化繫統等應用技術研究。
    目錄
    第1章 數據清洗概述 1
    1.1 數據清洗簡介 1
    1.1.1 數據科學過程 1
    1.1.2 數據清洗定義 2
    1.1.3 數據清洗任務 3
    1.1.4 數據清洗流程 4
    1.1.5 數據清洗環境 5
    1.1.6 數據清洗實例說明 6
    1.2 數據標準化 7
    1.2.1 數據標準化概念 7
    1.2.2 數據標準化常用方法 8
    1.3 數據倉庫簡介 9
    1.3.1 數據倉庫定義 9
    1.3.2 數據倉庫組成要素 10

    第1章  數據清洗概述 1


    1.1  數據清洗簡介 1


    1.1.1 
    數據科學過程 1


    1.1.2 
    數據清洗定義 2


    1.1.3 
    數據清洗任務 3


    1.1.4 
    數據清洗流程 4


    1.1.5 
    數據清洗環境 5


    1.1.6 
    數據清洗實例說明 6


    1.2  數據標準化 7


    1.2.1 
    數據標準化概念 7


    1.2.2 
    數據標準化常用方法 8


    1.3  數據倉庫簡介 9


    1.3.1 
    數據倉庫定義 9


    1.3.2 
    數據倉庫組成要素 10


    1.3.3 
    數據倉庫分類 11


    1.3.4 
    數據倉庫相關技術 12


    1.3.5 
    常用工具簡介 13


    1.4  習題 14


    第2章  數據格式與編碼 16


    2.1  文件文本格式 16


    2.1.1 
    常見文本格式 17


    2.1.2 
    xls及xlsx文件格式 18


    2.1.3 
    JSON文本格式 19


    2.1.4 
    HTML和XML文本格式 19


    2.2  數據編碼 20


    2.2.1 
    數據類型 21


    2.2.2 
    數據類型間轉換 25


    2.2.3字符編碼 26


    2.2.4 
    空值和亂碼 28


    2.3  數據轉換 28


    2.3.1 
    電子表格轉換 29


    2.3.2 
    RDBMS數據轉換 30


    2.4  習題 30


    第3章  基本技術方法 31


    3.1 
    ETL入門 31


    3.1.1 
    ETL解決方案 31


    3.1.2 
    ETL基本構成 33


    3.1.3 
    ETL技術選型 35


    3.2  技術路線 35


    3.2.1 
    文本清洗路線 35


    3.2.2 
    RDBMS清洗路線 36


    3.2.3 
    Web內容清洗路線 36


    3.3 
    ETL工具 37


    3.3.1 
    ETL功能 37


    3.3.2 
    開源ETL工具 38


    3.4 
    ETL子繫統 39


    3.4.1 
    抽取 39


    3.4.2 
    清洗和更正數據 39


    3.4.3 
    數據發布 40


    3.4.4 
    管理ETL 41


    3.5  習題 41


    第4章  數據清洗常用工具及基本操作
    42


    4.1 
    Microsoft Excel數據清洗基本操作 42


    4.1.1 
    Excel數據清洗概述 42


    4.1.2 
    Excel數據清洗 53


    4.2 
    Kettle簡介及基本操作 57


    4.2.1 
    Kettle軟件概述 57


    4.2.2 
    Kettle基本操作 60


    4.2.3 
    Kettle數據清洗實例操作 64


    4.3 
    OpenRefine簡介及基本操作 68


    4.3.1 
    OpenRefine軟件概述 69


    4.3.2 
    OpenRefine基本操作 70


    4.3.3 
    OpenRefine數據清洗實例操作 73


    4.4 
    DataWrangler簡介及基本操作 80


    4.4.1 
    DataWrangler軟件概述 80


    4.4.2 
    DataWrangler基本操作 81


    4.4.3 
    DataWrangler數據清洗實例操作 82


    4.5 
    Hawk簡介及基本操作 86


    4.5.1 
    Hawk軟件概述 86


    4.5.2 
    Hawk基本操作 88


    4.5.3 
    Hawk數據清洗實例操作 91


    4.6  上機練習與實訓 98


    4.7  習題 103


    第5章  數據抽取 104


    5.1  文本文件抽取 104


    5.1.1 
    制表符文本抽取 107


    5.1.2 
    CSV文件抽取 111


    5.2 
    Web數據抽取 114


    5.2.1 
    HTML文件抽取 114


    5.2.2 
    JSON數據抽取 116


    5.2.3 
    XML數據抽取 120


    5.3  數據庫數據抽取 123


    5.3.1 
    數據導入導出 123


    5.3.2 
    ETL工具抽取 124


    5.3.3 
    SQL到NoSQL抽取 127


    5.4  上機練習與實訓 135


    5.5  習題 143


    第6章  數據轉換與加載 144


    6.1  數據清洗轉換 144


    6.1.1 
    數據清洗 145


    6.1.2 
    數據檢驗 151


    6.1.3 
    錯誤處理 156


    6.2  數據質量評估 161


    6.2.1 
    數據評估指標 161


    6.2.2 
    審計數據 163


    6.3  數據加載 164


    6.3.1 
    數據加載的概念 164


    6.3.2 
    數據加載的方式 164


    6.3.3 
    批量數據加載 165


    6.3.4 
    數據加載異常處理 165


    6.4  上機練習與實訓 166


    6.5  習題 173


    第7章  采集Web數據實例 175


    7.1  網頁結構 175


    7.1.1 
    DOM模型 175


    7.1.2 
    正則表達式 178


    7.2  網絡爬蟲 181


    7.2.1 
    網絡爬蟲簡介 181


    7.2.2 
    網絡爬蟲異常處理 189


    7.3  行為日志采集 190


    7.3.1 
    用戶實時行為數據采集 190


    7.3.2 
    用戶實時行為數據分析 193


    7.4  上機練習與實訓 195


    7.5  習題 198


    第8章  清洗RDBMS數據實例 199


    8.1  準備工作 199


    8.1.1 
    準備待清洗的數據集 200


    8.1.2 
    搭建操作環境 200


    8.1.3 
    數據導入MySQL 201


    8.2  數據庫數據清洗 205


    8.2.1 
    缺失值清洗 205


    8.2.2 
    格式內容清洗 209


    8.2.3 
    邏輯錯誤清洗 214


    8.2.4 
    非需求數據清洗 217


    8.3  數據脫敏處理 218


    8.4  習題 222


    參考文獻 223


    附錄A  大數據和人工智能實驗環境
    224


    附錄B  Hadoop環境要求 234


    附錄C  名詞解釋 236

    前言
    前 言 隨著信息技術的發展和科技的進步,人類步入了大數據時代。作為當前高科技時代的產物,大數據由大量結構化、半結構化和非結構化數據組成,它需要經過采集、清洗、存儲、分析、建模、可視化等過程加工處理之後,纔能真正產生價值。數據清洗是大數據技術不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,把“髒”的數據變為“干淨”的數據。本書共分8章,下面分別對每章內容進行簡單介紹。第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等知識點。通過本章的學習,讀者能夠初步認識數據清洗、數據標準化及數據倉庫。第2章為數據格式及編碼,主要介紹Windows和類UNIX操作繫統下的數據常規格式,如文本格式、xls及xlsx格式、JSON、XML、HTML等,並針對數據的類型、數據編碼及字符集進行了闡述,後介紹格式間的相互轉換,包括電子表格轉換、數據庫數據轉換等。通過本章的學習,了解當前主流的數據格式、數據編碼及格式間相互轉換等知識。第3章為數據清洗基本技術方法。本章從ETL技術出發,介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子繫統等知識。通過本章的學習,進一步了解數據清洗的概念、技術路線及主要功能。第4章為數據清洗常用工具及基本操作。介紹了Microsoft Excel數據清洗操作步驟、Kettle安裝使用及操作步驟、OpenRefine的安裝使用及操作步驟、DataWrangler的安裝使用及操作步驟、Hawk網頁數據采集的方法及操作實例。通過本章的學習,掌握當前市面主流的數據清洗工具的使用,為後面進行數據清洗做必要的準備工作。第5章為數據抽取。本章以Kettle開源工具為載體,介紹文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等知識。通過本章的學習,能夠掌握借助Kettle實現文本文件抽取、網頁文本抽取、數據庫數據的導入導出、關繫數據庫到NoSQL的抽取轉換及增量抽取等。第6章為數據轉換與加載。本章詳細介紹數據清洗步驟、數據檢驗、錯誤處理、數據質量評估及數據裝載等知識。通過本章的學習,掌握數據清洗具體方法和數據轉換過程中的數據檢驗、錯誤處理等,以及數據加載和批量加載技術。第7章為采集Web數據實例,介紹了網頁結構、網絡爬蟲、行為日志數據采集等知識。通過本章的學習,了解網絡爬蟲技術采集Web數據的方法以及行為日志分析方法。第8章為清洗RDBMS數據實例,介紹了RDBMS的數據清洗方法和數據脫敏處理技術,使讀者進一步掌握關繫型數據庫清洗方法和敏感數據脫敏處理技巧。本書的編寫和整理工作由數據清洗教材編寫組和南京雲創大數據科技股份有限公司完成,主要參與人員有王海濤、於澄、嶽宗輝、徐佩鋒、秦毅、葛斌、文華、朱堂勛、陳瀟瀟、付雯等。全體成員在近一年的編寫過程中付出了辛勤的汗水,在此由衷感謝。本書的問世也要感謝清華大學出版社王莉編輯給予的寶貴意見和支持。盡管我們付出了的努力,但教材中難免存在不妥之處,歡迎各界專家和讀者朋友提出寶貴意見,我們將不勝感謝。您在閱讀本書時,如發現任何問題或不認同之處,可以通過電子郵件與我們聯繫。前  言      隨著信息技術的發展和科技的進步,人類步入了大數據時代。作為當前高科技時代的產物,大數據由大量結構化、半結構化和非結構化數據組成,它需要經過采集、清洗、存儲、分析、建模、可視化等過程加工處理之後,纔能真正產生價值。數據清洗是大數據技術不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,把“髒”的數據變為“干淨”的數據。本書共分8章,下面分別對每章內容進行簡單介紹。第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等知識點。通過本章的學習,讀者能夠初步認識數據清洗、數據標準化及數據倉庫。第2章為數據格式及編碼,主要介紹Windows和類UNIX操作繫統下的數據常規格式,如文本格式、xls及xlsx格式、JSON、XML、HTML等,並針對數據的類型、數據編碼及字符集進行了闡述,後介紹格式間的相互轉換,包括電子表格轉換、數據庫數據轉換等。通過本章的學習,了解當前主流的數據格式、數據編碼及格式間相互轉換等知識。第3章為數據清洗基本技術方法。本章從ETL技術出發,介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子繫統等知識。通過本章的學習,進一步了解數據清洗的概念、技術路線及主要功能。第4章為數據清洗常用工具及基本操作。介紹了Microsoft Excel數據清洗操作步驟、Kettle安裝使用及操作步驟、OpenRefine的安裝使用及操作步驟、DataWrangler的安裝使用及操作步驟、Hawk網頁數據采集的方法及操作實例。通過本章的學習,掌握當前市面主流的數據清洗工具的使用,為後面進行數據清洗做必要的準備工作。第5章為數據抽取。本章以Kettle開源工具為載體,介紹文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等知識。通過本章的學習,能夠掌握借助Kettle實現文本文件抽取、網頁文本抽取、數據庫數據的導入導出、關繫數據庫到NoSQL的抽取轉換及增量抽取等。第6章為數據轉換與加載。本章詳細介紹數據清洗步驟、數據檢驗、錯誤處理、數據質量評估及數據裝載等知識。通過本章的學習,掌握數據清洗具體方法和數據轉換過程中的數據檢驗、錯誤處理等,以及數據加載和批量加載技術。第7章為采集Web數據實例,介紹了網頁結構、網絡爬蟲、行為日志數據采集等知識。通過本章的學習,了解網絡爬蟲技術采集Web數據的方法以及行為日志分析方法。第8章為清洗RDBMS數據實例,介紹了RDBMS的數據清洗方法和數據脫敏處理技術,使讀者進一步掌握關繫型數據庫清洗方法和敏感數據脫敏處理技巧。本書的編寫和整理工作由數據清洗教材編寫組和南京雲創大數據科技股份有限公司完成,主要參與人員有王海濤、於澄、嶽宗輝、徐佩鋒、秦毅、葛斌、文華、朱堂勛、陳瀟瀟、付雯等。全體成員在近一年的編寫過程中付出了辛勤的汗水,在此由衷感謝。本書的問世也要感謝清華大學出版社王莉編輯給予的寶貴意見和支持。盡管我們付出了的努力,但教材中難免存在不妥之處,歡迎各界專家和讀者朋友提出寶貴意見,我們將不勝感謝。您在閱讀本書時,如發現任何問題或不認同之處,可以通過電子郵件與我們聯繫。
     李法平   2017年12月
    書摘插畫
    插圖
    插圖

    插圖

    插圖

    插圖

    插圖

    插圖










     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部