[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • Python數據預處理技術與實踐
    該商品所屬分類:計算機/網絡 -> 程序設計
    【市場價】
    761-1104
    【優惠價】
    476-690
    【作者】 白寧超、唐聃、文俊 
    【所屬類別】 圖書  計算機/網絡  程序設計  Python 
    【出版社】清華大學出版社 
    【ISBN】9787302539711
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302539711
    作者:白寧超、唐聃、文俊

    出版社:清華大學出版社
    出版時間:2019年12月 

        
        
    "

    產品特色

    width="750"

    編輯推薦

    本書結合作者的項目經驗,從實際工程需求出發,循序漸進地介紹了大數據預處理相關技術、流行工具與應用案例,全書分為三部分,核心內容概要如下:
    *部分 數據預處理的基礎知識。包括數據預處理的基本概念、工作流程、應用場景、開發環境、入門演練和Python科學計算工具包Numpy、SciPy、Pandas的實際應用等。
    第二部分 數據預處理的實戰進階。內容包括:
    數據采集與存儲,主要涉及數據結構類型和采集方式,著重介紹了爬蟲技術以及不同格式的文本信息抽取和文件讀取。
    高效讀取文件、正則清洗文本信息、網頁數據清洗和文本批量清洗。
    中文分詞精講、封裝分詞工具包、NLTK詞頻處理、命名實體抽取和批量分詞處理。
    特征向量化處理,涉及數據解析、缺失值處理、歸一化處理、特征詞文本向量化、詞頻-逆詞頻、詞集模型、詞袋模型和批量文本特征向量化。
    基於Gensim的文本特征向量化,涉及構建語料詞典、詞頻統計、詞頻-逆詞頻計算、主題模型和特征降維等。
    主成分分析PCA降維技術的原理和實際案例。
    Matplotlib數據可視化分析案例。


    第三部分 數據預處理的實際應用。主要介紹競賽神器XGBoost的算法原理、應用、優化調參以及數據預處理在文本分類中的實際應用。

     
    內容簡介

    本書基礎理論和工程應用相結合,循序漸進地介紹了數據預處理的基本概念、基礎知識、工具應用和相關案例,包括網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識,書中針對每個知識點,都給出了豐富的教學實例和實現代碼,*後,通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的應用。 本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具應用,示例代碼很豐富,適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。

    作者簡介

    白寧超,大數據工程師,現任職於四川省計算機研究院,研究方向包括數據分析、自然語言處理和深度學習。主持和參與國家自然基金項目和四川省科技支撐計劃項目多項,出版專著1部。
    唐聃,教授,碩士生導師,成都信息工程大學軟件工程學院院長,四川省學術和技術帶頭人後備人選。研究方向包括編碼理論與人工智能,《自然語言處理理論與實戰》一書作者。
    文俊,碩士,大數據算法工程師,現任職於成都廣播電視臺橙視傳媒大數據中心。曾以技術總監身份主持研發多個商業項目,負責公司核心算法模型構建。主要研究方向包括數據挖掘、自然語言處理、深度學習及雲計算。

    目錄
    目 錄
    第1章 概述 1
    1.1 Python數據預處理 1
    1.1.1 什麼是數據預處理 1
    1.1.2 為什麼要做數據預處理 2
    1.1.3 數據預處理的工作流程 2
    1.1.4 數據預處理的應用場景 3
    1.2 開發工具與環境 3
    1.2.1 Anaconda介紹與安裝 3
    1.2.2 Sublime Text 7
    1.3 實戰案例:個中文分詞程序 12
    1.3.1 中文分詞 12
    1.3.2 實例介紹 14
    1.3.3 結巴實現中文分詞 14

    目    錄
    第1章  概述 1
    1.1  Python數據預處理 1
    1.1.1  什麼是數據預處理 1
    1.1.2  為什麼要做數據預處理 2
    1.1.3  數據預處理的工作流程 2
    1.1.4  數據預處理的應用場景 3
    1.2  開發工具與環境 3
    1.2.1  Anaconda介紹與安裝 3
    1.2.2  Sublime Text 7
    1.3  實戰案例:個中文分詞程序 12
    1.3.1  中文分詞 12
    1.3.2  實例介紹 14
    1.3.3  結巴實現中文分詞 14
    1.4  本章小結 15
    第2章  Python科學計算工具 16
    2.1  NumPy 16
    2.1.1  NumPy的安裝和特點 16
    2.1.2  NumPy數組 18
    2.1.3  Numpy的數學函數 20
    2.1.4  NumPy線性代數運算 22
    2.1.5  NumPy IO操作 22
    2.2  SciPy 23
    2.2.1  SciPy的安裝和特點 23
    2.2.2  SciPy Linalg 25
    2.2.3  SciPy文件操作 27
    2.2.4  SciPy 插值 28
    2.2.5  SciPy Ndimage 30
    2.2.6  SciPy優化算法 33
    2.3  Pandas 35
    2.3.1  Pandas的安裝和特點 36
    2.3.2  Pandas的數據結構 36
    2.3.3  Pandas的數據統計 39
    2.3.4  Pandas處理丟失值 41
    2.3.5  Pandas處理稀疏數據 45
    2.3.6  Pandas的文件操作 46
    2.3.7  Pandas 可視化 48
    2.4  本章小結 54
    第3章  數據采集與存儲 55
    3.1  數據與數據采集 55
    3.2  數據類型與采集方法 56
    3.2.1  結構化數據 56
    3.2.2  半結構化數據 56
    3.2.3  非結構化數據 57
    3.3  網絡爬蟲技術 57
    3.3.1  前置條件 58
    3.3.2  Scrapy 技術原理 58
    3.3.3  Scrapy新建爬蟲項目 59
    3.3.4  爬取網站內容 61
    3.4  爬取數據以JSON格式進行存儲 69
    3.5  爬取數據的MySQL存儲 71
    3.5.1  MySQL與Navicat部署 71
    3.5.2  MySQL存儲爬蟲數據 72
    3.6  網絡爬蟲技術擴展 75
    3.7  本章小結 76
    第4章  文本信息抽取 77
    4.1  文本抽取概述 77
    4.2  文本抽取問題 78
    4.3  Pywin32抽取文本信息 79
    4.3.1  Pywin32介紹 79
    4.3.2  抽取Word文檔文本信息 80
    4.3.3  抽取PDF文檔文本信息 83
    4.3.4  打造靈活的文本抽取工具 84
    4.4  文本批量編碼 86
    4.5  實戰案例:遍歷文件批量抽取新聞文本內容 86
    4.5.1  遞歸讀取文件 87
    4.5.2  遍歷抽取新聞文本 88
    4.6  本章小結 91
    第5章  文本數據清洗 92
    5.1  新聞語料的準備 92
    5.2  高效讀取文件 93
    5.2.1  遞歸遍歷讀取新聞 94
    5.2.2  yield生成器 95
    5.2.3  高效遍歷讀取新聞 97
    5.3  通過正則表達式來清洗文本數據 98
    5.3.1  正則表達式 98
    5.3.2  清洗文本數據 100
    5.4  清洗HTML網頁數據 102
    5.5  簡繁字體轉換 104
    5.6  實戰案例:批量新聞文本數據清洗 106
    5.6.1  高效讀取文件內容 106
    5.6.2  抽樣處理文件 107
    5.6.3  通過正則表達式批量清洗文件 108
    5.7  本章小結 109
    第6章  中文分詞技術 110
    6.1  中文分詞簡介 110
    6.1.1  中文分詞概述 110
    6.1.2  常見中文分詞方法 111
    6.2  結巴分詞精講 112
    6.2.1  結巴分詞的特點 112
    6.2.2  結巴分詞的安裝 112
    6.2.3  結巴分詞核心方法 112
    6.2.4  結巴中文分詞的基本操作 113
    6.2.5  自定義分詞詞典 114
    6.2.6  關鍵詞提取 115
    6.2.7  詞性標注 116
    6.3  HanLP分詞精講 117
    6.3.1  JPype1的安裝 117
    6.3.2  調用HanLP的Java包 117
    6.3.3  HanLP分詞 118
    6.3.4  HanLP實現自定義分詞 120
    6.3.5  命名實體識別與詞性標注 120
    6.3.6  HanLP實現關鍵詞抽取 121
    6.3.7  HanLP實現自動摘要 121
    6.4  自定義去除停用詞 122
    6.4.1  以正則表達式對文本信息進行清洗 122
    6.4.2  結巴中文分詞詞性解讀 124
    6.4.3  根據詞性規則構建自定義停用詞 126
    6.5  詞頻統計 126
    6.5.1  NLTK介紹與安裝 126
    6.5.2  統計新聞文本詞頻 128
    6.5.3  統計特定詞頻和次數 129
    6.5.4  特征詞的頻率分布表 129
    6.5.5  頻率分布圖與頻率累計分布圖 130
    6.5.6  基於Counter的詞頻統計 131
    6.6  自定義去高低詞頻 132
    6.7  自定義規則提取特征詞 133
    6.8  實戰案例:新聞文本分詞處理 134
    6.9  本章小結 135
    第7章  文本特征向量化 136
    7.1  解析數據文件 136
    7.2  處理缺失值 138
    7.2.1  什麼是數據缺失值 138
    7.2.2  均值法處理數據缺失值 139
    7.2.3  Pandas 處理缺失值 141
    7.3  數據的歸一化處理 143
    7.3.1  不均衡數據分析 143
    7.3.2  歸一化的原理 144
    7.3.3  歸一化的優點 145
    7.4  特征詞轉文本向量 146
    7.5  詞頻-逆詞頻(TF-IDF) 147
    7.6  詞集模型與詞袋模型 148
    7.7  實戰案例:新聞文本特征向量化 153
    7.8  本章小結 154
    第8章  Gensim文本向量化 155
    8.1  Gensim的特性和核心概念 155
    8.2  Gensim構建語料詞典 156
    8.3  Gensim統計詞頻特征 158
    8.4  Gensim計算TF-IDF 158
    8.5  Gensim實現主題模型 160
    8.5.1  主題模型 160
    8.5.2  潛在語義分析(LSA) 161
    8.5.3  隱含狄利克雷分布(LDA) 164
    8.5.4  LDA的模型實現 166
    8.5.5  隨機映射(RP) 167
    8.6  實戰案例:Gensim實現新聞文本特征向量化 169
    8.6.1  參數設置 169
    8.6.2  生成詞典模型 170
    8.6.3  生成TF-IDF模型 172
    8.7  本章小結 173
    第9章  PCA降維技術 174
    9.1  什麼是降維 174
    9.2  PCA概述 175
    9.3  PCA應用場景 177
    9.4  PCA的算法實現 178
    9.4.1  準備數據 178
    9.4.2  PCA數據降維 179
    9.4.3  高維向低維數據映射 181
    9.5  實戰案例:PCA技術實現新聞文本特征降維 182
    9.5.1  加載新聞數據 182
    9.5.2  前N個主成分特征 184
    9.5.3  PCA新聞特征降維可視化 186
    9.6  本章小結 187
    第10章  數據可視化 188
    10.1  Matplotlib概述 188
    10.1.1  認識 Matplotlib 188
    10.1.2  Matplotlib的架構 190
    10.2  Matplotlib繪制折線圖 193
    10.2.1  折線圖的應用場景 193
    10.2.2  折線圖的繪制示例 193
    10.3  Matplotlib繪制散點圖 195
    10.3.1  散點圖的應用場景 195
    10.3.2  散點圖的繪制示例 195
    10.4  Matplotlib繪制直方圖 197
    10.4.1  直方圖的應用場景 197
    10.4.2  直方圖的繪制示例 197
    10.5  練習:Matplotlib繪制氣溫圖 198
    10.6  練習:Matplotlib繪制三維圖 200
    10.6.1  練習1:繪制三維梯度下降圖 200
    10.6.2  練習2:繪制三維散點圖 201
    10.7  本章小結 203
    第11章  競賽神器XGBoost 204
    11.1  XGBoost概述 204
    11.1.1  認識XGBoost 204
    11.1.2  XGBoost的應用場景 205
    11.2  XGBoost的優點 206
    11.3  使用XGBoost預測毒蘑菇 206
    11.3.1  XGBoost的開發環境及安裝 206
    11.3.2  數據準備 207
    11.3.3  參數設置 207
    11.3.4  模型訓練 208
    11.3.5  可視化特征排名 210
    11.4  XGBoost優化調參 210
    11.4.1  參數解讀 211
    11.4.2  調參原則 214
    11.4.3  調參技巧 215
    11.5  預測糖尿病患者 215
    11.5.1  數據準備 215
    11.5.2  預測器模型構建 216
    11.5.3  調參提高預測器的性能 220
    11.6  本章小結 228
    第12章  XGBoost實現新聞文本分類 229
    12.1  文本分類概述 229
    12.2  文本分類的原理 230
    12.2.1  文本分類的數學描述 230
    12.2.2  文本分類的形式化描述 231
    12.3  分類模型評估 231
    12.4  數據預處理 233
    12.4.1  通用的類庫 234
    12.4.2  階段1:生成詞典 236
    12.4.3  階段2:詞典向量化TF-IDF 238
    12.4.4  階段3:生成主題模型 240
    12.5  XGBoost分類器 243
    12.6  新聞文本分類應用 248
    12.7  本章小結 251
    參考文獻 252


     

    前言
    前 言
    當前,大數據與人工智能技術炙手可熱,其對應的工作崗位也逐年增加,薪資也較為誘人。我們在做大數據與人工智能處理時,不可避免地會遇到數據的問題。現實中的數據是不完整的,比如存在缺失值、干擾值等髒數據,這樣就沒有辦法直接挖掘數據的價值,也不能將其直接應用於人工智能設備。為了提高數據的質量產生了數據預處理技術。數據預處理主要是指對原始數據進行文本抽取、數據清理、數據集成、數據變換、數據降維等處理,其目的是提高數據質量,以更好地提升算法模型的性能,其在數據挖掘、自然語言處理、機器學習、深度學習算法中應用廣泛。數據預處理是一項很龐雜的工程,當你面對一堆數據手足無措的時候,當你面對數據預處理背後的坑一籌莫展的時候,當你的算法性能遲遲不能提升的時候,本書可以幫助你解決以上問題。本書從什麼是數據預處理及其相關基礎知識入手,分別介紹了網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等技術,並結合實際項目和案例幫助讀者將所學知識快速應用於工程實踐,相信會對數據預處理感興趣的讀者和大數據從業者有所幫助。
    本書的主要內容
    本書從邏輯上可分為三部分,共12章內容,各部分說明如下:

    前    言
    當前,大數據與人工智能技術炙手可熱,其對應的工作崗位也逐年增加,薪資也較為誘人。我們在做大數據與人工智能處理時,不可避免地會遇到數據的問題。現實中的數據是不完整的,比如存在缺失值、干擾值等髒數據,這樣就沒有辦法直接挖掘數據的價值,也不能將其直接應用於人工智能設備。為了提高數據的質量產生了數據預處理技術。數據預處理主要是指對原始數據進行文本抽取、數據清理、數據集成、數據變換、數據降維等處理,其目的是提高數據質量,以更好地提升算法模型的性能,其在數據挖掘、自然語言處理、機器學習、深度學習算法中應用廣泛。數據預處理是一項很龐雜的工程,當你面對一堆數據手足無措的時候,當你面對數據預處理背後的坑一籌莫展的時候,當你的算法性能遲遲不能提升的時候,本書可以幫助你解決以上問題。本書從什麼是數據預處理及其相關基礎知識入手,分別介紹了網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等技術,並結合實際項目和案例幫助讀者將所學知識快速應用於工程實踐,相信會對數據預處理感興趣的讀者和大數據從業者有所幫助。
    本書的主要內容
    本書從邏輯上可分為三部分,共12章內容,各部分說明如下:
    部分(第1~3章),主要介紹數據預處理的基礎知識,包括數據預處理的基本概念、工作流程、應用場景、開發環境、入門演練和Python科學計算工具包Numpy、SciPy、Pandas及其實際應用。如果讀者已具備一定的數據預處理基礎,可以跳過此部分,從第三章開始學習。
    第二部分(第3~10章),是數據預處理的實戰進階部分,共計8章。第3章介紹數據采集與存儲,主要涉及數據類型和采集方式,其中著重介紹了爬蟲技術;第4章介紹不同格式的文本信息抽取和文件讀取;第5章介紹了高效讀取文件、正則清洗文本信息、網頁數據清洗和文本批量清洗工作;第6章介紹了中文分詞、封裝分詞工具包、NLTK詞頻處理、命名實體抽取和批量分詞處理工作;第7章介紹了特征向量化處理,其中涉及數據解析、缺失值處理、歸一化處理、特征詞文本向量化、詞頻-逆詞頻、詞集模型、詞袋模型和批量文本特征向量化工作;第8章介紹基於Gensim文本特征向量化,涉及構建語料詞典、詞頻統計、詞頻-逆詞頻計算、主題模型和特


    征降維等。第9章介紹了主成分分析PCA降維技術的原理和實際案例;第10章介紹了Matplotlib數據可視化及案例。
    第三部分(包括第11章和第12章),是數據預處理的實際應用部分,主要介紹競賽神器XGBoost的算法原理、應用、優化調參以及數據預處理在文本分類中的實際應用。
    本書的主要特色
    本書主要包括以下特色:
    ? 本書理論與應用相結合,循序漸進地介紹了數據預處理的相關概念、基礎知識、常用工具及應用案例,書中實戰案例均來自於筆者的實際項目,具有較強的實用性。 
    ? 本書涵蓋了數據預處理實際開發中絕大部分重要的知識點,介紹了當今數據預處理涉及的各種技術和熱門工具,技術先進,內容詳盡,代碼可讀性及可操作性強。 
    ? 本書針對每一個知識點,盡可能地通過示例來講解,每一個示例都給出了源碼和說明,這些源碼本身具備復用的價值,可以直接用於工程項目。另外,筆者還在GitHub上開闢了專門的討論區,便於讀者進行技術交流。
    本書面向的讀者
    本書主要面向以下讀者:
    ? 大數據技術從業者
    ? AI技術開發人員
    ? 準備上手數據采集、數據挖掘與數據分析的初學者
    ? 大數據及相關專業的學生
    ? 培訓機構的學員
    源碼下載和說明
    本書的源碼支持GitHub下載,下載地址:
    https://github.com/bainingchao/PyDataPreprocessing
    關於源碼的說明:
    ? PyDataPreprocessing:本書源代碼的根目標。
    ? Chapter 數字:分別代表對應章節的源碼。
    ? Corpus:本書所有的訓練語料。
    ? Files:所有文件文檔。
    ? Packages:本書所需要下載的工具包。
    本書作者介紹
    本書主要由白寧超、唐聃、文俊編寫,參與編寫的還有田霖、黃河、於小明。
    ? 白寧超 大數據工程師,現任職於四川省計算機研究院,研究方向包括數據分析、自然語言處理和深度學習。近3年,主持和參與國家自然基金項目和四川省科技支撐計劃項目多項,出版專著一部。
    ? 唐  聃 教授,碩士生導師,成都信息工程大學軟件工程學院院長,四川省學術和技術帶頭人後備人選。研究方向包括編碼理論與人工智能,《自然語言處理理論與實戰》作者。
    ? 文  俊 碩士,大數據算法工程師,現任職於成都廣播電視臺橙視傳媒大數據中心。曾以技術總監身份主持研發多個商業項目,負責公司核心算法模型構建。主要研究方向包括數據挖掘、自然語言處理、深度學習以及雲計算。
    ? 田  霖 成都東軟學院計算機科學與工程繫教師,研究方向包括數據挖掘和強化學習,曾參與四川省智慧環保、四川省涉稅信息等多個省級項目。
    ? 黃  河 博士,重慶大學語言認知及語言應用研究基地研究員,研究方向為計算語言學、語料庫處理技術、深度學習和數據挖掘。
    ? 於小明 講師,主治醫生,現任職於河南省中醫院(河南中醫藥大學第二附屬醫院),主要從事醫療領域大數據分析,臨床泌尿外科小領域本體構建等方面的研究工作。
    在本書編寫過程中,參考了很多相關資料,在此對他們的貢獻表示感謝,雖筆者已盡心竭力,但限於水平和時間倉促,書中難免存在錯漏,歡迎讀者批評指正。
    聯繫郵箱:booksaga@163.com


     


     



    作者
    2019年5月

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部