[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 機器學習實踐:數據科學應用與工作流的開發及優化
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    489-710
    【優惠價】
    306-444
    【作者】 美安德魯·凱萊赫(Andrew 
    【所屬類別】 圖書  計算機/網絡  人工智能  機器學習 
    【出版社】機械工業出版社 
    【ISBN】9787111651369
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787111651369
    作者:[美]安德魯·凱萊赫(Andrew

    出版社:機械工業出版社
    出版時間:2020年04月 
    原版書名:Machine


        
        
    "

    編輯推薦

    讀者對像:


    因本書著眼於利用數據科學解決實際問題,所以無論你是初學者還是經驗豐富的工程師,都能受益良多。



    這本實用書籍同時介紹了機器學習和數據科學,填補了數據科學家和工程師之間的空白,並幫助將這些技術應用於生產。它致力於確保你做的努力能夠真正解決你的問題,並覆蓋了真實世界生產環境設置中的性能優化問題。


    本書共分三部分,19章。*部分(第1~6章)介紹框架原則,涵蓋數據科學領域的背景知識,項目工作流程及其與敏捷開發原則的關繫,誤差測量的概念和量化,數據編碼與預處理,統計假設檢驗,數據可視化和探索性數據分析。第二部分(第7~14章)描述算法和架構,包括算法和架構的概述,相似性度量方法,有監督的機器學習,離散的有監督模型和無監督機器學習的基礎知識,貝葉斯網絡和貝葉斯模型,因果推斷,以及高級機器學習技術。第三部分(第15~19章)講解瓶頸和優化,涵蓋硬件方面的基本瓶頸,軟件設計的基礎知識,分布式繫統中的體繫結構模式,CAP定理,以及邏輯網絡拓撲節點。

     
    內容簡介
    本書可作為數據科學與機器學習速成課程的參考教材,面向需要在生產環境中解決實際問題的技術人員。兩位作者展示了如何快速交付重要的生產價值,如何持續極大化投資回報率,避免使用被過度誇大的工具和不必要的復雜性,利用極簡單、低風險的方法來達成目的。
    作者利用他們豐富的經驗,幫助你提出十分有用的問題,從無到有地完成你的生產項目。書中展示了利用簡單的查詢、聚合和可視化方法可以做些什麼,並且講述了不可或缺的誤差分析方法來幫助你避免做出錯誤結論。全書涵蓋了主要的機器學習方法,比如線性回歸、隨機森林、分類、聚類以及貝葉斯推斷,這些能夠幫助你在面對實際問題時選擇正確的算法。本書後面關於硬件、架構、分布式繫統的章節對如何在生產環境中優化性能提供了非常寶貴的參考。
    通過學習本書,你將能夠:
    ? 利用敏捷原則縮小項目範圍,保持高效開發。
    ? 從實用Python代碼示例中學習。
    ? 從簡單的啟發式方法開始,並隨著數據管道的成熟而改進它們。

    本書可作為數據科學與機器學習速成課程的參考教材,面向需要在生產環境中解決實際問題的技術人員。兩位作者展示了如何快速交付重要的生產價值,如何持續極大化投資回報率,避免使用被過度誇大的工具和不必要的復雜性,利用極簡單、低風險的方法來達成目的。
    作者利用他們豐富的經驗,幫助你提出十分有用的問題,從無到有地完成你的生產項目。書中展示了利用簡單的查詢、聚合和可視化方法可以做些什麼,並且講述了不可或缺的誤差分析方法來幫助你避免做出錯誤結論。全書涵蓋了主要的機器學習方法,比如線性回歸、隨機森林、分類、聚類以及貝葉斯推斷,這些能夠幫助你在面對實際問題時選擇正確的算法。本書後面關於硬件、架構、分布式繫統的章節對如何在生產環境中優化性能提供了非常寶貴的參考。
    通過學習本書,你將能夠:
    ? 利用敏捷原則縮小項目範圍,保持高效開發。
    ? 從實用Python代碼示例中學習。
    ? 從簡單的啟發式方法開始,並隨著數據管道的成熟而改進它們。
    ? 利用基本的數據可視化技巧來表達你的結果。
    ? 精通主要的機器學習方法,包括線性回歸、隨機森林、分類、聚類與過擬合。
    ? 學習圖模型與貝葉斯推斷的基礎。
    ? 理解機器學習模型中的相關性與因果性。

    作者簡介

    安德魯·凱萊赫(Andrew Kelleher)是Venmo的一名高級軟件工程師和分布式繫統架構師。他畢業於克萊姆森大學並獲得物理學學士學位,曾任BuzzFeed的軟件工程師,關注現代優化的數據管道和算法實現。


    亞當·凱萊赫(Adam Kelleher)是BuzzFeed的首席數據科學家,曾是巴克萊銀行的首席研究數據科學家,並在哥倫比亞大學教授因果推斷和機器學習產品。他畢業於克萊姆森大學,獲得物理學學士學位,並在北卡羅來納大學教堂山分校獲得宇宙學博士學位。


    譯者簡介:
    陳子墨原ThoughtWorks數據分析師,負責機器學習方案搭建與實驗。現為PayPal數據科學家,主要負責支付風險定量分析,反欺詐建模與決策方案優化。


    劉瀚文ThoughtWorks算法工程師,專注為大型企業提供機器學習平臺及算法的研發和咨詢服務,深諳工業級機器學習之道。

    目錄
    譯者序

    前言
    作者簡介
    部分框架原則
    第1章數據科學家的定位 2
    1.1引言 2
    1.2數據科學家扮演的角色 2
    1.2.1公司規模 3
    1.2.2團隊背景 3
    1.2.3職業晉升和發展 4
    1.2.4重要性 5
    1.2.5工作細分 5
    1.3結論 5

    譯者序

    前言
    作者簡介
    部分框架原則
    第1章數據科學家的定位  2
    1.1引言  2
    1.2數據科學家扮演的角色  2
    1.2.1公司規模  3
    1.2.2團隊背景  3
    1.2.3職業晉升和發展  4
    1.2.4重要性  5
    1.2.5工作細分  5
    1.3結論  5
    第2章項目流程  7
    2.1引言  7
    2.2數據團隊背景  7
    2.2.1專門崗位與資源池  8
    2.2.2研究分析  8
    2.2.3原型設計  9
    2.2.4集成的工作流  10
    2.3敏捷開發與產品定位  10
    2.4結論  15
    第3章量化誤差  16
    3.1引言  16
    3.2量化測量值的誤差  16
    3.3抽樣誤差  18
    3.4誤差傳遞  20
    3.5結論  22
    第4章數據編碼與預處理  23
    4.1引言  23
    4.2簡單文本預處理  24
    4.2.1分詞  24
    4.2.模型  26
    4.2.3稀疏  26
    4.2.4特征選擇  27
    4.2.5表示學習  29
    4.3信息量損失  31
    4.4結論  33
    第5章假設檢驗  34
    5.1引言  34
    5.2什麼是假設  34
    5.3假設檢驗的錯誤類型  36
    5.4p值和置信區間  37
    5.5多重測試和p值操控  38
    5.6實例  39
    5.7假設檢驗的設計  40
    5.8結論  41
    第6章數據可視化  43
    6.1引言  43
    6.2數據分布和彙總統計  43
    6.2.1數據分布和直方圖  44
    6.2.2散點圖和熱力圖  48
    6.2.3箱線圖和誤差條  52
    6.3時間序列圖  54
    6.3.1移動統計  54
    6.3.2自相關  56
    6.4圖可視化  57
    6.4.1布局算法  57
    6.4.2時間復雜度  59
    6.5結論  60
    第二部分算法與架構
    第7章算法和架構簡介  62
    7.1引言  62
    7.2架構  64
    7.2.1服務  64
    7.2.2數據源  65
    7.2.3分批及在線計算  66
    7.2.4規模擴展  66
    7.3模型  67
    7.3.1訓練  68
    7.3.2預測  68
    7.3.3驗證  69
    7.4結論  70
    第8章距離度量  71
    8.1引言  71
    8.2Jaccard距離  71
    8.2.1算法  72
    8.2.2時間復雜度  73
    8.2.3內存注意事項  73
    8.2.4分布式方法  73
    8.3MinHash  74
    8.3.1假設  75
    8.3.2時空復雜度  75
    8.3.3工具  75
    8.3.4分布式方法  75
    8.4餘弦相似度  76
    8.4.1復雜度  78
    8.4.2內存注意事項  78
    8.4.3分布式方法  78
    8.5馬氏距離  78
    8.5.1復雜度  79
    8.5.2內存注意事項  79
    8.5.3分布式方法  79
    8.6結論  80
    第9章回歸  81
    9.1引言  81
    9.1.1選擇模型  82
    9.1.2選擇目標函數  82
    9.1.3模型擬合  83
    9.1.4模型驗證  84
    9.2線性小二乘  87
    9.2.1假設  88
    9.2.2復雜度  89
    9.2.3內存注意事項  89
    9.2.4工具  89
    9.2.5分布式方法  89
    9.2.6實例  90
    9.3線性回歸中的非線性回歸  97
    9.4隨機森林  100
    9.4.1決策樹  100
    9.4.2隨機森林  103
    9.5結論  106
    第10章分類和聚類  107
    10.1引言  107
    10.2邏輯回歸  108
    10.2.1假設  111
    10.2.2時間復雜度  111
    10.2.3內存注意事項  112
    10.2.4工具  112
    10.3貝葉斯推斷與樸素貝葉斯  112
    10.3.1假設  114
    10.3.2復雜度  114
    10.3.3內存注意事項  114
    10.3.4工具  114
    10.4K-Means  115
    10.4.1假設  118
    10.4.2復雜度  118
    10.4.3內存注意事項  118
    10.4.4工具  118
    10.5特征值  118
    10.5.1復雜度  120
    10.5.2內存注意事項  120
    10.5.3工具  120
    10.6Louvain貪心算法  120
    10.6.1假設  121
    10.6.2復雜度  121
    10.6.3內存注意事項  121
    10.6.4工具  121
    10.7近鄰算法  121
    10.7.1假設  123
    10.7.2復雜度  123
    10.7.3內存注意事項  123
    10.7.4工具  123
    10.8結論  123
    第11章貝葉斯網絡  125
    11.1引言  125
    11.2因果圖、條件獨立和馬爾
    可夫  126
    11.2.1因果圖和條件獨立  126
    11.2.2穩定性和依賴性  127
    11.3d分離和馬爾可夫性質  128
    11.3.1馬爾可夫和因式
    分解  128
    11.3.2d分離  129
    11.4貝葉斯網絡的因果圖  132
    11.5模型擬合  133
    11.6結論  136
    第12章降維與隱變量模型  137
    12.1引言  137
    12.2先驗  137
    12.3因子分析  139
    12.4主成分分析  140
    12.4.1復雜度  142
    12.4.2內存注意事項  142
    12.4.3工具  142
    12.5獨立成分分析  142
    12.5.1假設  145
    12.5.2復雜度  145
    12.5.3內存注意事項  146
    12.5.4工具  146
    12.6LDA主題模型  146
    12.7結論  152
    第13章因果推斷  153
    13.1引言  153
    13.2實驗  154
    13.3觀測值:一個實例  157
    13.4非因果阻斷控制法  163
    13.5機器學習估計量  167
    13.5.1重新審視G公式  167
    13.5.2實例  168
    13.6結論  172
    第14章高級機器學習  173
    14.1引言  173
    14.2優化  173
    14.3神經網絡  175
    14.3.1神經網絡層  176
    14.3.2神經網絡容量  177
    14.3.3過擬合  179
    14.3.4批擬合  183
    14.3.5損失函數  183
    14.4結論  185
    第三部分瓶頸和優化
    第15章硬件基礎  188
    15.1引言  188
    15.2隨機存取存儲器  188
    15.2.1訪問  188
    15.2.2易失性  189
    15.3非易失性/持久化存儲  189
    15.3.1機械硬盤或“旋轉磁盤”  189
    15.3.2固態硬盤  190
    15.3.3延遲  190
    15.3.4分頁  190
    15.3.5顛簸  191
    15.4吞吐量  191
    15.4.1局部性  191
    15.4.2執行層局部性  191
    15.4.3網絡局部性  192
    15.5處理器  192
    15.5.1時鐘頻率  192
    15.5.2核心  192
    15.5.3線程  193
    15.5.4分支預測  193
    15.6結論  194
    第16章軟件基礎  196
    16.1引言  196
    16.2分頁  196
    16.3索引  197
    16.4粒度  197
    16.5魯棒性  198
    16.6提取、傳輸/轉換、加載  199
    16.7結論  199
    第17章軟件架構  200
    17.1引言  200
    17.2客戶端-服務器架構  200
    17.3n層架構/面向服務的架構  201
    17.4微服務架構  202
    17.5整體架構  203
    17.6實際案例(混合架構)  203
    17.7結論  204
    第18章CAP定理  205
    18.1引言  205
    18.2一致性/並發  205
    18.3可用性  207
    18.3.1冗餘  207
    18.3.2前端和負載均衡器  207
    18.3.3客戶端的負載均衡  209
    18.3.4數據層  209
    18.3.5任務和Taskworker  211
    18.3.6故障轉移  211
    18.4分區容錯性  211
    18.5結論  213
    第19章邏輯網絡拓撲節點  214
    19.1引言  214
    19.2網絡圖  214
    19.3負載均衡  215
    19.4緩存  216
    19.4.1應用程序級緩存  216
    19.4.2緩存服務  217
    19.4.3直寫緩存  218
    19.5數據庫  219
    19.5.1主副本數據庫  219
    19.5.2多主結構  220
    19.5.3A/B副本  220
    19.6隊列  221
    19.6.1任務調度和並行任務  222
    19.6.2異步執行  223
    19.6.3API緩衝  223
    19.7結論  224
    參考文獻  225

    前言
    本書大部分內容是Andrew和Adam一起在BuzzFeed工作時寫的。Adam是數據科學家,Andrew是工程師,他們在同一個團隊中工作了很長時間。讓人感到驚奇和有趣的是,他倆不隻是工作伙伴,還是三胞胎中的一對兄弟。
    寫這本書的想法是2014年8月我們參加了紐約的PyGotham之後產生的。當時有好幾場相對廣義的關於“數據科學”的討論,我們發現許多數據科學家的職業生涯始於對事物的好奇心和學習新事物的興奮感。他們會發現一些新工具,在這之中發展出自己偏愛使用的某種技術或算法,然後將這些工具應用到他們正在處理的問題上。每個人都喜歡用自己熟悉的方式去解決問題,這種做法很高效。比如使用神經網絡(我們將會在第14章中討論),因為它是一個更為高效的解決工具。我們想通過為數據科學家,尤其是初入職場的新人提供一個完整的工具箱,從而推動數據科學的發展。有人可能會質疑,部分的內容和誤差分析實際上比第三部分討論的技術更重要。但實際上第三部分纔是我們寫這本書的動力。如果數據集中充斥著大量噪聲或繫統誤差,那麼算法幾乎是不可能成功的。我們希望這本書可以提供一些正確的參考來幫助讀者解決在實際項目中遇到的問題,從而幫助他們在職業生涯中取得成功。

    本書大部分內容是Andrew和Adam一起在BuzzFeed工作時寫的。Adam是數據科學家,Andrew是工程師,他們在同一個團隊中工作了很長時間。讓人感到驚奇和有趣的是,他倆不隻是工作伙伴,還是三胞胎中的一對兄弟。
    寫這本書的想法是2014年8月我們參加了紐約的PyGotham之後產生的。當時有好幾場相對廣義的關於“數據科學”的討論,我們發現許多數據科學家的職業生涯始於對事物的好奇心和學習新事物的興奮感。他們會發現一些新工具,在這之中發展出自己偏愛使用的某種技術或算法,然後將這些工具應用到他們正在處理的問題上。每個人都喜歡用自己熟悉的方式去解決問題,這種做法很高效。比如使用神經網絡(我們將會在第14章中討論),因為它是一個更為高效的解決工具。我們想通過為數據科學家,尤其是初入職場的新人提供一個完整的工具箱,從而推動數據科學的發展。有人可能會質疑,部分的內容和誤差分析實際上比第三部分討論的技術更重要。但實際上第三部分纔是我們寫這本書的動力。如果數據集中充斥著大量噪聲或繫統誤差,那麼算法幾乎是不可能成功的。我們希望這本書可以提供一些正確的參考來幫助讀者解決在實際項目中遇到的問題,從而幫助他們在職業生涯中取得成功。
    機器學習領域、計算機科學領域甚至數據科學領域不乏好書,但我們希望本書可以作為一本比較嚴謹、全面的數據科學入門書籍。這是一本根據我們自身實踐經驗寫成的輕量級工具書,我們盡可能規避了研究型的問題。假如作為一名初級數據科學家,你正在解決研究型問題,那這可能已經超出了我們關心的範圍。
    數據科學有一個與機器學習分開的關鍵部分,那就是工程學。這一點我們會在第三部分著重討論。我們會討論你有可能遇到的問題並提供解決它們所需要的基礎知識。可以這麼說,第三部分基本上可作為計算機科學速成課程(初級課程)參考。因為即使你知道在開發什麼,但在落實到生產的路上依然有很多注意事項,這意味著必須要理解這些知識本身,而不僅僅是把它們當作某種工具。



    本書受眾
    在過去幾年優秀工程師一直有很大缺口。2008年在一個會議上我們次聽到了“意外程序員”這個詞。它用來描述那些不是科班出身的工程師—他們隻是誤打誤撞到了那個位置並開始做相關工作。十多年後的今天對於開發人員依然有大量需求,並且這種需求開始逐漸擴展到數據科學家這個職位上。誰將充當“意外數據科學家”的角色?通常情況下是開發人員或者是物理或數學專業本科生,雖然他們沒有接受過太多數據科學家所需的正規培訓,但擁有成功所需的好奇心和雄心,對工具箱有需求。
    本書旨在打造一套速成課程,通過從頭到尾過一遍數據項目的基本開展步驟來鼓勵數據科學家使用手裡的數據而非工具,並以此作為起點。由數據本身驅動的數據科學是成功的關鍵。數據科學的公開秘密就是,雖然建模很重要,但數據科學基礎的日常工作依然是數據的查詢、聚合和可視化。許多行業仍然處在收集和使用數據的比較原始的階段,因此快速交付一些復雜度較低的東西是非常有意義的。
    建模很重要,但也很難。我們相信敏捷開發的原則是可以應用到數據科學中的,我們將在第2章中討論這一點。比如我們可以從小的解決方案開始,有一個基於聚合數據的點子,當數據管道穩定且成熟的時候套用一些模型慢慢延伸它,然後在你手頭沒有那麼多別的重要的事情時慢慢改進模型。我們會提供基於此方法的真實案例。



    本書內容
    在開頭我們提供了一些數據科學領域的基本背景。部分的第1章是了解數據行業的引子。
    第2章將數據科學置於敏捷開發流程下考慮,這是一種有助於保持小範圍有效開發的理念。讓自己不去嘗試的機器學習框架或基於雲平臺的工具很難,但從長遠來看是值得的。
    第3章提供了關於誤差分析的基本介紹。許多數據科學都在做一些簡單的統計報告,如果不理解統計誤差,則很有可能會得出無效的結論。誤差分析是一項基本技能,並且是一項技能。
    第4章提供了一些編碼現實世界數據的方法。這會讓我們提出一些現實世界中被數據驅動的問題。回答這類問題的框架是假設檢驗,我們會在第5章中說明。
    到現在為止我們還沒有看到很多圖表,所以還缺乏將分析結果與外部(非技術)世界溝通的渠道。我們會在第6章中解決這個問題。我們會把討論限定在比較小的範圍,主要針對那些我們知道如何計算誤差的數量圖,或者那些使數據可視化產生細微差別的圖。雖然這些工具不像d3的交互式可視化圖那樣酷炫(d3非常值得學習),但它們也是與非技術人員溝通的基礎。
    在介紹了基本的數據處理方法之後,我們將繼續研究更高級的概念,也就是第二部分。我們首先在第7章中簡要介紹數據結構,然後在第8章中介紹機器學習的基本概念。到這時候你已經有了一些可以上手的方法來衡量對像的相似性。
    從現在開始我們已經可以進行簡單的機器學習了。第9章中,我們開始引入回歸的概念並從一個重要的模型線性回歸開始。在如今這個神經網絡和非線性機器學習時代,從介紹這種簡單模型開始確實有些奇怪,但線性回歸是一個相當優秀的模型。正如稍後將詳述的那樣,它是可解釋的、穩定的,能提供一個非常好的基準。另外,通過一些小技巧,它也可以用於非線性情況,並且近的研究結果表明,多項式回歸(線性回歸的簡單變形)在一些應用中的表現甚至可以勝過深度前饋網絡!
    接下來我們還描述了回歸模型中的另一個主力模型:隨機森林。隨機森林依賴“bagging”技術,這是一種基於統計技巧的非線性算法,可以為各種不同的問題提供出色的基準。如果想要一個簡單的模型來開始項目並且線性回歸不太合適,那麼隨機森林是一個不錯的候選。
    在介紹了回歸並提供了一些機器學習工作流程的基本案例之後,將繼續學習第10章。有很多方法都適用於向量和圖形數據,我們在這部分提供關於圖的基本背景知識和貝葉斯推斷的簡要介紹。在下一章我們會深入研究貝葉斯推斷和因果關繫。
    第11章的內容既非常規又比較難。從因果關繫的角度來看,貝葉斯網絡是直觀(盡管不一定簡單)的因果圖。因此我們引入貝葉斯網絡的基礎介紹並把它作為理解因果推斷的基礎。第12章中,我們以基礎貝葉斯網絡理解PCA和潛在因子模型的其他變體。主題建模是隱變量模型的一個重要例子,我們提供了一個基於新數據集的詳細例子。
    作為下一個以數據為中心的章節,我們將重點放在第13章中的因果推斷問題上。它的重要性是無法低估的。數據科學通常的目標是告知企業如何行事,假設數據能告訴你某個行為的結果,隻有當分析出因果關繫而不僅僅是相關關繫時,這個結果纔會成立。從這個意義上說,理解因果關繫是數據科學家工作的基礎。不幸的是,為了盡量保持工作範圍小化,它也常常個被削減。在規劃項目時,平衡利益相關者的期望是很重要的,而因果推斷工作可能需要花一些時間。我們希望讓數據科學家做出明智的決策,而不是輕易接受相關結果。
    在後一個以數據為中心的章節(第14章)中,我們提供了更先進的機器學習技術的一些細微差別。我們使用神經網絡作為討論過擬合和模型能力的工具。重點應放在盡可能使用簡單的解決方案,抵制以神經網絡作為模型開始的衝動。簡單的回歸方法幾乎總能為個解決方案提供足夠好的基線。
    到目前為止,我們介紹的都是背景知識,這是開始數據科學項目的起點,但不是我們的主要關注點,至少現在不是。本書的第三部分也是後一部分將深入研究硬件、軟件及其組成的繫統。
    第15章首先全面介紹計算機硬件。該章介紹一個我們日常會用的基本資源的工具箱,並提供一個框架來討論我們在實際操作中受到的約束。這些約束是可能的物理限制,以及這些限制在硬件中的實現。
    第16章提供了軟件的基礎知識和數據傳輸的基本描述,其中一節討論“提取-傳輸/轉換-加載”,通常稱為ETL。
    接下來,我們在第17章中概述了軟件架構的設計注意事項。架構是整個繫統如何組合在一起的設計。它包括用於數據存儲、數據傳輸和計算的組件,以及它們之間如何相互通信。有些架構比其他架構更有效率,並且客觀上也比其他架構做得更好。但是,鋻於時間和資源的限制,效率較低的解決方案可能更實用。我們希望提供足夠的上下文,以便你可以做出明智的決定。即使你是數據科學家而不是工程師,我們也希望提供足夠的知識,讓你至少可以了解數據平臺的狀況。
    然後,我們繼續研究工程學中的一些更高階的主題。第18章涵蓋了數據庫性能的一些基本界限。後,在後一章(第19章)討論網絡拓撲時,我們討論素如何組合在一起。



    繼續
    我們希望你不僅可以運用數據科學中的機器學習這部分,還可以了解自己數據平臺的局限性。這樣你纔可以了解你需要構建什麼,並找到按需構建基礎設施的有效途徑。我們希望借助完整的工具箱,你可以終意識到這些工具隻是解決方案的一部分。它們是解決實際問題的一種手段,而實際問題總是會受到資源的限制。
    如果要從本書中吸取教訓,那就是你應該始終將資源用於解決投資回報率的問題。解決你的問題是一個真正的約束。有時候,好的機器學習模型無法解決所有問題。那這時候要問的問題是,這個就是要解決的問題,還是有一個更簡單的、風險更低的任務。
    後,盡管我們希望本書能涉及生產類機器學習的所有方面,但目前它更像是一本生產類數據科學書籍。在後續版本中,我們打算涵蓋本版遺漏的內容,尤其是在機器學習基礎設施方面。新的資料將包括:並行模型訓練和預測的方法;Tensorflow、Apache Airflow、Spark以及其他框架和工具的基礎知識;幾個真正的機器學習平臺的詳細信息,包括Uber的Michelangelo、Google的TFX和我們自己在類似繫統上的工作;以及避免和處理機器學習繫統中的耦合。我們鼓勵讀者同時搜索涉及這些主題的書籍、論文和博客文章,並在本書的網站(adamkelleher.com/ml_book)上查看更新。
    希望你會像我們一樣喜歡學習這些工具,並且希望這本書可以你的時間和精力。

    在線試讀

    譯者序
    不管你的職業是什麼,如果你在工作中會遇到真實世界的數據科學問題,那麼本書將會對你提供巨大的幫助。它不僅描繪了廣闊的機器學習算法世界,還教導你如何用合適的工程方法在其中翱翔。除了數學公式和圖表,本書切合實際的代碼和檢驗方法將有助於確保你專注於解決問題本身,而非研究高深莫測的算法理論。
    兩位作者—安德魯·凱萊赫(Andrew Kelleher)和亞當·凱萊赫(Adam Kelleher)在工作中分別扮演著數據科學家和工程師的角色,默契的兄弟倆將機器學習和計算機工程巧妙地結合在一起,基於在BuzzFeed的工作經驗,寫出了這本機器學習工程指南。部分介紹的框架原則是數據科學世界堅實的基礎;第二部分介紹解決現實問題的常用算法,幫助讀者迅速解決實際問題,以及避免被數據誤導,產生結論錯誤;第三部分則著眼於工程實踐,基於工程角度突破瓶頸,讓算法能夠在現實條件中得以實現。
    因本書著眼於利用數據科學解決實際問題,所以無論你是初學者還是經驗豐富的工程師,都能受益良多。


     


     



    這本實用書籍同時介紹了機器學習和數據科學,填補了數據科學家和工程師之間的空白,並幫助將這些技術應用於生產。它致力於確保你做的努力能夠真正解決你的問題,並覆蓋了真實世界生產環境設置中的性能優化問題。本書包含Python代碼示例和可視化示例來解釋算法中的概念。驗證、假設檢驗和可視化的部分在本書開始就引入了,以確保你在數據科學上的努力能夠真正解決問題。本書的第三部分在數據科學和機器學習書籍中是獨一無二的,因為它側重於現實世界對性能優化的關注。思考硬件、基礎設施和分布式繫統都是將機器學習和數據科學技術引入生產實踐的步驟。
    安德魯·凱萊赫(Andrew Kelleher)和亞當·凱萊赫(Adam Kelleher)分別總結了他們在BuzzFeed工作時在工程領域和數據科學方面的經驗,他們在大型生產環境中解決問題的實際經驗為本書所涉及的主題以及在何內容上提供廣度或深度提供了依據。本書介紹了用於比較、分類、聚類和降維的算法,並分別提供了可以解決特定問題的示例。在奠定了基本機器學習任務的框架之後,將提供對更高階主題(如貝葉斯網絡或深度學習)的探索。
    本書提供了對數據科學和機器學習的充分介紹,關注於解決實際問題。對於那些希望將機器學習應用於其生產環境的具有傳統數學或科學背景的任何工程師或“意外程序員”來說,本書是一個很好的資源。


    —保羅·迪克斯









     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部