了得網計算機/網絡_機器學習實踐：數據科學應用與工作流的開發及優化

編輯推薦

讀者對像：

因本書著眼於利用數據科學解決實際問題，所以無論你是初學者還是經驗豐富的工程師，都能受益良多。

這本實用書籍同時介紹了機器學習和數據科學，填補了數據科學家和工程師之間的空白，並幫助將這些技術應用於生產。它致力於確保你做的努力能夠真正解決你的問題，並覆蓋了真實世界生產環境設置中的性能優化問題。

本書共分三部分，19章。*部分（第1~6章）介紹框架原則，涵蓋數據科學領域的背景知識，項目工作流程及其與敏捷開發原則的關繫，誤差測量的概念和量化，數據編碼與預處理，統計假設檢驗，數據可視化和探索性數據分析。第二部分（第7~14章）描述算法和架構，包括算法和架構的概述，相似性度量方法，有監督的機器學習，離散的有監督模型和無監督機器學習的基礎知識，貝葉斯網絡和貝葉斯模型，因果推斷，以及高級機器學習技術。第三部分（第15~19章）講解瓶頸和優化，涵蓋硬件方面的基本瓶頸，軟件設計的基礎知識，分布式繫統中的體繫結構模式，CAP定理，以及邏輯網絡拓撲節點。

內容簡介

本書可作為數據科學與機器學習速成課程的參考教材，面向需要在生產環境中解決實際問題的技術人員。兩位作者展示了如何快速交付重要的生產價值，如何持續極大化投資回報率，避免使用被過度誇大的工具和不必要的復雜性，利用極簡單、低風險的方法來達成目的。
作者利用他們豐富的經驗，幫助你提出十分有用的問題，從無到有地完成你的生產項目。書中展示了利用簡單的查詢、聚合和可視化方法可以做些什麼，並且講述了不可或缺的誤差分析方法來幫助你避免做出錯誤結論。全書涵蓋了主要的機器學習方法，比如線性回歸、隨機森林、分類、聚類以及貝葉斯推斷，這些能夠幫助你在面對實際問題時選擇正確的算法。本書後面關於硬件、架構、分布式繫統的章節對如何在生產環境中優化性能提供了非常寶貴的參考。
通過學習本書，你將能夠：
? 利用敏捷原則縮小項目範圍，保持高效開發。
? 從實用Python代碼示例中學習。
? 從簡單的啟發式方法開始，並隨著數據管道的成熟而改進它們。

本書可作為數據科學與機器學習速成課程的參考教材，面向需要在生產環境中解決實際問題的技術人員。兩位作者展示了如何快速交付重要的生產價值，如何持續極大化投資回報率，避免使用被過度誇大的工具和不必要的復雜性，利用極簡單、低風險的方法來達成目的。
作者利用他們豐富的經驗，幫助你提出十分有用的問題，從無到有地完成你的生產項目。書中展示了利用簡單的查詢、聚合和可視化方法可以做些什麼，並且講述了不可或缺的誤差分析方法來幫助你避免做出錯誤結論。全書涵蓋了主要的機器學習方法，比如線性回歸、隨機森林、分類、聚類以及貝葉斯推斷，這些能夠幫助你在面對實際問題時選擇正確的算法。本書後面關於硬件、架構、分布式繫統的章節對如何在生產環境中優化性能提供了非常寶貴的參考。
通過學習本書，你將能夠：
? 利用敏捷原則縮小項目範圍，保持高效開發。
? 從實用Python代碼示例中學習。
? 從簡單的啟發式方法開始，並隨著數據管道的成熟而改進它們。
? 利用基本的數據可視化技巧來表達你的結果。
? 精通主要的機器學習方法，包括線性回歸、隨機森林、分類、聚類與過擬合。
? 學習圖模型與貝葉斯推斷的基礎。
? 理解機器學習模型中的相關性與因果性。

作者簡介

安德魯·凱萊赫（Andrew Kelleher）是Venmo的一名高級軟件工程師和分布式繫統架構師。他畢業於克萊姆森大學並獲得物理學學士學位，曾任BuzzFeed的軟件工程師，關注現代優化的數據管道和算法實現。

亞當·凱萊赫（Adam Kelleher）是BuzzFeed的首席數據科學家，曾是巴克萊銀行的首席研究數據科學家，並在哥倫比亞大學教授因果推斷和機器學習產品。他畢業於克萊姆森大學，獲得物理學學士學位，並在北卡羅來納大學教堂山分校獲得宇宙學博士學位。

譯者簡介：
陳子墨原ThoughtWorks數據分析師，負責機器學習方案搭建與實驗。現為PayPal數據科學家，主要負責支付風險定量分析，反欺詐建模與決策方案優化。

劉瀚文ThoughtWorks算法工程師，專注為大型企業提供機器學習平臺及算法的研發和咨詢服務，深諳工業級機器學習之道。

譯者序
序
前言
作者簡介
部分框架原則
第1章數據科學家的定位 2
1.1引言 2
1.2數據科學家扮演的角色 2
1.2.1公司規模 3
1.2.2團隊背景 3
1.2.3職業晉升和發展 4
1.2.4重要性 5
1.2.5工作細分 5
1.3結論 5

譯者序
序
前言
作者簡介
部分框架原則
第1章數據科學家的定位 2
1.1引言 2
1.2數據科學家扮演的角色 2
1.2.1公司規模 3
1.2.2團隊背景 3
1.2.3職業晉升和發展 4
1.2.4重要性 5
1.2.5工作細分 5
1.3結論 5
第2章項目流程 7
2.1引言 7
2.2數據團隊背景 7
2.2.1專門崗位與資源池 8
2.2.2研究分析 8
2.2.3原型設計 9
2.2.4集成的工作流 10
2.3敏捷開發與產品定位 10
2.4結論 15
第3章量化誤差 16
3.1引言 16
3.2量化測量值的誤差 16
3.3抽樣誤差 18
3.4誤差傳遞 20
3.5結論 22
第4章數據編碼與預處理 23
4.1引言 23
4.2簡單文本預處理 24
4.2.1分詞 24
4.2.模型 26
4.2.3稀疏 26
4.2.4特征選擇 27
4.2.5表示學習 29
4.3信息量損失 31
4.4結論 33
第5章假設檢驗 34
5.1引言 34
5.2什麼是假設 34
5.3假設檢驗的錯誤類型 36
5.4p值和置信區間 37
5.5多重測試和p值操控 38
5.6實例 39
5.7假設檢驗的設計 40
5.8結論 41
第6章數據可視化 43
6.1引言 43
6.2數據分布和彙總統計 43
6.2.1數據分布和直方圖 44
6.2.2散點圖和熱力圖 48
6.2.3箱線圖和誤差條 52
6.3時間序列圖 54
6.3.1移動統計 54
6.3.2自相關 56
6.4圖可視化 57
6.4.1布局算法 57
6.4.2時間復雜度 59
6.5結論 60
第二部分算法與架構
第7章算法和架構簡介 62
7.1引言 62
7.2架構 64
7.2.1服務 64
7.2.2數據源 65
7.2.3分批及在線計算 66
7.2.4規模擴展 66
7.3模型 67
7.3.1訓練 68
7.3.2預測 68
7.3.3驗證 69
7.4結論 70
第8章距離度量 71
8.1引言 71
8.2Jaccard距離 71
8.2.1算法 72
8.2.2時間復雜度 73
8.2.3內存注意事項 73
8.2.4分布式方法 73
8.3MinHash 74
8.3.1假設 75
8.3.2時空復雜度 75
8.3.3工具 75
8.3.4分布式方法 75
8.4餘弦相似度 76
8.4.1復雜度 78
8.4.2內存注意事項 78
8.4.3分布式方法 78
8.5馬氏距離 78
8.5.1復雜度 79
8.5.2內存注意事項 79
8.5.3分布式方法 79
8.6結論 80
第9章回歸 81
9.1引言 81
9.1.1選擇模型 82
9.1.2選擇目標函數 82
9.1.3模型擬合 83
9.1.4模型驗證 84
9.2線性小二乘 87
9.2.1假設 88
9.2.2復雜度 89
9.2.3內存注意事項 89
9.2.4工具 89
9.2.5分布式方法 89
9.2.6實例 90
9.3線性回歸中的非線性回歸 97
9.4隨機森林 100
9.4.1決策樹 100
9.4.2隨機森林 103
9.5結論 106
第10章分類和聚類 107
10.1引言 107
10.2邏輯回歸 108
10.2.1假設 111
10.2.2時間復雜度 111
10.2.3內存注意事項 112
10.2.4工具 112
10.3貝葉斯推斷與樸素貝葉斯 112
10.3.1假設 114
10.3.2復雜度 114
10.3.3內存注意事項 114
10.3.4工具 114
10.4K-Means 115
10.4.1假設 118
10.4.2復雜度 118
10.4.3內存注意事項 118
10.4.4工具 118
10.5特征值 118
10.5.1復雜度 120
10.5.2內存注意事項 120
10.5.3工具 120
10.6Louvain貪心算法 120
10.6.1假設 121
10.6.2復雜度 121
10.6.3內存注意事項 121
10.6.4工具 121
10.7近鄰算法 121
10.7.1假設 123
10.7.2復雜度 123
10.7.3內存注意事項 123
10.7.4工具 123
10.8結論 123
第11章貝葉斯網絡 125
11.1引言 125
11.2因果圖、條件獨立和馬爾
可夫 126
11.2.1因果圖和條件獨立 126
11.2.2穩定性和依賴性 127
11.3d分離和馬爾可夫性質 128
11.3.1馬爾可夫和因式
分解 128
11.3.2d分離 129
11.4貝葉斯網絡的因果圖 132
11.5模型擬合 133
11.6結論 136
第12章降維與隱變量模型 137
12.1引言 137
12.2先驗 137
12.3因子分析 139
12.4主成分分析 140
12.4.1復雜度 142
12.4.2內存注意事項 142
12.4.3工具 142
12.5獨立成分分析 142
12.5.1假設 145
12.5.2復雜度 145
12.5.3內存注意事項 146
12.5.4工具 146
12.6LDA主題模型 146
12.7結論 152
第13章因果推斷 153
13.1引言 153
13.2實驗 154
13.3觀測值：一個實例 157
13.4非因果阻斷控制法 163
13.5機器學習估計量 167
13.5.1重新審視G公式 167
13.5.2實例 168
13.6結論 172
第14章高級機器學習 173
14.1引言 173
14.2優化 173
14.3神經網絡 175
14.3.1神經網絡層 176
14.3.2神經網絡容量 177
14.3.3過擬合 179
14.3.4批擬合 183
14.3.5損失函數 183
14.4結論 185
第三部分瓶頸和優化
第15章硬件基礎 188
15.1引言 188
15.2隨機存取存儲器 188
15.2.1訪問 188
15.2.2易失性 189
15.3非易失性/持久化存儲 189
15.3.1機械硬盤或“旋轉磁盤” 189
15.3.2固態硬盤 190
15.3.3延遲 190
15.3.4分頁 190
15.3.5顛簸 191
15.4吞吐量 191
15.4.1局部性 191
15.4.2執行層局部性 191
15.4.3網絡局部性 192
15.5處理器 192
15.5.1時鐘頻率 192
15.5.2核心 192
15.5.3線程 193
15.5.4分支預測 193
15.6結論 194
第16章軟件基礎 196
16.1引言 196
16.2分頁 196
16.3索引 197
16.4粒度 197
16.5魯棒性 198
16.6提取、傳輸/轉換、加載 199
16.7結論 199
第17章軟件架構 200
17.1引言 200
17.2客戶端-服務器架構 200
17.3n層架構/面向服務的架構 201
17.4微服務架構 202
17.5整體架構 203
17.6實際案例（混合架構） 203
17.7結論 204
第18章CAP定理 205
18.1引言 205
18.2一致性/並發 205
18.3可用性 207
18.3.1冗餘 207
18.3.2前端和負載均衡器 207
18.3.3客戶端的負載均衡 209
18.3.4數據層 209
18.3.5任務和Taskworker 211
18.3.6故障轉移 211
18.4分區容錯性 211
18.5結論 213
第19章邏輯網絡拓撲節點 214
19.1引言 214
19.2網絡圖 214
19.3負載均衡 215
19.4緩存 216
19.4.1應用程序級緩存 216
19.4.2緩存服務 217
19.4.3直寫緩存 218
19.5數據庫 219
19.5.1主副本數據庫 219
19.5.2多主結構 220
19.5.3A/B副本 220
19.6隊列 221
19.6.1任務調度和並行任務 222
19.6.2異步執行 223
19.6.3API緩衝 223
19.7結論 224
參考文獻 225

前言

本書大部分內容是Andrew和Adam一起在BuzzFeed工作時寫的。Adam是數據科學家，Andrew是工程師，他們在同一個團隊中工作了很長時間。讓人感到驚奇和有趣的是，他倆不隻是工作伙伴，還是三胞胎中的一對兄弟。
寫這本書的想法是2014年8月我們參加了紐約的PyGotham之後產生的。當時有好幾場相對廣義的關於“數據科學”的討論，我們發現許多數據科學家的職業生涯始於對事物的好奇心和學習新事物的興奮感。他們會發現一些新工具，在這之中發展出自己偏愛使用的某種技術或算法，然後將這些工具應用到他們正在處理的問題上。每個人都喜歡用自己熟悉的方式去解決問題，這種做法很高效。比如使用神經網絡（我們將會在第14章中討論），因為它是一個更為高效的解決工具。我們想通過為數據科學家，尤其是初入職場的新人提供一個完整的工具箱，從而推動數據科學的發展。有人可能會質疑，部分的內容和誤差分析實際上比第三部分討論的技術更重要。但實際上第三部分纔是我們寫這本書的動力。如果數據集中充斥著大量噪聲或繫統誤差，那麼算法幾乎是不可能成功的。我們希望這本書可以提供一些正確的參考來幫助讀者解決在實際項目中遇到的問題，從而幫助他們在職業生涯中取得成功。

本書大部分內容是Andrew和Adam一起在BuzzFeed工作時寫的。Adam是數據科學家，Andrew是工程師，他們在同一個團隊中工作了很長時間。讓人感到驚奇和有趣的是，他倆不隻是工作伙伴，還是三胞胎中的一對兄弟。
寫這本書的想法是2014年8月我們參加了紐約的PyGotham之後產生的。當時有好幾場相對廣義的關於“數據科學”的討論，我們發現許多數據科學家的職業生涯始於對事物的好奇心和學習新事物的興奮感。他們會發現一些新工具，在這之中發展出自己偏愛使用的某種技術或算法，然後將這些工具應用到他們正在處理的問題上。每個人都喜歡用自己熟悉的方式去解決問題，這種做法很高效。比如使用神經網絡（我們將會在第14章中討論），因為它是一個更為高效的解決工具。我們想通過為數據科學家，尤其是初入職場的新人提供一個完整的工具箱，從而推動數據科學的發展。有人可能會質疑，部分的內容和誤差分析實際上比第三部分討論的技術更重要。但實際上第三部分纔是我們寫這本書的動力。如果數據集中充斥著大量噪聲或繫統誤差，那麼算法幾乎是不可能成功的。我們希望這本書可以提供一些正確的參考來幫助讀者解決在實際項目中遇到的問題，從而幫助他們在職業生涯中取得成功。
機器學習領域、計算機科學領域甚至數據科學領域不乏好書，但我們希望本書可以作為一本比較嚴謹、全面的數據科學入門書籍。這是一本根據我們自身實踐經驗寫成的輕量級工具書，我們盡可能規避了研究型的問題。假如作為一名初級數據科學家，你正在解決研究型問題，那這可能已經超出了我們關心的範圍。
數據科學有一個與機器學習分開的關鍵部分，那就是工程學。這一點我們會在第三部分著重討論。我們會討論你有可能遇到的問題並提供解決它們所需要的基礎知識。可以這麼說，第三部分基本上可作為計算機科學速成課程（初級課程）參考。因為即使你知道在開發什麼，但在落實到生產的路上依然有很多注意事項，這意味著必須要理解這些知識本身，而不僅僅是把它們當作某種工具。

本書受眾
在過去幾年優秀工程師一直有很大缺口。2008年在一個會議上我們次聽到了“意外程序員”這個詞。它用來描述那些不是科班出身的工程師—他們隻是誤打誤撞到了那個位置並開始做相關工作。十多年後的今天對於開發人員依然有大量需求，並且這種需求開始逐漸擴展到數據科學家這個職位上。誰將充當“意外數據科學家”的角色？通常情況下是開發人員或者是物理或數學專業本科生，雖然他們沒有接受過太多數據科學家所需的正規培訓，但擁有成功所需的好奇心和雄心，對工具箱有需求。
本書旨在打造一套速成課程，通過從頭到尾過一遍數據項目的基本開展步驟來鼓勵數據科學家使用手裡的數據而非工具，並以此作為起點。由數據本身驅動的數據科學是成功的關鍵。數據科學的公開秘密就是，雖然建模很重要，但數據科學基礎的日常工作依然是數據的查詢、聚合和可視化。許多行業仍然處在收集和使用數據的比較原始的階段，因此快速交付一些復雜度較低的東西是非常有意義的。
建模很重要，但也很難。我們相信敏捷開發的原則是可以應用到數據科學中的，我們將在第2章中討論這一點。比如我們可以從小的解決方案開始，有一個基於聚合數據的點子，當數據管道穩定且成熟的時候套用一些模型慢慢延伸它，然後在你手頭沒有那麼多別的重要的事情時慢慢改進模型。我們會提供基於此方法的真實案例。

本書內容
在開頭我們提供了一些數據科學領域的基本背景。部分的第1章是了解數據行業的引子。
第2章將數據科學置於敏捷開發流程下考慮，這是一種有助於保持小範圍有效開發的理念。讓自己不去嘗試的機器學習框架或基於雲平臺的工具很難，但從長遠來看是值得的。
第3章提供了關於誤差分析的基本介紹。許多數據科學都在做一些簡單的統計報告，如果不理解統計誤差，則很有可能會得出無效的結論。誤差分析是一項基本技能，並且是一項技能。
第4章提供了一些編碼現實世界數據的方法。這會讓我們提出一些現實世界中被數據驅動的問題。回答這類問題的框架是假設檢驗，我們會在第5章中說明。
到現在為止我們還沒有看到很多圖表，所以還缺乏將分析結果與外部（非技術）世界溝通的渠道。我們會在第6章中解決這個問題。我們會把討論限定在比較小的範圍，主要針對那些我們知道如何計算誤差的數量圖，或者那些使數據可視化產生細微差別的圖。雖然這些工具不像d3的交互式可視化圖那樣酷炫（d3非常值得學習），但它們也是與非技術人員溝通的基礎。
在介紹了基本的數據處理方法之後，我們將繼續研究更高級的概念，也就是第二部分。我們首先在第7章中簡要介紹數據結構，然後在第8章中介紹機器學習的基本概念。到這時候你已經有了一些可以上手的方法來衡量對像的相似性。
從現在開始我們已經可以進行簡單的機器學習了。第9章中，我們開始引入回歸的概念並從一個重要的模型線性回歸開始。在如今這個神經網絡和非線性機器學習時代，從介紹這種簡單模型開始確實有些奇怪，但線性回歸是一個相當優秀的模型。正如稍後將詳述的那樣，它是可解釋的、穩定的，能提供一個非常好的基準。另外，通過一些小技巧，它也可以用於非線性情況，並且近的研究結果表明，多項式回歸（線性回歸的簡單變形）在一些應用中的表現甚至可以勝過深度前饋網絡！
接下來我們還描述了回歸模型中的另一個主力模型：隨機森林。隨機森林依賴“bagging”技術，這是一種基於統計技巧的非線性算法，可以為各種不同的問題提供出色的基準。如果想要一個簡單的模型來開始項目並且線性回歸不太合適，那麼隨機森林是一個不錯的候選。
在介紹了回歸並提供了一些機器學習工作流程的基本案例之後，將繼續學習第10章。有很多方法都適用於向量和圖形數據，我們在這部分提供關於圖的基本背景知識和貝葉斯推斷的簡要介紹。在下一章我們會深入研究貝葉斯推斷和因果關繫。
第11章的內容既非常規又比較難。從因果關繫的角度來看，貝葉斯網絡是直觀（盡管不一定簡單）的因果圖。因此我們引入貝葉斯網絡的基礎介紹並把它作為理解因果推斷的基礎。第12章中，我們以基礎貝葉斯網絡理解PCA和潛在因子模型的其他變體。主題建模是隱變量模型的一個重要例子，我們提供了一個基於新數據集的詳細例子。
作為下一個以數據為中心的章節，我們將重點放在第13章中的因果推斷問題上。它的重要性是無法低估的。數據科學通常的目標是告知企業如何行事，假設數據能告訴你某個行為的結果，隻有當分析出因果關繫而不僅僅是相關關繫時，這個結果纔會成立。從這個意義上說，理解因果關繫是數據科學家工作的基礎。不幸的是，為了盡量保持工作範圍小化，它也常常個被削減。在規劃項目時，平衡利益相關者的期望是很重要的，而因果推斷工作可能需要花一些時間。我們希望讓數據科學家做出明智的決策，而不是輕易接受相關結果。
在後一個以數據為中心的章節（第14章）中，我們提供了更先進的機器學習技術的一些細微差別。我們使用神經網絡作為討論過擬合和模型能力的工具。重點應放在盡可能使用簡單的解決方案，抵制以神經網絡作為模型開始的衝動。簡單的回歸方法幾乎總能為個解決方案提供足夠好的基線。
到目前為止，我們介紹的都是背景知識，這是開始數據科學項目的起點，但不是我們的主要關注點，至少現在不是。本書的第三部分也是後一部分將深入研究硬件、軟件及其組成的繫統。
第15章首先全面介紹計算機硬件。該章介紹一個我們日常會用的基本資源的工具箱，並提供一個框架來討論我們在實際操作中受到的約束。這些約束是可能的物理限制，以及這些限制在硬件中的實現。
第16章提供了軟件的基礎知識和數據傳輸的基本描述，其中一節討論“提取-傳輸/轉換-加載”，通常稱為ETL。
接下來，我們在第17章中概述了軟件架構的設計注意事項。架構是整個繫統如何組合在一起的設計。它包括用於數據存儲、數據傳輸和計算的組件，以及它們之間如何相互通信。有些架構比其他架構更有效率，並且客觀上也比其他架構做得更好。但是，鋻於時間和資源的限制，效率較低的解決方案可能更實用。我們希望提供足夠的上下文，以便你可以做出明智的決定。即使你是數據科學家而不是工程師，我們也希望提供足夠的知識，讓你至少可以了解數據平臺的狀況。
然後，我們繼續研究工程學中的一些更高階的主題。第18章涵蓋了數據庫性能的一些基本界限。後，在後一章（第19章）討論網絡拓撲時，我們討論素如何組合在一起。

繼續
我們希望你不僅可以運用數據科學中的機器學習這部分，還可以了解自己數據平臺的局限性。這樣你纔可以了解你需要構建什麼，並找到按需構建基礎設施的有效途徑。我們希望借助完整的工具箱，你可以終意識到這些工具隻是解決方案的一部分。它們是解決實際問題的一種手段，而實際問題總是會受到資源的限制。
如果要從本書中吸取教訓，那就是你應該始終將資源用於解決投資回報率的問題。解決你的問題是一個真正的約束。有時候，好的機器學習模型無法解決所有問題。那這時候要問的問題是，這個就是要解決的問題，還是有一個更簡單的、風險更低的任務。
後，盡管我們希望本書能涉及生產類機器學習的所有方面，但目前它更像是一本生產類數據科學書籍。在後續版本中，我們打算涵蓋本版遺漏的內容，尤其是在機器學習基礎設施方面。新的資料將包括：並行模型訓練和預測的方法；Tensorflow、Apache Airflow、Spark以及其他框架和工具的基礎知識；幾個真正的機器學習平臺的詳細信息，包括Uber的Michelangelo、Google的TFX和我們自己在類似繫統上的工作；以及避免和處理機器學習繫統中的耦合。我們鼓勵讀者同時搜索涉及這些主題的書籍、論文和博客文章，並在本書的網站（adamkelleher.com/ml_book）上查看更新。
希望你會像我們一樣喜歡學習這些工具，並且希望這本書可以你的時間和精力。

在線試讀

譯者序
不管你的職業是什麼，如果你在工作中會遇到真實世界的數據科學問題，那麼本書將會對你提供巨大的幫助。它不僅描繪了廣闊的機器學習算法世界，還教導你如何用合適的工程方法在其中翱翔。除了數學公式和圖表，本書切合實際的代碼和檢驗方法將有助於確保你專注於解決問題本身，而非研究高深莫測的算法理論。
兩位作者—安德魯·凱萊赫（Andrew Kelleher）和亞當·凱萊赫（Adam Kelleher）在工作中分別扮演著數據科學家和工程師的角色，默契的兄弟倆將機器學習和計算機工程巧妙地結合在一起，基於在BuzzFeed的工作經驗，寫出了這本機器學習工程指南。部分介紹的框架原則是數據科學世界堅實的基礎；第二部分介紹解決現實問題的常用算法，幫助讀者迅速解決實際問題，以及避免被數據誤導，產生結論錯誤；第三部分則著眼於工程實踐，基於工程角度突破瓶頸，讓算法能夠在現實條件中得以實現。
因本書著眼於利用數據科學解決實際問題，所以無論你是初學者還是經驗豐富的工程師，都能受益良多。

序
這本實用書籍同時介紹了機器學習和數據科學，填補了數據科學家和工程師之間的空白，並幫助將這些技術應用於生產。它致力於確保你做的努力能夠真正解決你的問題，並覆蓋了真實世界生產環境設置中的性能優化問題。本書包含Python代碼示例和可視化示例來解釋算法中的概念。驗證、假設檢驗和可視化的部分在本書開始就引入了，以確保你在數據科學上的努力能夠真正解決問題。本書的第三部分在數據科學和機器學習書籍中是獨一無二的，因為它側重於現實世界對性能優化的關注。思考硬件、基礎設施和分布式繫統都是將機器學習和數據科學技術引入生產實踐的步驟。
安德魯·凱萊赫（Andrew Kelleher）和亞當·凱萊赫（Adam Kelleher）分別總結了他們在BuzzFeed工作時在工程領域和數據科學方面的經驗，他們在大型生產環境中解決問題的實際經驗為本書所涉及的主題以及在何內容上提供廣度或深度提供了依據。本書介紹了用於比較、分類、聚類和降維的算法，並分別提供了可以解決特定問題的示例。在奠定了基本機器學習任務的框架之後，將提供對更高階主題（如貝葉斯網絡或深度學習）的探索。
本書提供了對數據科學和機器學習的充分介紹，關注於解決實際問題。對於那些希望將機器學習應用於其生產環境的具有傳統數學或科學背景的任何工程師或“意外程序員”來說，本書是一個很好的資源。

—保羅·迪克斯

商品搜索

商品分类

【醫學】

【各大出版社】