了得網圖書_機器學習實踐數據科學應用與工作流的開發及優化

作者:(美)安德魯·凱萊赫(Andrew Kelleher),(美)亞當·凱萊赫(Adam Kelleher) 著陳子墨,劉瀚文譯

定價:99

出版社:機械工業出版社

出版日期:2020年04月01日

頁數:226

裝幀:平裝

ISBN:9787111651369

●譯者序
序
前言
作者簡介
第一部分框架原則
第1章數據科學家的定位2
1.1引言2
1.2數據科學家扮演的角色2
1.2.1公司規模3
1.2.2團隊背景3
1.2.3職業晉升和發展4
1.2.4重要性5
1.2.5工作細分5
1.3結論5
第2章項目流程7
2.1引言7
2.2數據團隊背景7
2.2.1專門崗位與資源池8
2.2.2研究分析8
2.2.3原型設計9
2.2.4集成的工作流10
2.3敏捷開發與產品定位10
2.4結論15
第3章量化誤差16
3.1引言16
3.2量化測量值的誤差16
3.3抽樣誤差18
3.4誤差傳遞20
3.5結論22
第4章數據編碼與預處理23
4.1引言23
4.2簡單文本預處理24
4.2.1分詞24
4.2模型26
4.2.3稀疏26
4.2.4特征選擇27
4.2.5表示學習29
4.3信息量損失31
4.4結論33
第5章假設檢驗34
5.1引言34
5.2什麼是假設34
5.3假設檢驗的錯誤類型36
5.4p值和置信區間37
5.5多重測試和p值操控38
5.6實例39
5.7假設檢驗的設計40
5.8結論41
第6章數據可視化43
6.1引言43
6.2數據分布和彙總統計43
6.2.1數據分布和直方圖44
6.2.2散點圖和熱力圖48
6.2.3箱線圖和誤差條52
6.3時間序列圖54
6.3.1移動統計54
6.3.2自相關56
6.4圖可視化57
6.4.1布局算法57
6.4.2時間復雜度59
6.5結論60
第二部分算法與架構
第7章算法和架構簡介62
7.1引言62
7.2架構64
7.2.1服務64
7.2.2數據源65
7.2.3分批及在線計算66
7.2.4規模擴展66
7.3模型67
7.3.1訓練68
7.3.2預測68
7.3.3驗證69
7.4結論70
第8章距離度量71
8.1引言71
8.2Jaccard距離71
8.2.1算法72
8.2.2時間復雜度73
8.2.3內存注意事項73
8.2.4分布式方法73
8.3MinHash74
8.3.1假設75
8.3.2時空復雜度75
8.3.3工具75
8.3.4分布式方法75
8.4餘弦相似度76
8.4.1復雜度78
8.4.2內存注意事項78
8.4.3分布式方法78
8.5馬氏距離78
8.5.1復雜度79
8.5.2內存注意事項79
8.5.3分布式方法79
8.6結論80
第9章回歸81
9.1引言81
9.1.1選擇模型82
9.1.2選擇目標函數82
9.1.3模型擬合83
9.1.4模型驗證84
9.2線性最小二乘87
9.2.1假設88
9.2.2復雜度89
9.2.3內存注意事項89
9.2.4工具89
9.2.5分布式方法89
9.2.6實例90
9.3線性回歸中的非線性回歸97
9.4隨機森林100
9.4.1決策樹100
9.4.2隨機森林103
9.5結論106
第10章分類和聚類107
10.1引言107
10.2邏輯回歸108
10.2.1假設111
10.2.2時間復雜度111
10.2.3內存注意事項112
10.2.4工具112
10.3貝葉斯推斷與樸素貝葉斯112
10.3.1假設114
10.3.2復雜度114
10.3.3內存注意事項114
10.3.4工具114
10.4K-Means115
10.4.1假設118
10.4.2復雜度118
10.4.3內存注意事項118
10.4.4工具118
10.5優選特征值118
10.5.1復雜度120
10.5.2內存注意事項120
10.5.3工具120
10.6Louvain貪心算法120
10.6.1假設121
10.6.2復雜度121
10.6.3內存注意事項121
10.6.4工具121
10.7最近鄰算法121
10.7.1假設123
10.7.2復雜度123
10.7.3內存注意事項123
10.7.4工具123
10.8結論123
第11章貝葉斯網絡125
11.1引言125
11.2因果圖、條件獨立和馬爾
可夫126
11.2.1因果圖和條件獨立126
11.2.2穩定性和依賴性127
11.3d分離和馬爾可夫性質128
11.3.1馬爾可夫和因式
分解128
11.3.2d分離129
11.4貝葉斯網絡的因果圖132
11.5模型擬合133
11.6結論136
第12章降維與隱變量模型137
12.1引言137
12.2先驗137
12.3因子分析139
12.4主成分分析140
12.4.1復雜度142
12.4.2內存注意事項142
12.4.3工具142
12.5獨立成分分析142
12.5.1假設145
12.5.2復雜度145
12.5.3內存注意事項146
12.5.4工具146
12.6LDA主題模型146
12.7結論152
第13章因果推斷153
13.1引言153
13.2實驗154
13.3觀測值：一個實例157
13.4非因果阻斷控制法163
13.5機器學習估計量167
13.5.1重新審視G公式167
13.5.2實例168
13.6結論172
第14章高級機器學習173
14.1引言173
14.2優化173
14.3神經網絡175
14.3.1神經網絡層176
14.3.2神經網絡容量177
14.3.3過擬合179
14.3.4批擬合183
14.3.5損失函數183
14.4結論185
第三部分瓶頸和優化
第15章硬件基礎188
15.1引言188
15.2隨機存取存儲器188
15.2.1訪問188
15.2.2易失性189
15.3非易失性/持久化存儲189
15.3.1機械硬盤或“旋轉磁盤”189
15.3.2固態硬盤190
15.3.3延遲190
15.3.4分頁190
15.3.5顛簸191
15.4吞吐量191
15.4.1局部性191
15.4.2執行層局部性191
15.4.3網絡局部性192
15.5處理器192
15.5.1時鐘頻率192
15.5.2核心192
15.5.3線程193
15.5.4分支預測193
15.6結論194
第16章軟件基礎196
16.1引言196
16.2分頁196
16.3索引197
16.4粒度197
16.5魯棒性198
16.6提取、傳輸/轉換、加載199
16.7結論199
第17章軟件架構200
17.1引言200
17.2客戶端-服務器架構200
17.3n層架構/面向服務的架構201
17.4微服務架構202
17.5整體架構203
17.6實際案例（混合架構）203
17.7結論204
第18章CAP定理205
18.1引言205
18.2一致性/並發205
18.3可用性207
18.3.1冗餘207
18.3.2前端和負載均衡器207
18.3.3客戶端的負載均衡209
18.3.4數據層209
18.3.5任務和Taskworker211
18.3.6故障轉移211
18.4分區容錯性211
18.5結論213
第19章邏輯網絡拓撲節點214
19.1引言214
19.2網絡圖214
19.3負載均衡215
19.4緩存216
19.4.1應用程序級緩存216
19.4.2緩存服務217
19.4.3直寫緩存218
19.5數據庫219
19.5.1主副本數據庫219
19.5.2多主結構220
19.5.3A/B副本220
19.6隊列221
19.6.1任務調度和並行任務222
19.6.2異步執行223
19.6.3API緩衝223
19.7結論224
參考文獻225

本書以作者在BuzzFeed的工作經驗為基礎，將機器學習和計算機工程巧妙地結合在一起。第壹部分的基本原則是數據科學世界堅實的基礎；第二部分介紹現實問題中的常用算法，幫助讀者迅速解決實際問題，避免被數據誤導、產生結論錯誤；第三部分則著眼於工程實踐，基於工程角度突破瓶頸，讓算法能夠在現實條件中得以實現。

商品搜索

商品分类

【醫學】

【各大出版社】