●前言
第1章概述
1.1機器學習基本流程/1
1.2業界常用算法/2
1.3構建機器學習繫統/3
第2章統計學
2.1概率分布/5
2.1.1期望與方差/5
2.1.2概率密度函數/7
2.1.3累積分布函數/10
2.2極大似然估計與貝葉斯估計/11
2.2.1極大似然估計/11
2.2.2貝葉斯估計/13
2.2.3共軛先驗與平滑的關繫/15
2.3置信區間/15
2.3.1t分布/16
2.3.2區間估計/17
2.3.3Wilson置信區間/19
2.4相關性/20
2.4.1數值變量的相關性/20
2.4.2分類變量的相關性/22
2.4.3順序變量的相關性/27
2.4.4分布之間的距離/28
第3章矩陣
3.1矩陣的物理意義/30
3.1.1矩陣是什麼/30
3.1.2矩陣的行列式/31
3.1.3矩陣的逆/32
3.1.4特征值和特征向量/32
3.2矩陣的數值穩定性/33
3.2.1矩陣數值穩定性的度量/33
3.2.2基的高斯{法/33
3.2.3嶺回歸/38
3.3矩陣分解/38
3.3.1特征值分解與奇異值分解/39
3.3.2高維稀疏矩陣的特征值分解/40
3.3.3基於矩陣分解的推薦算法/45
3.4矩陣編程實踐/46
3.4.1numpy數組運算/46
3.4.2稀疏矩陣的壓縮方法/50
3.4.3用MapReduce實現矩陣乘法/52
第4章優化方法
4.1無約束優化方法/54
4.1.1梯度下降法/54
4.1.2擬牛頓法/56
4.2帶約束優化方法/58
4.3在線學習方法/61
4.3.1隨機梯度下降法/61
4.3.2FTRL算法/63
4.4深度學習中的優化方法/70
4.4.1動量法/70
4.4.2AdaGrad/71
4.4.3RMSprop/71
4.4.4Adadelta/71
4.4.5Adam/72
4.5期望優選化算法/72
4.5.1Jensen不等式/73
4.5.2期望優選化算法分析/73
4.5.3高斯混合模型/77
第5章線性模型
5.1廣義線性模型/79
5.1.1指數族分布/79
5.1.2廣義線性模型的特例/80
5.2邏輯回歸模型/83
5.3分解機制模型/84
5.3.1特征組合/84
5.3.2分解機制/86
5.3.3分解機制模型構造新特征的思路/87
5.4基於域感知的分解機制模型/88
5.5算法實驗對比/95
第6章概率圖模型
6.1隱馬爾可夫模型/98
6.1.1模型介紹/98
6.1.2模型訓練/101
6.1.3模型預測/102
6.2條件隨機場模型/103
6.2.1條件隨機場模型及特征函數/103
6.2.2向前變量和向後變量/107
6.2.3模型訓練/110
6.2.4模型預測/111
6.2.5條件隨機場模型與隱馬爾可夫模型的對比/112
第7章文本向量化
7.1詞向量/113
7.1.1word2vec/113
7.1.2fastText/117
7.1.3GloVe/118
7.1.4算法實驗對比/120
7.2文檔向量/121
7.2.1ParagraphVector/121
7.2.2LDA/123
第8章樹模型
8.1決策樹/130
8.1.1分類樹/131
8.1.2回歸樹/134
8.1.3剪枝/137
8.2隨機森林/139
8.3AdaBoost/140
8.4XGBoost/141
8.5LightGBM/146
8.5.1基於梯度的單邊采樣算法/147
8.5.2互斥特征捆綁/147
8.5.3Leaf-Wise生長策略/148
8.5.4DART/149
8.6算法實驗對比/150
第9章深度學習
9.1神經網絡概述/154
9.1.1網絡模型/154
9.1.2反向傳播/157
9.1.3損失函數/158
9.1.4過擬合問題/159
9.1.5梯度消失/161
9.1.6參數初始化/161
9.2卷積神經網絡/162
9.2.1卷積/162
9.2.2池化/165
9.2.3CNN網絡結構/165
9.2.4textCNN/167
9.3循環神經網絡/168
9.3.1RNN通用架構/168
9.3.2RNN的學習問題/170
9.3.3門控/172
9.3.4LSTM/174
9.3.5seq2seq/177
9.4注意力機制/179
第10章Keras編程
10.1快速上手/182
10.2Keras層/184
10.2.1Keras內置層/184
10.2.2自定義層/191
10.3調試技巧/194
10.3.1查看中間層的輸出/194
10.3.2回調函數/195
10.4CNN和RNN的實現/198
第11章推薦繫統實戰
11.1問題建模/203
11.2數據預處理/206
11.2.1歸一化/206
11.2.2特征哈希/208
11.3模型探索/210
11.3.1基於共現的模型/210
11.3.2圖模型/211
11.3.3DeepFM/214
11.3.4DCN/219
11.4推薦服務/221
11.4.1遠程過程調用簡介/221
11.4.2gRPC的使用/223
11.4.3服務發現與負載均衡/226
第12章收集訓練數據
12.1日志的設計/229
12.2日志的傳輸/231
12.3日志的合並/238
12.4樣本的存儲/248
第13章分布式訓練
13.1參數服務器/250
13.2基於PS的優化算法/256
13.3在線學習/259
第14章A/B測試
14.1實驗分組/261
14.2指標監控/266
14.2.1指標的計算/266
14.2.2指標的上報與存儲/267
14.2.3指標的展現與監控/269
14.3實驗結果分析/272
實用性是本書的基本出發點,書中介紹了近年來在工業界被廣泛應用的機器學習算法,這些算法經受了時間的考驗,不但效果好而且使用方便。此外,本書也十分注重理論的深度和完整性,內容編排力求由淺入深、推理完整、前後連貫、自成體繫,先講統計學、矩陣、優化方法這些基礎知識,再介紹線性模型、概率圖模型、文本向量化算法、樹模型和深度學習。與大多數機器學習圖書不同,本書還介紹了算法周邊的一些工程架構及實現原理,比如如何實時地收集訓練樣本和監控算法指標、參數服務器的架構設計、做A/B測試的注意事項等。本書理論體繫完整,公式推導清晰,可作為機器學習初學者的自學用書。讀者無需深厚的專業知識,本科畢業的理工科學生都能看懂。另外由於本書與工業實踐結合得很緊密,所以也非常適合於從事算法相關工作的工程技術人員閱讀。