第1章 成功之路1
1.1 流程1
1.2 業務理解2
1.2.1 確定業務目標3
1.2.2 現狀評估4
1.2.3 確定分析目標4
1.2.4 建立項目計劃4
1.3 數據理解4
1.4 數據準備5
1.5 建模5
1.6 評價6
1.7 部署6
1.8 算法流程圖7
1.9 小結10
第 2章 線性回歸:機器學習基礎技術11
2.1 單變量回歸11
2.2 多變量線性回歸18
2.2.1 業務理解18
2.2.2 數據理解和數據準備18
2.2.3 模型構建與模型評價21
2.3 線性模型中的其他問題30
2.3.1 定性特征30
2.3.2 交互項32
2.4 小結34
第3章 邏輯斯蒂回歸與判別分析35
3.1 分類方法與線性回歸35
3.2 邏輯斯蒂回歸36
3.2.1 業務理解36
3.2.2 數據理解和數據準備37
3.2.3 模型構建與模型評價41
3.3 判別分析概述46
3.自適應回歸樣條方法50
3.5 模型選擇54
3.6 小結57
第4章 線性模型中的高 級特征選擇技術58
4.1 正則化簡介58
4.1.1 嶺回歸59
4.1.2 LASSO59
4.1.3 彈性網絡60
4.2 商業案例60
4.2.1 業務理解60
4.2.2 數據理解和數據準備60
4.3 模型構建與模型評價65
4.3.1 * 優子集65
4.3.2 嶺回歸68
4.3.3 LASSO71
4.3.4 彈性網絡73
4.3.5 使用glmnet進行交叉驗證76
4.4 模型選擇78
4.5 正則化與分類問題78
4.6 小結81
第5章 更多分類技術:K-* 近鄰與
支持向量機82
5.1 K-* 近鄰82
5.2 支持向量機84
5.3 商業案例86
5.3.1 業務理解86
5.3.2 數據理解和數據準備87
5.3.3 模型構建與模型評價92
5.3.4 模型選擇98
5.4 SVM中的特征選擇100
5.5 小結101
第6章 分類回歸樹103
6.1 本章技術概述103
6.1.1 回歸樹104
6.1.2 分類樹104
6.1.3 隨機森林105
6.1.4 梯度提升106
6.2 商業案例106
6.2.1 模型構建與模型評價107
6.2.2 模型選擇121
6.2.3 使用隨機森林進行特征選擇121
6.3 小結123
第7章 神經網絡與深度學習124
7.1 神經網絡介紹124
7.2 深度學習簡介128
深度學習資源與高 級方法130
7.3 業務理解131
7.4 數據理解和數據準備132
7.5 模型構建與模型評價136
7.6 深度學習示例139
7.6.1 H2O背景介紹139
7.6.2 將數據上載到H2O平臺140
7.6.3 建立訓練數據集和測試
數據集141
7.6.4 模型構建142
7.7 小結146
第8章 聚類分析147
8.1 層次聚類148
8.2 K-均值聚類149
8.3 果瓦繫數與圍繞中心的劃分150
8.3.1 果瓦繫數150
8.3.2 PAM151
8.4 隨機森林151
8.5 業務理解152
8.6 數據理解與數據準備152
8.7 模型構建與模型評價155
8.7.1 層次聚類155
8.7.2 K-均值聚類162
8.7.3 果瓦繫數和PAM165
8.7.4 隨機森林與PAM167
8.8 小結168
第9章 主成分分析169
9.1 主成分簡介170
9.2 業務理解173
9.3 模型構建與模型評價176
9.3.1 主成分抽取176
9.3.2 正交旋轉與解釋177
9.3.3 根據主成分建立因子得分178
9.3.4 回歸分析178
9.4 小結184
* 10章 購物籃分析、推薦引擎與
序列分析185
10.1 購物籃分析簡介186
10.2 業務理解187
10.3 數據理解和數據準備187
10.4 模型構建與模型評價189
10.5 推薦引擎簡介192
10.5.1 基於用戶的協同過濾193
10.5.2 基於項目的協同過濾194
10.5.3 奇異值分解和主成分分析194
10.6 推薦繫統的業務理解198
10.7 推薦繫統的數據理解與數據準備198
10.8 推薦繫統的建模與評價200
10.9 序列數據分析208
10.10 小結214
* 11章 創建集成多類分類215
11.1 集成模型215
11.2 業務理解與數據理解216
11.3 模型評價與模型選擇217
11.4 多類分類219
11.5 業務理解與數據理解220
11.6 模型評價與模型選擇223
11.6.1 隨機森林224
11.6.2 嶺回歸225
11.7 MLR集成模型226
11.8 小結228
* 12章 時間序列與因果關繫229
12.1 單變量時間序列分析229
12.2 業務理解235
12.3 模型構建與模型評價240
12.3.1 單變量時間序列預測240
12.3.2 檢查因果關繫243
12.4 小結249
* 13章 文本挖掘250
13.1 文本挖掘框架與方法250
13.2 主題模型252
13.3 業務理解254
13.4 模型構建與模型評價257
13.4.1 詞頻分析與主題模型257
13.4.2 其他定量分析261
13.5 小結267
* 14章 在雲上使用R語言268
14.1 創建AWS賬戶269
14.1.1 啟動虛擬機270
14.1.2 啟動Rstudio272
14.2 小結274
附錄A R語言基礎275