了得網圖書_統計挖掘與機器學習大數據預測建模和分析技術(原書第3版) 圖書

作者:(美)布魯斯·拉特納著鄭磊等譯

定價:149

出版社:機械工業出版社

出版日期:2021年09月01日

頁數:548

裝幀:平裝

ISBN:9787111689942

本書創造性地彙編了數據挖掘技術，將統計數據挖掘和機器學習數據挖掘進行了區分，對經典和現代統計方法框架進行了擴展，以用於預測建模和大數據分析。本書為數據挖掘領域新晉的數據科學家所面臨的共同問題提供了適當的解決方案，並側重於數據科學家的需求，提供了實用且強大、簡單而富有洞察力的量化技術，其中大部分使用了受新機器學習影響改進的“舊”統計方法。在這本暢銷書的新版裡，作者大幅修改並重新組織章節內容，新增了一些富有創意且用途廣泛的機器學習數據挖掘技術方面的內容。簡單而有針對性的量化處理方法使得本書在數等

●第3版前言
第2版前言
致謝
關於作者
第1章引論 1
1.1 個人計算機與統計學 1
1.2 統計學和數據分析 2
1.3 EDA簡介 3
1.4 EDA範式 4
1.5 EDA的弱點 5
1.6 小數據和大數據 5
1.6.1 數據規模特征 6
1.6.2 數據規模：個人觀點 7
1.7 數據挖掘範式 7
1.8 統計學和機器學習 8
1.9 統計數據挖掘 9
參考資料 9
第2章數據處理相關學科：統計學和數據科學 11
2.1 引言 11
2.2 背景 11
2.3 統計學與數據科學的比較 12
2.4 討論：統計學與數據科學的不同之處 18
2.5 本章小結 19
2.6 結語 19
參考資料 19
第3章變量評估的兩種基本數據挖掘方法 21
3.1 引言 21
3.2 相關繫數 21
3.3 散點圖 22
3.4 數據挖掘 24
3.4.1 示例3.1 24
3.4.2 示例3.2 24
3.5 平滑散點圖 25
3.6 一般關聯性檢驗 27
3.7 本章小結 28
參考資料 29
第4章用於評估成對變量的基於CHAID的數據挖掘方法 30
4.1 引言 30
4.2 散點圖 30
4.3 平滑散點圖 31
4.4 CHAID入門 32
4.5 用更平滑的散點圖進行基於CHAID的數據挖掘 33
4.6 本章小結 36
參考資料 37
第5章校直數據的簡單性和可取性對建模十分重要 38
5.1 引言 38
5.2 數據的直度和對稱度 38
5.3 數據挖掘是高級概念 39
5.4 相關繫數 39
5.5 （xx3，yy3）散點圖 40
5.6 挖掘（xx3，yy3）關繫 41
5.7 基於遺傳算法的數據挖掘如何處理數據 43
5.8 校直多個變量 43
5.9 本章小結 44
參考資料 44
第6章排序數據對稱化：提高數據預測能力的統計數據挖掘方法 45
6.1 引言 45
6.2 量度範圍 45
6.3 莖葉圖 47
6.4 箱線圖 47
6.5 排序數據對稱處理方法的圖示 47
6.5.1 示例1 48
6.5.2 示例2 50
6.6 本章小結 56
參考資料 56
第7章主成分分析：多變量評估的統計數據挖掘方法 57
7.1 引言 57
7.2 EDA重新表述範式 57
7.3 關鍵點 58
7.4 PCA基礎 58
7.5 示例詳解 58
7.6 PCA的代數特征 59
7.7 一個不常見示例 60
7.7.1 R素（X1，X2，X3，X4，X5，X6）主成分分析 61
7.7.2 R素（X1，X2，X3，X4，X5，X6）主成分分析結果 61
7.8 用PCA構造準交互變量 62
7.9 本章小結 66
第8章市場份額估算：一個特殊的數據挖掘案例 67
8.1 引言 67
8.2 背景 67
8.3 一個特殊的數據挖掘案例 68
8.4 構建RAL的YUM市場份額模型 69
8.4.1 市場份額模型的十分位分析 76
8.4.2 YUM_3mos市場份額模型的結論 76
8.5 本章小結 77
附錄8.A 生成 PROMO_Code啞變量 77
附錄8.B PROMO_Code啞變量的PCA 77
附錄8.C PROMO_Code啞變量上的邏輯斯諦回歸YUM_3mos 78
附錄8.D 生成YUM_3mos_wo_PROMO_CodeEff 78
附錄 8.E 將變量標準化為位於[0， 1]內 78
參考資料 79
第9章相關繫數在[-1,+1]內取值，是這樣嗎 80
9.1 引言 80
9.2 相關繫數的基礎知識 80
9.3 計算相關繫數 81
9.4 重新配對 82
9.5 計算經調整的相關繫數 84
9.6 重新配對的意義 84
9.7 本章小結 84
第10章邏輯斯諦回歸：回應建模方法 85
10.1 引言 85
10.2 邏輯斯諦回歸模型 86
10.2.1 示例 86
10.2.2 為LRM打分 87
10.3 案例分析 88
10.4 logit值和logit散點圖 89
10.5 校直數據的重要性 90
10.6 校直數據的重述 91
10.6.1 冪階梯法 91
10.6.2 突起規則 91
10.6.3 測量校直數據 92
10.7 校直示例數據 92
10.7.1 FD2_OPEN的重述 93
10.7.2 INVESTMENT的重述 94
10.8 在突起規則不適用的情況下選用的技術 95
10.8.1 擬合logit值散點圖 95
10.8.2 平滑預測值與實際值散點圖 96
10.9 MOS_OPEN的重述 96
10.10 評估變量的重要性 99
10.10.1 計算G統計量 99
10.10.2 單變量的重要性 100
10.10.3 變量子集合的重要性 100
10.10.4 不同變量子集合的重要性比較 100
10.11 案例的重要變量 101
10.12 變量的相對重要性 102
10.13 案例變量的很好子集合 103
10.14 模型預測準確性的可視化指標 104
10.14.1 得分組的平滑殘差散點圖 104
10.14.2 基於十分位組的平滑預測與實際值散點圖 106
10.14.3 基於得分組的平滑預測與實際值散點圖 108
10.15 評估數據挖掘工作 110
10.15.1 基於得分組的平滑殘差分布圖：EDA模型與非EDA模型對比 110
10.15.2 基於十分位組的平滑預測與實際值散點圖：EDA模型與非EDA模型對比 112
10.15.3 基於得分組的平滑預測與實際值散點圖：EDA模型與非EDA模型對比 113
10.15.4 數據挖掘工作小結 113
10.16 平滑一個類別變量 114
10.16.1 用CHAID平滑FD_TYPE 115
10.16.2 CH_FTY_1和CH_FTY_2的重要性 116
10.17 本案例的其他數據挖掘工作 117
10.17.1 基於得分組的平滑殘差散點圖：4變量EDA模型與3變量EDA模型對比 117
10.17.2 基於十分位組的平滑預測與實際值散點圖：4變量EDA模型與3變量EDA模型對比 119
10.17.3 基於得分組的平滑預測與實際值散點圖：4變量EDA模型與3變量EDA模型對比 120
10.17.4 其他數據挖掘工作的總結 121
10.18 本章小結 121
第11章無抽樣調研數據預測錢包份額 122
11.1 引言 122
11.2 背景 122
11.3 SOW_q計算過程 123
11.3.1 有趣的問題 124
11.3.2 金額和總金額 124
11.4 為AMPECS構建SOW_q模型 126
11.5 SOW_q模型的定義 127
11.6 本章小結 129
附錄11.A 六步法 129
附錄11.B 七步法 131
參考資料 134
第12章普通回歸：利潤建模的強大工具 135
12.1 引言 135
12.2 普通回歸模型 135
12.2.1 說明 135
12.2.2 為OLS利潤模型評分 136
12.3 迷你案例 137
12.3.1 校直迷你案例的數據 137
12.3.2 平滑預測值散點圖與實際值散點圖 141
12.3.3 評估變量的重要性 142
12.4 迷你案例的重要變量 144
12.4.1 變量的相對重要性 144
12.4.2 選擇很好子集合 144
12.5 案例變量的很好子集合 145
12.5.1 用gINCOME和AGE構建PROFIT模型 146
12.5.2 很好PROFIT模型 148
12.6 抑制變量AGE 148
12.7 本章小結 149
參考資料 149
第13章回歸變量選擇方法：可忽略的問題和重要解決方案 150
13.1 引言 150
13.2 背景 150
13.3 常用的變量選擇方法 152
13.4 分步法的缺陷 153
13.5 改進的變量選擇方法 154
13.6 本章小結 155
參考資料 155
第14章用CHAID解讀邏輯斯諦回歸模型 157
14.1 引言 157
14.2 邏輯斯諦回歸模型 157
14.3 數據庫營銷回應模型案例研究 158
14.4 CHAID 159
14.5 多變量CHAID樹 161
14.6 CHAID市場細分 165
14.7 CHAID樹狀圖 165
14.8 本章小結 168
第15章回歸繫數的重要性 169
15.1 引言 169
15.2 普通回歸模型 169
15.3 四個問題 169
15.4 重要預測變量 170
15.5 p值與大數據 171
15.6 回到問題1 171
15.7 預測變量對預測結果的影響 171
15.8 提示 172
15.9 回到問題2 173
15.10 按照對預測的影響對預測變量排序 173
15.11 回到問題3 174
15.12 回到問題4 175
15.13 本章小結 175
參考資料 176
第16章相關繫數均值：評估預測模型和預測變量重要性的統計數據挖掘指標 177
16.1 引言 177
16.2 背景 177
16.3 可靠度和效度的區別 178
16.4 可靠度和效度的關繫 178
16.5 平均相關繫數 179
16.5.1 圖示LTV5模型的平均相關繫數 179
16.5.2 LTV5模型的平均相關繫數 183
16.5.3 LTV5模型比較 183
16.6 本章小結 184
參考資料 184
第17章交互變量指定CHAID模型 185
17.1 引言 185
17.2 交互變量 185
17.3 交互變量建模策略 185
17.4 基於特殊點的策略 186
17.5 交互變量的回應模型示例 186
17.6 用CHAID找出關繫 187
17.7 指定模型的CHAID 188
17.8 探索 191
17.9 數據庫含義 191
17.10 本章小結 192
參考資料 193
第18章市場細分：邏輯斯諦回歸建模 194
18.1 引言 194
18.2 二值邏輯斯諦回歸 194
18.3 多分類邏輯斯諦回歸模型 195
18.4 使用PLR建模 196
18.5 市場細分的分類模型 196
18.5.1 移動電話用戶調研 196
18.5.2 CHAID分析 197
18.5.3 CHAID樹狀圖 199
18.5.4 市場細分分類模型 201
18.6 本章小結 202
第19章市場細分：時間序列數據LCA 203
19.1 引言 203
19.2 背景 203
19.2.1 k均值聚類分析 203
19.2.2 主成分分析 204
19.2.3 因素分析 204
19.2.4 LCA與FA圖示 205
19.3 LCA 206
19.4 LCA與k均值聚類分析 208
19.5 用LCA對時間序列數據進行市場細分 210
19.5.1 目標 210
19.5.2 很好LCA模型 212
19.6 本章小結 216
附錄19.A 建立UNITS的趨勢3 217
附錄19.B -ZER-NEG建立趨勢4 219
參考資料 220
第20章市場細分：理解細分群體的便捷途徑 221
20.1 引言 221
20.2 背景 221
20.3 示例 221
20.4 解讀各個細分市場 222
20.5 本章小結 223
附錄 20.A SAMPLE數據集 223
附錄 20.B 分類變量的均值 224
附錄 20.C 指數化數據 224
參考資料 225
第21章統計回歸模型：理解模型的簡單方法 226
21.1 引言 226
21.2 背景 226
21.3 用於邏輯斯諦回歸模型的EZ法 227
21.4 邏輯斯諦回歸的EZ法示例的討論 228
21.5 本章小結 231
附錄21.A 基於M65分布的X10～X14均值 231
附錄21.B 建立10個數據集（每個十分位區間一個） 232
附錄21.C 十分位的指數化信息 233
第22章 CHAID：填充缺失值的方法 238
22.1 引言 238
22.2 數據缺失問題 238
22.3 與數據缺失相關的假設 240
22.4 CHAID填充法 241
22.5 示例 242
22.5.1 連續變量的CHAID均值填充 242
22.5.2 面向連續變量的大量缺失值CHAID均值填充 243
22.5.3 LIFE_DOL的回歸樹填充 244
22.6 CHAID面向單個類別變量的優選似然類別填充 246
22.6.1 填充性別變量的CHAID優選似然類別法 246
22.6.2 填充性別變量的分類樹法 248
22.7 本章小結 250
參考資料 251
第23章大數據建模 252
23.1 引言 252
23.2 背景 252
23.3 CCA-PCA分析法：具體案例 253
23.4 用完整數據集構建回應模型 255
23.5 用不完整數據集構建回應模型 256
23.6 基於PCA-BICA數據構建回應模型 258
23.6.1 基於主成分分析並經二值轉換的不完整數據回應模型分析結果 259
23.6.2 綜合CCA與PCA-BICA的回應模型結果 259
23.7 本章小結 260
附錄23.A NMISS 261
附錄23.B 測試完整樣本分析法的樣本大小 261
附錄23.C CCA-CIA數據集 261
附錄23.D 1和0 262
參考資料 262
第24章藝術、科學、數字和詩歌 263
24.1 引言 263
24.2 零和一 264
24.3 思考的力量 264
24.4 統計黃金法則：衡量統計實踐的藝術和科學 266
24.5 本章小結 268
參考資料 268
第25章識別很好客戶：描述性、預測性和相似性描述 269
25.1 引言 269
25.2 相關概念 269
25.3 對有缺陷的客戶進行描述 269
25.4 清晰有效的客戶定位 270
25.5 預測性分析 272
25.6 連續變量樹狀圖 275
25.7 相似人群擴展分析 277
25.8 相似樹狀圖的特點 279
25.9 本章小結 279
第26章營銷模型評估 281
26.1 引言 281
26.2 回應模型的準確度 281
26.3 利潤模型的準確度 282
26.4 回應模型的十分位分析與累積提升度 283
26.5 利潤模型的十分位分析與累積提升度 284
26.6 回應模型的準確度 286
26.7 利潤模型的準確度 287
26.8 回應模型和利潤模型的分離性 288
26.9 累積提升度、HL/SWMAD指數以及離散繫數的應用指南 288
26.10 本章小結 289
第27章十分位分析：視角與效果 290
27.1 引言 290
27.2 背景 290
27.3 性能評估：回應模型與隨機選擇 293
27.4 性能評估：十分位分析 293
27.5 本章小結 298
附錄 27.A 計算準確度收益：模型與隨機 298
附錄27.B 計算準確度收益：模型與隨機 300
附錄27.C 回應模型PROB_est值的十分位分析 301
附錄27.D 2×2 十分位表 302
參考資料 305
第28章 T-C淨提升度模型：評估試驗組與對照組的營銷效果 306
28.1 引言 306
28.2 背景 306
28.3 試驗營銷與對照營銷回應模型的建模 308
28.3.1 試驗組回應模型建模 308
28.3.2 對照組回應模型建模 310
28.4 T-C淨提升度模型 311
28.5 本章小結 315
附錄28.A 用Xs做TEST Logistic 315
附錄28.B 用Xs做CONTROL Logistic 318
附錄28.C 合並計算 320
附錄28.D T-C淨提升度十分位分析 321
參考資料 325
第29章自助法在營銷中的應用：一種新的模型驗證方法 327
29.1 引言 327
29.2 傳統模型驗證 327
29.3 示例 327
29.4 三個問題 329
29.5 自助法 329
29.6 如何使用自助法 330
29.7 自助法十分位分析驗證 332
29.8 其他問題 333
29.9 用自助法評估模型性能 334
29.10 用自助法評估模型效力 337
29.11 本章小結 338
參考資料 339
第30章用自助法驗證邏輯斯諦回歸模型 340
30.1 引言 340
30.2 邏輯斯諦回歸模型 340
30.3 如何用自助法進行驗證 340
30.4 本章小結 341
參考資料 341
第31章營銷模型可視化：用數據深度挖掘模型 342
31.1 引言 342
31.2 圖形簡史 342
31.3 星形圖基礎 343
31.4 單變量星形圖 345
31.5 多變量星形圖 346
31.6 剖面曲線法 346
31.6.1 剖面曲線基礎 347
31.6.2 剖面分析 347
31.7 示例 348
31.7.1 回應模型的剖面曲線 349
31.7.2 十分位組剖面曲線 351
31.8 本章小結 353
附錄31.A 十分位各人口變量的星形圖 353
附錄31.B 人口變量各十分位的星形圖 355
附錄31.C 剖面曲線：各十分位 358
參考資料 360
第32章預測貢獻繫數：預測重要性的度量 361
32.1 引言 361
32.2 背景 361
32.3 判定規則示例 362
32.4 預測貢獻繫數 364
32.5 預測貢獻繫數的計算 365
32.6 預測貢獻繫數的另一示例 366
32.7 本章小結 369
參考資料 369
第33章建模是藝術、科學與詩的結合 370
33.1 引言 370
33.2 靈感來源於莎士比亞的詩 370
33.3 解讀 371
33.4 本章小結 373
參考資料 373
第34章獻給數據狂的數據分析12步法 375
34.1 引言 375
34.2 背景 375
34.3 步驟 376
34.4 標記 376
34.5 本章小結 377
附錄34.A 數據集IN 377
附錄34.B Samsize+ 378
附錄34.C 可粘貼副本 378
附錄34.D 缺失數據 378
參考資料 379
第35章遺傳回歸模型與統計回歸模型 380
35.1 引言 380
35.2 背景 380
35.3 目標 380
35.4 GenIQ模型：遺傳邏輯斯諦回歸 381
35.5 遺傳編程法的發展 383
35.6 GenIQ模型的目標及重要特性 384
35.7 GenIQ模型工作原理 385
35.8 本章小結 387
參考資料 388
第36章數據重用：GenIQ模型的強大數據挖掘技術 389
36.1 引言 389
36.2 數據重用 389
36.3 示例 389
36.3.1 GenIQ利潤模型 390
36.3.2 數據重用變量簡介 391
36.3.3 數據重用變量GenIQvar_1和GenIQvar_2 392
36.4 調整數據重用定義：GenIQ強化版回歸模型 393
36.5 本章小結 395
第37章數據挖掘技術——離群值的調整 396
37.1 引言 396
37.2 背景 396
37.3 離群值的調整 397
37.3.1 調整離群值的示例 397
37.3.2 GenIQ模型在調整離群值中的作用 399
37.4 本章小結 399
參考資料 399
第38章過擬合的全新解決方案 400
38.1 引言 400
38.2 背景 400
38.3 利用GenIQ模型解決過擬合問題 402
38.3.1 RANDOM_SPLIT的GenIQ模型 403
38.3.2 RANDOM_SPLIT的GenIQ模型十分位分析 404
38.3.3 類N層分析 405
38.4 本章小結 406
第39章回顧：為何校直數據如此重要 407
39.1 引言 407
39.2 重申校直數據的重要性 407
39.3 回顧：重述收入變量 408
39.4 回顧：挖掘（xx3，yy3）關繫 409
39.5 本章小結 410
第40章 GenIQ 模型的定義與應用 411
40.1 引言 411
40.2 何為優化 411
40.3 何為遺傳建模 412
40.4 遺傳建模示例 412
40.4.1 復制 414
40.4.2 交叉 414
40.4.3 突變 415
40.5 控制遺傳模型運行的參數 416
40.6 遺傳建模的優勢與 416
40.7 營銷建模的目標 416
40.8 GenIQ回應模型 417
40.9 GenIQ利潤模型 417
40.10 案例研究：回應模型 418
40.11 案例研究：利潤模型 420
40.12 本章小結 423
參考資料 423
第41章如何為營銷模型選擇很好變量 424
41.1 引言 424
41.2 背景 424
41.3 變量選擇方法的缺陷 425
41.4 營銷模型的目標 427
41.5 用GenIQ進行變量選擇 427
41.5.1 GenIQ建模 429
41.5.2 GenIQ模型結構的辨別 430
41.5.3 GenIQ模型變量選擇 433
41.6 邏輯斯諦回歸模型的非線性替代方法 434
41.7 本章小結 436
參考資料 437
第42章解讀無繫數模型 438
42.1 引言 438
42.2 線性回歸繫數 438
42.2.1 簡單普通回歸模型示例 439
42.2.2 簡單邏輯斯諦回歸模型示例 439
42.3 簡單回歸模型的準回歸繫數 440
42.3.1 簡單回歸模型的準回歸繫數示例 440
42.3.2 簡單邏輯斯諦回歸模型的準回歸繫數示例 440
42.3.3 非線性預測中的準回歸繫數示例 441
42.4 偏準回歸繫數 443
42.4.1 普適型偏回歸繫數的計算方法 443
42.4.邏輯斯諦回歸模型示例 444
42.5 無繫數模型的準回歸繫數 449
42.6 本章小結 454
第43章文本挖掘：入門、示例及TXTDM軟件 455
43.1 引言 455
43.2 背景 455
43.3 文本挖掘入門 457
43.4 與文本相關的統計量 458
43.5 文本轉換中的二進制數據集 459
43.6 TXTDM文本挖掘程序示例 459
43.7 對文本挖掘模型GenIQ_FAVORED的分析 467
43.7.1 用文字描述更喜歡GenIQ模型的受訪者 468
43.7.2 用文字描述更喜歡其他兩種模型的受訪者 468
43.8 對TXTDM程序加權 469
43.9 文檔聚類 469
43.10 本章小結 475
附錄43.A 加載Corpus TEXT數據集 476
附錄43.B 創建二進制詞的中間步驟 476
附錄43.C 創建最終的二進制詞 477
附錄43.D 計算統計量TF、DF、NUM_DOCS和N 478
附錄43.E 將GenIQ_FAVORED加入WORDS數據集 479
附錄43.F GenIQ_FAVORED的邏輯斯諦分析模型 480
附錄43.G 計算字詞之間的關繫數均值 481
附錄43.H 創建TF-IDF 482
附錄43.I 用WORDS和TF-IDF的Concat計算WORD_TF-IDF權重 484
附錄43.J WORD_RESP與WORD_TF-IDF RESP 485
附錄43.K 詞干提取 486
附錄43.L WORD乘以TF-IDF 486
附錄43.M 用剖面的字詞對數據集賦權 487
附錄43.N 兩類法VARCLUS 487
附錄43.O 雙集群法VARCLUS 488
附錄43.P 集群1字詞的指向 489
附錄43.Q 比較GenIQ模型和隨機模型的表現 490
附錄43.R 比較自由集群模型和隨機模型的表現 491
參考資料 491
第44章一些我比較喜歡的統計子程序 492
44.1 子程序列表 492
44.2 第5章的平滑散點圖（平均值和中位數）—X1和X2 492
44.3 第10章的平滑散點圖—logit值和概率 496
44.4 第16章的平均相關繫數—變量Var1、Var2、Var3 499
44.5 第29章的自助法十分位分析—數據來自表23.4（表44.2） 500
44.6 第42章的H幅度共有區域 508
44.7 選項排序、垂直輸出的相關性分析 510
44.8 回應模型十分位分析 511
44.9 利潤模型十分位分析 515
44.10 平滑時間序列分析數據（三變量的動態中位數） 518
44.11 大量高偏度變量的分析 522
譯後記 524

本書創造性地彙編了數據挖掘技術，將統計數據挖掘和機器學習數據挖掘進行了區分，對經典和現代統計方法框架進行了擴展，以用於預測建模和大數據分析。本書在第2版的基礎上新增了13章，內容涵蓋數據科學發展歷程、市場份額估算、無抽樣調研數據預測錢包份額、潛在市場細分、利用缺失數據構建統計回歸模型、十分位分析評估數據的預測能力，以及一個無須精通自然語言處理就能使用的文本挖掘工具。本書適合數據挖掘從業者以及對機器學習數據挖掘感興趣的人閱讀。

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】