作 者:(美)彼得·布魯斯,(美)安德魯·布魯斯,(德)彼得·格德克 著 陳光欣 譯
定 價:99.8
出 版 社:人民郵電出版社
出版日期:2021年10月01日
頁 數:288
裝 幀:平裝
ISBN:9787115569028
1.以通俗易懂的方式,從數據科學的角度繫統的闡釋重要且實用的統計學概念,介紹如何將各種統計方法應用於數據科學中;2.運用清晰的解釋和豐富的示例,將實用的統計學術語與數據挖掘實踐相結合,適用於數據科學的入門初學者;3.相比於上一版,本書新增了更多Python和R語言示例,讀者可以更深入的了解如何在數據科學項目中正確運用各種統計方法;4.通過本書,你將掌握以下知識:為什麼探索性數據分析是開啟數據科學任務的關鍵一步隨機抽樣如何降低偏差並提高數據集的質量實驗設計原則如何針對問題生成確定性答等
●第1章探索性數據分析1
1.1結構化數據的要素2
1.2矩形數據4
1.2.1數據框和索引5
1.2.2非矩形數據結構6
1.2.3擴展閱讀6
1.3位置估計6
1.3.1均值8
1.3.2中位數和健壯的估計9
1.3.3示例:人口和謀殺率的位置估計10
1.3.4擴展閱讀11
1.4變異性估計11
1.4.1標準差以及相關估計13
1.4.2基於百分位數的估計14
1.4.3示例:美國各州人口數量的變異性估計15
1.4.4擴展閱讀16
1.5探索數據分布16
1.5.1百分位數與箱線圖17
1.5.2頻數表和直方圖18
1.5.3密度圖和密度估計20
1.5.4擴展閱讀22
1.6數據和分類型數據22
1.6.1眾數24
1.6.2期望值24
1.6.3概率25
1.6.4擴展閱讀25
1.7相關性25
1.7.1散點圖28
1.7.2擴展閱讀29
1.8探索兩個及以上的變量29
1.8.1六邊形分箱圖和等高線圖(繪制數值型數據之間的關繫)30
1.8.2兩個分類變量32
1.8.3分類型數據和數值型數據33
1.8.4多個變量的可視化35
1.8.5擴展閱讀37
1.9小結37
第2章數據與抽樣分布39
2.1隨機抽樣和樣本偏差40
2.1.1偏差42
2.1.2隨機選擇43
2.1.3數量和質量:什麼時候數量更重要44
2.1.4樣本均值與總體均值45
2.1.5擴展閱讀45
2.2選擇偏差45
2.2.1均值回歸46
2.2.2擴展閱讀48
2.3統計量的抽樣分布48
2.3.1中心極限定理51
2.3.2標準誤差51
2.3.3擴展閱讀52
2.4Bootstrap方法52
2.4.1重抽樣與Bootstrap方法55
2.4.2擴展閱讀55
2.5置信區間55
2.6正態分布57
2.7長尾分布60
2.8學生的t分布62
2.9二項分布64
2.10卡方分布67
2.11F分布68
2.12泊松及其相關分布68
2.12.1泊松分布69
2.12.2指數分布69
2.12.3估計故障率70
2.12.4韋布爾分布70
2.12.5擴展閱讀71
2.13小結71
第3章統計實驗與顯著性檢驗72
3.1A/B測試73
3.1.1為什麼要有對照組75
3.1.2為什麼隻有A/B,沒有C/D76
3.1.3擴展閱讀77
3.2假設檢驗77
3.2.1零假設78
3.2.2備擇假設79
3.2.3單向假設檢驗與雙向假設檢驗79
3.2.4擴展閱讀80
3.3重抽樣80
3.3.1置換檢驗80
3.3.2示例:Web黏性81
3.3.3窮盡置換檢驗和Bootstrap置換檢驗84
3.3.4置換檢驗:數據科學的底線85
3.3.5擴展閱讀85
3.4統計顯著性和p值85
3.4.1p值88
3.4.2α88
3.4.3第一類錯誤和第二類錯誤90
3.4.4數據科學與p值9
3.4.5擴展閱讀90
3.5t檢驗91
3.6多重檢驗92
3.7自由度95
3.8ANOVA97
3.8.1F統計量99
3.8.2雙向ANOVA101
3.8.3擴展閱讀101
3.9卡方檢驗101
3.9.1卡方檢驗:一種重抽樣方法102
3.9.2卡方檢驗:統計理論104
3.9.3費希爾準確檢驗105
3.9.4與數據科學的關聯107
3.9.5擴展閱讀107
3.10多臂老虎機算法107
3.11檢驗力與樣本容量110
3.11.1樣本容量111
3.11.2擴展閱讀113
3.12小結114
第4章回歸與預測115
4.1簡單線性回歸115
4.1.1回歸方程117
4.1.2擬合值與殘差119
4.1.3最小二乘法120
4.1.4預測與解釋(分析)121
4.1.5擴展閱讀121
4線性回歸122
4.2.1示例:金縣房屋數據123
4.2.2模型評估124
4.2.3交叉驗證126
4.2.4模型選擇與逐步回歸127
4.2.5加權回歸130
4.2.6擴展閱讀131
4.3使用回歸進行預測131
4.3.1外推風險131
4.3.2置信區間與預測區間132
4.4回歸中的因子變量133
4.4.1虛擬變量的表示方法134
4.4.2多水平因子變量136
4.4.3有序因子變量138
4.5解釋回歸方程138
4.5.1相關的預測變量139
4.5.2多重共線性140
4.5.3混淆變量141
4.5.4交互作用與主效應142
4.6回歸診斷143
4.6.1離群點144
4.6.2強影響值146
4.6.3異方差、非正態與相關誤差148
4.6.4偏殘差圖與非線性151
4.7多項式回歸與樣條回歸152
4.7.1多項式回歸153
4.7.2樣條回歸155
4.7.3廣義可加模型156
4.7.4擴展閱讀158
4.8小結158
第5章分類159
5.1樸素貝葉斯算法160
5.1.1為什麼進行準確貝葉斯分類是不現實的161
5.1.2樸素貝葉斯問題求解161
5.1.3數值型預測變量164
5.1.4擴展閱讀164
5.2判別分析164
5.2.1協方差矩陣165
5.2.2費希爾線性判別分析166
5.2.3一個簡單的例子166
5.2.4擴展閱讀169
5.3邏輯回歸169
5.3.1邏輯響應函數和logit函數170
5.3.2邏輯回歸和廣義線性模型171
5.3.3廣義線性模型172
5.3.4邏輯回歸的預測值173
5.3.5繫數和優勢比的解釋174
5.3.6線性回歸與邏輯回歸:共性與差異175
5.3.7評估模型176
5.3.8擴展閱讀179
5.4分類模型評估179
5.4.1混淆矩陣180
5.4.2稀有類問題182
5.4.3準確度、召回率和特異度182
5.4.4ROC曲線183
5.4.5AUC185
5.4.6提升度186
5.4.7擴展閱讀187
5.5非平衡數據的處理策略187
5.5.1欠采樣188
5.5.2過采樣與上(下)加權189
5.5.3數據生成190
5.5.4基於成本的分類191
5.5.5探索預測結果191
5.5.6擴展閱讀192
5.6小結193
第6章統計機器學習194
6.1KNN195
6.1.1一個小例子:預測貸款違約196
6.1.2距離的度量198
6.1.3獨熱編碼198
6.1.4標準化(歸一化,z分數)199
6.1.5K的選擇201
6.1.6KNN作為特征引擎202
6.2樹模型204
6.2.1一個簡單的例子205
6.2.2遞歸分割算法207
6.2.3測量同質性或不純度208
6.2.4讓樹停止生長209
6.2.5預測連續的值211
6.2.6如何使用樹211
6.2.7擴展閱讀212
6.3裝袋法與隨機森林212
6.3.1裝袋法213
6.3.2隨機森林213
6.3.3變量的重要性217
6.3.4超參數220
6.4提升方法221
6.4.1提升算法222
6.4.2XGBoost222
6.4.3正則化:避免過擬合225
6.4.4超參數與交叉驗證228
6.5小結231
第7章無監督學習232
7.1主成分分析233
7.1.1一個簡單的例子234
7.1.2計算主成分236
7.1.3解釋主成分236
7.1.4對應分析239
7.1.5擴展閱讀240
7.2K-均值聚類241
7.2.1一個簡單的例子241
7.2.2K-均值算法244
7.2.3簇的解釋245
7.2.4選擇簇的數量247
7.3層次聚類248
7.3.1一個簡單的例子249
7.3.2樹狀圖250
7.3.3凝聚算法251
7.3.4測量相異度252
7.4基於模型的聚類253
7.4正態分布253
7.4.2混合正態分布254
7.4.3選擇簇的數量257
7.4.4擴展閱讀259
7.5數據縮放與分類變量259
7.5.1縮放變量260
7.5.2主導變量261
7.5.3分類數據和Gower距離263
7.5.4混合數據聚類中的問題265
7.6小結266
擴展閱讀267
作者介紹269
封面介紹269
本書解釋了數據科學中至關重要的統計學概念,並介紹了如何將各種統計方法應用於數據科學。作者以通俗易懂、分門別類的方式,闡釋了統計學中與數據科學相關的關鍵概念,並解釋了各統計學概念在數據科學中的重要性及有用程度。第2版在第1版的基礎上加入了更多以Python和R編寫的示例,更清楚地闡釋了如何將統計方法用於數據科學。本書適合對R和Python有一定了解的數據科學從業者閱讀。
(美)彼得·布魯斯,(美)安德魯·布魯斯,(德)彼得·格德克 著 陳光欣 譯
彼得·布魯斯是www.statistics.com統計教育研究所的主席和創始人。他撰寫了多篇期刊文章,並且是重采樣統計軟件的開發者。他是《統計分析導論:基於重采樣角度》一書的作者以及《商業數據挖掘:概念、技術和應用程序XLMiner(第三版)》的合著者之一。