●第1章 引言
1.1 作為科學的統計
1.1.1 統計應該是科學,但發展成兩種文化
1.1.2 從模型驅動主導的現實轉向數據驅動的未來
1.1.3 關於統計顯著性和p值
1.2 數據分析的實踐
1.3 數據和變量
1.3.1 變量和觀測值
1.3.2 變量的種類
1.3.3 有監督學習:具有目標變量的預測模型
1.3.4 無監督學習:沒有目標變量,為探索數據間結構的模型
1.4 R軟件及Python軟件
第一部分 經典統計篇
第2章 經典線性模型
2.1 簡單最小二乘線性回歸回顧
2.1.1 基於數據的最小二乘線性回歸
2.1.2 傳統統計模型驅動的線性模型
2.1.3 線性最小二乘回歸的擬合
2.1.4 線性最小二乘回歸的預測及交叉驗證
2.1.5 對例2.1回歸的6個模型交叉驗證比較
2.2 線性模型沒有“可解釋性”
2.2.1 例2.1的多自變量和單自變量線性回歸繫數比較
2.2.2 隨機生成的獨立變量數據回歸的多自變量和單自變量線性回歸繫數比較
2.3 “多重共線性”及“線性相關”在數學及統計學中的不同含義
2.3.1 矩陣的秩以及在數學及統計學中“多重共線性”的不同含義
2.3.2 線性回歸中統計多重共線性的度量
2.4 傳統統計對自變量統計多重共線性的應對方法
2.4.1 嶺回歸
2.4.2 lasso回歸
2.4.3 偏最小二乘回歸
2.5 關於分類自變量的截距效應
2.5.1 直接用軟件函數計算參數估計
2.5.2 把分類化後用式(2.1.4)計算參數估計
2.6 損失函數及分位數回歸簡介
2.7 生存分析數據的Cox回歸模型
2.8 本章的Python代碼
2.8.1 2.1節的代碼
2.8.2 2.2節的代碼
2.8.3 2.4節的代碼
2.8.4 2.6節的代碼
2.8.5 2.7節的代碼
第3章 廣義線性模型方法
3.1 廣義線性模型簡單回顧
3.1.1 作為特例的正態線性模型
3.1.2 一般情況
3.2 logistic回歸
3.2.1 logistic回歸模型參數估計
3.2.2 logistic模型的預測
3.2.3 閥值的選擇及ROC曲線
3.2.4 例3.1數據的logistic方法和決策樹分類的交叉驗證比較
3.3 多項logit模型
3.3.1 多項logit模型回顧
3.3.2 多項logit模型對簡單數據的擬合
3.3.3 例3.2數據的多項logit方法和機器學習分類方法的交叉驗證比較
3.3.4 多項logit對嵌套數據的處理
3.3.5 例3.3數據的多項logit方法和機器學習分類方法的交叉驗證比較
……
數據主導的學習方式有助於讀者理解數據科學的本質,讀者可以通過分析數據學會多種統計方法的應用。本書以數據形式為導向,對應不同的數據形式介紹可能使用的一些統計方法。這些統計方法可能屬於不同的模型和統計方向,但隻要適用於同一類數據,本書就盡量都予以介紹,以此啟發讀者探索及創新。 本書初版以來,在廣大讀者的支持和鼓勵下,10年間不斷更新。第4版在第3版的基礎上做了增補及修正,並且重新安排了部分章節。本書始終堅持以下特色: 用實際數據做案例,這些數據都是真實的,有理論及應用方面的背景,而且能從網上下載。 書中所有結論都可以通過Python與R軟件得出,並給出所有例子的代碼。 沒有太多數學公式,但能讓讀者直觀理解各種方法的含義。 宗旨是訓練處理不同數據的動手能力,面不是面面俱到地告知所有細節。 本書適合用作統計學、應用統計學、經濟學、數學、應用數學、精算、環境、計量經濟學、生物醫學等專業本等