●前言
第1章 機器學習入門
本書使用的庫
用pip安裝庫
用conda安裝庫
第2章 機器學習流程概覽
第3章 數據分類工作流:泰坦尼克號數據集
項目布局建議
導入
提出問題
數據術語
獲取數據
清洗數據
創建特征
數據采樣
數據插值
規範數據
重構
基準模型
不同算法族
模型堆疊
建模
評估模型
優化模型
混淆矩陣
ROC曲線
學習曲線
部署模型
第4章 數據缺失
檢查數據缺失情況
刪除缺數據的行或列
插值
添加標識列
第5章 清洗數據
處理列名
替換缺失值
第6章 探索數據
數據大小
彙總統計
直方圖
散點圖
Joint Plot圖
Pair Grid圖
箱形圖和小提琴圖
比較兩個序數型特征
相關性
RadViz圖
平行坐標圖
第7章 預處理數據
標準化
調整取值範圍
虛擬變量
標簽編碼
頻數編碼
從字符串抽取類別型數據
類別型數據的其他編碼方法
日期特征的處理方法
添加col_na特征
特征工程
第8章 特征選擇
共線列
套索回歸
遞歸特征消除
互信息
主成分分析
特征重要性
第9章 類別不平衡
采用不同度量標準
樹模型和集成方法
懲罰模型
對小眾類別上采樣
生成小眾數據
對大眾類別下采樣
先上采樣,再下采樣
第10章 分類
對數概率回歸
樸素貝葉斯
支持向量機
k近鄰
決策樹
隨機森林
XGBoost
LightGBM
TPOT
第11章 模型選擇
驗證曲線
學習曲線
第12章 度量標準和分類評估
混淆矩陣
度量標準
準確率
召回率
精準率
f1值
分類報告
ROC曲線
精準率-召回率曲線
累積增益圖
lift曲線
類別平衡
類別預測錯誤
判別閾值
第13章 解釋模型
回歸繫數
特征重要性
LIME包
解釋樹模型
部分依賴圖
替代模型
Shapley值
第14章 回歸
基準模型
線性回歸
支持向量機
k近鄰
決策樹
隨機森林
XGBoost回歸
LightGBM回歸
第15章 度量標準和回歸模型的評估
度量標準
殘差圖
異方差性
殘差正態性
預測誤差圖
第16章 解釋回歸模型
Shapley值
第17章 降維技術
PCA方法
UMAP方法
t-SNE方法
PHATE方法
第18章 聚類
k-means算法
層次聚類
理解簇
第19章 流水線
分類流水線
回歸流水線
PCA流水線
作者介紹
封面介紹
本書以詳細的授課筆記、表格和示例,幫助你掌握Python機器學習基礎知識,學習建模處理結構化數據。你參加相關培訓,可將這份寶貴的學習指南作為補充材料,你開始下一個機器學習項目,可將其作為便捷的參考資源。本書適合程序員、數據科學家和AI工程師,它不僅綜述機器學習的全過程,還帶你了解結構化數據處理的全過程。從本書中,你將學到分類、回歸、降維和聚類等多個主題的相關方法。本書涵蓋以下主題:用泰坦尼克號數據集講解分類。清洗數據和處理缺失數據。探索數據分析。數據預處理的常用方法。選擇對模型有用的特征。模型選擇。度量標準和分類評估。多種回歸分析技術。評估回歸結果的度量標準。聚類算法。降維技術。scikit-learn流水線。