作 者:宋亞統 著
定 價:99.9
出 版 社:人民郵電出版社
出版日期:2021年05月01日
頁 數:244
裝 幀:平裝
ISBN:9787115552402
機器學習算法評估就是用科學的指標,對機器學習算法的智能性、穩定性與可靠性進行完整、可靠的評價,並給出有條理的、可解釋的結論。一個優秀的算法在上線之前,一定要經過嚴密、周全的評估,纔能應對現實業務環境的復雜情況,充分發揮令人驚嘆的“人工智能之美”。本書特色:1. 圖文並茂,全彩印刷,完整而繫統地介紹機器學習算法評估理論;2. 配套源碼,基於業務場景評價算法上線服務的可靠性;3. 利用算法評估工具進行實踐,探索機器學習算法本質。
●第 1章 分類的藝術 11.1 訓練集和測試集的選擇 11.2 準召率和P-R曲線 61.3 ROC和AUC 81.5 異常檢測 121.5 小結 14第 2章 一個好的回歸算法 152.1 ME那些事 152.2 方差和偏差 172.3 欠擬合和過擬合 182.4 正則化方法 202.5 回歸算法的對比 242.5.1 線性回歸 242.5.2 局部加權線性回歸 252.5.3 嶺回歸 262.6 梯度下降的對比 262.6.1 一般的梯度下降 262.6.2 隨機梯度下降和批量梯度下降 282.6.3 動量梯度下降 292.6.4 AdaGrad、RMSProp和Adam 292.7 小結 31第3章 “硬核”聚類 333.1 無監督學習 333.2 聚類算法的評估指標 343.2.1 霍普金斯統計量 343.2.2 類簇的數量 353.2.3 聚類效果 393.3 聚類算法的對比 443.3.1 基於密度的聚類 443.3.2 K-means 453.3.3 基於層次的聚類 463.3.4 基於概率的聚類 473.4 小結 48第4章 慧眼識天下——深度學習算法原理對比 494.1 卷積神經網絡 494.1.1 簡單的卷積神經網絡 494.1.2 詳解卷積神經網絡 534.2 循環神經網絡 604.2.1 圖解RNN 604.2.2 RNN的訓練 654.2.3 RNN的變化形式 674.3 更實用的模型 684.3.1 LSTM 694.3.2 Seq2Seq 714.3.3 注意力機制 734.4 小結 74第5章 智慧的語言——NLP算法實戰與評估 765.1 文字的預處理 765.1.1 嵌入 765.1.2 word2vec 775.1.3 詞袋模型與TF-IDF 825.2 RNN文本分類 845.2.1 RNN文本分類的模塊 845.2.2 參數定義 845.2.3 預處理 855.2.4 模型定義 865.2.5 模型訓練和評估 875.3 HAN文本分類 885.3.1 HAN和GRU的基本原理 885.3.2 HAN的注意力層 905.4 NLP評估 925.4.1 N-gram 925.4.2 BLEU 935.4.3 ROUGE 965.4.4 Pointwise、Pairwise和Listwise排序算法 985.5 小結 100第6章 預言家的思考——樹模型的對比與評估 1016.1 基礎樹模型的對比 1016.1.1 ID3 1016.1.2 C4.5 1036.1.3 CART 1046.2 隨機森林和AdaBoost 1066.2.1 隨機森林 1066.2.2 AdaBoost 1086.3 GBDT 1106.3.1 GBDT簡介 1106.3.2 GBDT和回歸問題 1116.3.3 GBDT和分類問題 1176.4 XGBoost 1246.4.1 XGBoost簡介 1246.4.2 XGBoost回歸算法 1276.4.3 XGBoost分類算法 1326.4.4 XGBoost的優化方法和特征評估 1366.4.5 GBDT和XGBoost的對比評估 1396.5 小結 140第7章 愛我所愛——推薦算法對比與評估 1417.1 多路召回 1417.1.1 基於用戶的協同過濾 1417.1.2 基於物品的協同過濾 1447.2 邏輯斯諦回歸 1457.2.1 邏輯斯諦回歸的基本原理 1457.2.2 邏輯斯諦回歸和推薦排序 1487.3 FM、FFM和特征組合 1507.3.1 FM基本原理 1517.3.2 用FFM和GBDT進行高階特征組合 1537.4 Wide&Deep 1557.5 更有趣的模型——Transformer 1577.5.1 模型整體架構 1587.5.2 注意力機制 1597.5.3 編碼器 1637.5.4 解碼器 1637.5.5 基於位置的前饋神經網絡 1647.5.6 嵌入層 1657.5.7 線性層和softmax層 1667.5.8 Transformer在推薦繫統的應用 1677.6 推薦算法的評估 1707.6.1 準確度指標 1717.6.2 排序指標 1727.6.3 覆蓋率 1757.6.4 多樣性和新穎性 1757.7 小結 176第8章 奇門遁甲—LBS算法與評估 1778.1 坐標 1778.1.1 坐標生成 1778.1.2 基於密度的坐標生成 1798.1.3 基於GeoHash塊熱度的坐標生成 1808.1.4 坐標質量評估 1818.2 路線 1838.2.1 路線相似度評估 1838.2.2 路線規劃——Dijkstra算法 1858.2.3 路線排序 1888.2.4 路線質量評估 1948.3 小結 196第9章 評估利器——交互式可視化 1989.1 R語言簡介 1989.1.1 為什麼要可視化 1989.1.2 R語言介紹 1999.1.3 數據生態 2029.2 Shiny可視化 2049.2.1 UI布局 2049.2.2 服務器 2099.2.3 可視化評估示例 2129.3 小結 215第 10章 像哲學家一樣思考——因果推斷 21610.1 機器學習之殤 216鸚鵡學舌vs.烏鴉喝水 21610.2 辛普森悖論 21810.3 伯克森悖論 22310.4 智能之梯 22410.4.1 因果推斷的起源 22410.4.2 智能之梯 22510.5 因果推斷的方法 22810.5.1 雙重差分模型 22810.5.2 工具變量 22910.5.3 中介模型 23110.6 小結 232第 11章 基礎評估方法——假設檢驗 23411.1 卡方檢驗 23411.2 T檢驗 23611.3 Z檢驗和F檢驗 23811.4 小結 241參考文獻 242
機器學習算法評估力求用科學的指標,對機器學習算法進行完整、可靠的評價。本書詳細介紹機器學習算法評估的理論、方法和實踐。全書分為3個部分。第1部分包含第1章~第3章,針對分類算法、回歸算法和聚類算法分別介紹對應的基礎理論和評估方法;第2部分包含第4章~第8章,介紹更復雜的模型(如深度學習模型和集成樹模型)的對比與評估,並且針對它們實際應用的業務場景介紹一些特有的評估指標和評估體繫;第3部分包含第9章~第11章,總結算法評估的常用工具、技術及方法論,包括實用的可視化工具介紹,並討論機器學習算法的本質。本書適合機器學習專業相關從業者和算法工程師閱讀,也適合想要從事人工智能和機器學習工作的人士學習和參考。
宋亞統 著
宋亞統,美團點評配送事業部高級算法工程師,2017年獲得中國科學院大學碩士學位。他目前主要負責基於位置的服務(Location-Based Service,LBS)算法研發工作。他熱愛人工智能並擅長寫作,在職期間獲得8項算法發明專利,對機器學習算法有著深入的研究和豐富的實踐經驗。