作 者:(新西蘭)伊恩H.威騰//埃貝?弗蘭克//馬克A.霍爾//(加)克裡斯多夫J.帕爾 著作 李川//郭立坤//彭京//蔡國強//任艷 譯者
定 價:99
出 版 社:機械工業出版社
出版日期:2018年03月15日
頁 數:417
裝 幀:簡裝
ISBN:9787111589167
●目 錄Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition譯者序前言致謝第一部分 數據挖掘基礎第1章 緒論 21.1 數據挖掘和機器學習 21.1.1 描述結構模式 31.1.2 機器學習 51.1.3 數據挖掘 61.2 簡單的例子:天氣問題和其他問題 61.2.1 天氣問題 61.2.2 隱形眼鏡:一個理想化的問題 81.2.3 鳶尾花:一個經典的數值型數據集 91.2.4 CPU性能:引入數值預測 101.2.5 勞資協商:一個更真實的例子 111.2.6 大豆分類:一個經典的機器學習的成功例子 121.3 應用領域 141.3.1 Web挖掘 141.3.2 包含判斷的決策 151.3.3 圖像篩選 151.3.4 負載預測 161.3.5 診斷 171.3.6 市場和銷售 171.3.7 其他應用 181.4 數據挖掘過程 191.5 機器學習和統計學 201.6 將泛化看作搜索 211.6.1 枚舉概念空間 221.6.2 偏差 221.7 數據挖掘和道德問題 241.7.1 再識別 241.7.2 使用個人信息 251.7.3 其他問題 261.8 拓展閱讀及參考文獻 26第2章 輸入:概念、實例和屬性 292.1 概念 292.2 實例 312.2.1 關繫 312.2.2 其他實例類型 342.3 屬性 352.4 輸入準備 362.4.1 數據收集 372.4.2 ARFF格式 372.4.3 稀疏數據 392.4.4 屬性類型 402.4.5 缺失值 412.4.6 不正確的值 422.4.7 非均衡數據 422.4.8 了解數據 432.5 拓展閱讀及參考文獻 43第3章 輸出:知識表達 443.1 表 443.2 線性模型 443.3 樹 463.4 規則 493.4.1 分類規則 493.4.2 關聯規則 523.4.3 包含例外的規則 533.4.4 表達能力更強的規則 543.5 基於實例的表達 563.6 聚類 583.7 拓展閱讀及參考文獻 59第4章 算法:基本方法 604.1 推斷基本規則 604.2 簡單概率模型 634.2.1 缺失值和數值屬性 654.2.2 用於文檔分類的樸素貝葉斯 674.2.3 討論 684.3 分治法:創建決策樹 694.3.1 計算信息量 714.3.2 高度分支屬性 734.4 覆蓋算法:建立規則 744.4.1 規則與樹 754.4.2 一個簡單的覆蓋算法 764.4.3 規則與決策列表 794.5 關聯規則挖掘 794.5.1 項集 804.5.2 關聯規則 814.5.3 高效地生成規則 844.6 線性模型 864.6.1 數值預測:線性回歸 864.6.2 線性分類:logistic回歸 874.6.3 使用感知機的線性分類 894.6.4 使用Winnow的線性分類 904.7 基於實例的學習 914.7.1 距離函數 924.7.2 高效尋找最近鄰 924.7.3 討論 964.8 聚類 964.8.1 基於距離的迭代聚類 974.8.2 更快的距離計算 984.8.3 選擇簇的個數 994.8.4 層次聚類 1004.8.5 層次聚類示例 1014.8.6 增量聚類 1024.8.7 分類效用 1044.8.8 討論 1064.9 多實例學習 1074.9.1 聚集輸入 1074.9.2 聚集輸出 1074.10 拓展閱讀及參考文獻 1084.11 Weka實現 109第5章 可信度:評估學習結果 1115.1 訓練和測試 1115.2 預測性能 1135.3 交叉驗證 1155.4 其他評估方法 1165.4.1 留一交叉驗證法 1165.4.2 自助法 1165.5 超參數選擇 1175.6 數據挖掘方法比較 1185.7 預測概率 1215.7.1 二次損失函數 1215.7.2 信息損失函數 1225.7.3 討論 1235.8 計算成本 1235.8.1 成本敏感分類 1255.8.2 成本敏感學習 1265.8.3 提升圖 1265.8.4 ROC曲線 1295.8.5 召回率–準確率曲線 1305.8.6 討論 1315.8.7 成本曲線 1325.9 評估數值預測 1345.10 最小描述長度原理 1365.11 將MDL原理應用於聚類 1385.12 使用驗證集進行模型選擇 1385.13 拓展閱讀及參考文獻 139第二部分 高級機器學習方案第6章 樹和規則 1446.1 決策樹 1446.1.1 數值屬性 1446.1.2 缺失值 1456.1.3 剪枝 1466.1.4 估計誤差率 1476.1.5 決策樹歸納法的復雜度 1496.1.6 從決策樹到規則 1506.1.7 C4.5:選擇和選項 1506.1.8 成本–復雜度剪枝 1516.1.9 討論 1516.2 分類規則 1526.2.1 選擇測試的標準 1526.2.2 缺失值和數值屬性 1536.2.3 生成好的規則 1536.2.4 使用全局優化 1556.2.5 從局部決策樹中獲得規則 1576.2.6 包含例外的規則 1586.2.7 討論 1606.3 關聯規則 1616.3.1 建立頻繁模式樹 1616.3.2 尋找大項集 1636.3.3 討論 1666.4 Weka 實現 167第7章 基於實例的學習和線性模型的擴展 1687.1 基於實例的學習 1687.1.1 減少樣本集的數量 1687.1.2 對噪聲樣本集剪枝 1697.1.3 屬性加權 1707.1.4 泛化樣本集 1707.1.5 用於泛化樣本集的距離函數 1717.1.6 泛化的距離函數 1727.1.7 討論 1727.2 擴展線性模型 1737.2.1 優選間隔超平面 1737.2.2 非線性類邊界
本書是數據挖掘和機器學習領域的經典暢銷教材,被靠前外眾多名校選用。第4版新增了關於深度學習和概率方法的重要章節,同時,備受歡迎的機器學習軟件Weka也再度升級。書中全面覆蓋了該領域的實用技術,致力於幫助讀者理解不同技術的工作方式和應用方式,從而學會在工程實踐和商業項目中解決真實問題。本書適合作為高等院校相關課程的教材,同時也適合業內技術人員閱讀參考。
(新西蘭)伊恩H.威騰//埃貝?弗蘭克//馬克A.霍爾//(加)克裡斯多夫J.帕爾 著作 李川//郭立坤//彭京//蔡國強//任艷 譯者
伊恩 H.威騰(Ian H.Wittetl)新西蘭懷卡托大學計算機科學繫教授,ACM會士,新西蘭皇家學會會士,曾榮獲2004年靠前信息處理研究協會(1FIP)頒發的Namur獎。
前 言Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition計算和通信的結合建立了一個以信息為基礎的新領域。但絕大多數信息尚處於原始狀態,即以數據形式存在的狀態。假如我們將數據定義為被記錄下來的事實,那麼“信息”就是隱藏於這些記錄事實的數據中的一繫列模式或預期。在數據庫中蘊藏了大量具有潛在重要性的信息,這些信息尚未被發現和利用,我們的任務就是將這些信息釋放出來。數據挖掘是將隱含的、尚不為人知的同時又是潛在有用的信息從數據中提取出來。為此我們編寫計算機程序,自動在數據庫中篩選有用的規律或模式。如果能發現一些明顯的模式,則可以將其歸納出來,以對未來的數據進行準確預等