了得網研究生_數據挖掘導論（英文版·原書第2版）

商品搜索

类别：

关键字：

商品分类

　研究生
　 工学
　 公共课
　 经济管理
　 理学
　 农学
　 文法类
　 医学

　音乐
　 音乐理论

　声乐　通俗音乐　音乐欣赏　钢琴　二胡　小提琴

數據挖掘導論（英文版·原書第2版）
該商品所屬分類：研究生 -> 工學
【市場價】	985-1428元
【優惠價】	616-893元
【作者】	美陳封能（PangNing
【所屬類別】	圖書教材研究生/本科/專科教材工學
【出版社】	機械工業出版社
【ISBN】	9787111637882
【折扣說明】	一次購物滿999元台幣免運費+贈品一次購物滿2000元台幣95折+免運費+贈品一次購物滿3000元台幣92折+免運費+贈品一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】	①優質無紡布環保袋，做工棒！②品牌簽字筆 ③品牌手帕紙巾

版本	正版全新電子版PDF檔
您已选择：	正版全新
溫馨提示：如果有多種選項，請先選擇再點擊加入購物車。 . 電子圖書價格是0.69折，例如了得網價格是100元，電子書pdf的價格則是69元。 . 購買電子書不支持貨到付款，購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意，可以聯絡我們退款。謝謝。

內容介紹

開本：16開

紙張：膠版紙

包裝：平裝-膠訂

是否套裝：否

國際標準書號ISBN：9787111637882

作者：[美]陳封能（Pang-Ning

出版社：機械工業出版社

出版時間：2019年11月

內容簡介

本書從算法的角度介紹數據挖掘所使用的主要原理與技術。為了更好地理解數據挖掘技術如何用於各種類型的數據，研究這些原理與技術是至關重要的。
本書所涵蓋的主題包括：數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法，為讀者提供將數據挖掘應用於實際問題所需的必要背景以及使用方法。

作者簡介

陳封能（Pang-Ning Tan）密歇根州立大學計算機科學與工程繫教授，主要研究方向是數據挖掘、數據庫繫統、網絡空間安全、網絡分析等。

第1章緒論1
1.1什麼是數據挖掘4
1.2數據挖掘要解決的問題5
1.3數據挖掘的起源7
1.4數據挖掘任務9
1.5本書組織結構13
1.6文獻注釋15
1.7習題21
第2章數據23
2.1數據類型26
2.1.1屬性與度量27
2.1.2數據集的類型34
2.2數據質量42
2.2.1測量和數據收集問題42第1章緒論1
1.1什麼是數據挖掘4
1.2數據挖掘要解決的問題5
1.3數據挖掘的起源7
1.4數據挖掘任務9
1.5本書組織結構13
1.6文獻注釋15
1.7習題21
第2章數據23
2.1數據類型26
2.1.1屬性與度量27
2.1.2數據集的類型34
2.2數據質量42
2.2.1測量和數據收集問題42
2.2.2關於應用的問題49
2.3數據預處理50
2.3.1聚集51
2.3.2抽樣52
2.3.3維歸約56
2.3.4特征子集選擇58
2.3.5特征創建61
2.3.6離散化63
2.3.7變量變換69
2.4相似性和相異性的度量71
2.4.1基礎72
2.4.2簡單屬性之間的相似度和相異度74
2.4.3數據對像之間的相異度76
2.4.4數據對像之間的相似度78
2.4.5鄰近度度量的例子79
2.4.6互信息88
* 2.4.7核函數90
* 2.4.8Bregman散度94
2.4.9鄰近度計算問題96
2.4.10選擇正確的鄰近度度量98
2.5文獻注釋100
2.6習題105
第3章分類：基本概念和技術113
3.1基本概念114
3.2一般的分類框架117
3.3決策樹分類器119
3.3.1構建決策樹的基本算法121
3.3.2表示屬性測試條件的方法124
3.3.3選擇屬性測試條件的方法127
3.3.4決策樹歸納算法136
3.3.5示例：Web機器人檢測138
3.3.6決策樹分類器的特征140
3.4模型的過擬147
3.5模型選擇156
3.5.1驗證集應用156
3.5.2模型復雜度合並157
3.5.3統計範圍估計162
3.5.4決策樹的模型選擇162
3.6模型評估164
3.6.1保持方法165
3.6.2交叉驗證165
3.7超參數的使用168
3.7.1超參數選擇168
3.7.2嵌套交叉驗證170
3.8模型選擇和評估中的陷阱172
3.8.1訓練集和測試集之間的重疊172
3.8.2使用驗證錯誤率作為泛化錯誤率
*3.9模型比較173
3.9.1估計準確率的置信區間174
3.9.2比較兩個模型的性能175
3.10文獻注釋176
3.11習題185
第4章分類：其他技術193
4.1分類器的種類193
4.2基於規則的分類器195
4.2.1基於規則的分類器原理197
4.2.2規則集的屬性198
4.2.3規則提取的直接方法199
4.2.4規則提取的間接方法204
4.2.5基於規則的分類器的特點206
4.3近鄰分類器208
4.3.1算法209
4.3.2近鄰分類器的特點210
4.4樸素貝葉斯分類器212
4.4.1概率論基礎213
4.4.2樸素貝葉斯假設218
4.5貝葉斯網絡227
4.5.1圖表示227
4.5.2推理與學習233
4.5.3貝葉斯網絡的特點242
4.6logistic回歸243
4.6.1logistic回歸用作廣義線性模型244
4.6.2學習模型參數245
4.6.3logistic回歸模型的特點248
4.7人工神經網絡249
4.7.1感知機250
4.7.2多層神經網絡254
4.7.3人工神經網絡的特點261
4.8深度學習262
4.8.1使用協同損失函數263
4.8.2使用響應激活函數266
4.8.3正則化268
4.8.4模型參數的初始化271
4.8.5深度學習的特點275
4.9支持向量機276
4.9.1分離超平面的邊緣276
4.9.2線性SVM278
4.9.3軟邊緣SVM284
4.9.4非線性SVM290
4.9.5SVM的特點294
4.10組合方法296
4.10.1組合方法的基本原理297
4.10.2構建組合分類器的方法297
4.10.3偏置–方差分解300
4.10.4裝袋302
4.10.5提升305
4.10.6隨機森林310
4.10.7組合方法的實驗比較312
4.11類不平衡問題313
4.11.1類不平衡的分類器構建314
4.11.2帶類不平衡的性能評估318
4.11.3尋找的評分閾值322
4.11.4綜合評估性能323
4.12多類問題330
4.13文獻注釋333
4.14習題345
第5章關聯分析：基本概念和算法357
5.1預備知識358
5.2頻繁項集的產生362
5.2.1先驗原理363
5.2.2Apriori算法的頻繁項集產生364
5.2.3候選項集的產生與剪枝368
5.2.4支持度計數373
5.2.5計算復雜度377
5.3規則的產生380
5.3.1基於置信度的剪枝380
5.3.2Apriori算法中規則的產生381
5.3.3示例：美國國會投票記錄382
5.4頻繁項集的緊湊表示384
5.4.1極大頻繁項集384
5.4.2閉項集386
*5.5其他產生頻繁項集的方法389
*5.6FP增長算法393
5.6.1FP樹表示法394
5.6.2FP增長算法的頻繁項集產生397
5.7關聯模式的評估401
5.7.1興趣度的客觀度量402
5.7.2變量的度量414
5.7.3辛普森悖論416
5.8傾斜支持度分布的影響418
5.9文獻注釋424
5.10習題438
第6章關聯分析：高級概念451
6.1處理分類屬性451
6.2處理連續屬性454
6.2.1基於離散化的方法454
6.2.2基於統計學的方法458
6.2.3非離散化方法460
6.3處理概念分層462
6.4序列模式464
6.4.1預備知識465
6.4.2序列模式發現468
* 6.4.3時限約束473
* 6.4.4可選計數方案477
6.5子圖模式479
6.5.1預備知識480
6.5.2頻繁子圖挖掘483
6.5.3候選生成487
6.5.4候選剪枝493
6.5.5支持度計數493
*6.6非頻繁模式493
6.6.1負模式494
6.6.2負相關模式495
6.6.3非頻繁模式、負模式和負相關模式比較496
6.6.4挖掘有趣的非頻繁模式的技術498
6.6.5基於挖掘負模式的技術499
6.6.6基於支持度期望的技術501
6.7文獻注釋505
6.8習題510
第7章聚類分析：基本概念和算法525
7.1概述528
7.1.1什麼是聚類分析528
7.1.2聚類的不同類型529
7.1.3簇的不同類型531
7.2K均值534
7.2.1K均值算法535
7.2.2K均值：附加的問題544
7.2.3二分K均值547
7.2.4K均值和不同的簇類型548
7.2.5優點與缺點549
7.2.6K均值作為優化問題549
7.3凝聚層次聚類554
7.3.1基本凝聚層次聚類算法555
7.3.2特殊技術557
7.3.3簇鄰近度的Lance-Williams公式562
7.3.4層次聚類的主要問題563
7.3.5離群點564
7.3.6優點與缺點565
7.4DBSCAN565
7.4.1傳統的密度：基於中心的方法565
7.4.2DBSCAN算法567
7.4.3優點與缺點569
7.5簇評估571
7.5.1概述571
7.5.2無監督簇評估：使用凝聚度和分離度574
7.5.3無監督簇評估：使用鄰近度矩陣582
7.5.4層次聚類的無監督評估585
7.5.5確定正確的簇個數587
7.5.6聚類趨勢588
7.5.7簇有效性的監督度量589
7.5.8評估簇有效性度量的顯著性594
7.5.9簇有效性度量的選擇596
7.6文獻注釋597
7.7習題603
第8章聚類分析：其他問題與算法613
8.1數據、簇和聚類算法的特性614
8.1.1示例：比較K均值和DBSCAN614
8.1.2數據特性615
8.1.3簇特性617
8.1.4聚類算法的一般特性619
8.2基於原型的聚類621
8.2.1模糊聚類621
8.2.2使用混合模型的聚類627
8.2.3自組織映射637
8.3基於密度的聚類644
8.3.1基於網格的聚類644
8.3.2子空間聚類648
8.3.3DENCLUE：基於密度聚類的一種基於核的方案652
8.4基於圖的聚類656
8.4.1稀疏化657
8.4.2小生成樹聚類658
8.4.3OPOSSUM：使用METIS的稀疏相似度劃分659
8.4.4Chameleon：使用動態建模的層次聚類660
8.4.5譜聚類666
8.4.6共享近鄰相似度673
8.4.7Jarvis-Patrick聚類算法676
8.4.8SNN密度678
8.4.9基於SNN密度的聚類679
8.5可伸縮的聚類算法681
8.5.1可伸縮：一般問題和方法681
8.5.2BIRCH684
8.5.3CURE686
8.6使用哪種聚類算法690
8.7文獻注釋693
8.8習題699
第9章異常檢測703
9.1異常檢測問題的特性705
9.1.1異常的定義705
9.1.2數據的性質706
9.1.3如何使用異常檢測707
9.2異常檢測方法的特性708
9.3統計方法710
9.3.1使用參數模型710
9.3.2使用非參數模型714
9.3.3對正常類和異常類建模715
9.3.4評估統計意義717
9.3.5優點與缺點718
9.4基於鄰近度的方法719
9.4.1基於距離的異常分數719
9.4.2基於密度的異常分數720
9.4.3基於相對密度的異常分數722
9.4.4優點與缺點723
9.5基於聚類的方法724
9.5.1發現異常簇724
9.5.2發現異常實例725
9.5.3優點與缺點728
9.6基於重構的方法728
9.7單類分類732
9.7.1核函數的使用733
9.7.2原點技巧734
9.7.3優點與缺點738
9.8信息論方法738
9.9異常檢測評估740
9.10文獻注釋742
9.11習題749
第10章避免錯誤發現755
10.1預備知識：統計檢驗756
10.1.1顯著性檢驗756
10.1.2假設檢驗761
10.1.3多重假設檢驗767
10.1.4統計檢驗中的陷阱776
10.2對零分布和替代分布建模778
10.2.1生成合成數據集781
10.2.2隨機化類標782
10.2.3實例重采樣782
10.2.4對檢驗統計量的分布建模783
10.3分類問題的統計檢驗783
10.3.1評估分類性能783
10.3.2以多重假設檢驗處理二分類問題785
10.3.3模型選擇中的多重假設檢驗786
10.4關聯分析的統計檢驗787
10.4.1使用統計模型788
10.4.2使用隨機化方法794
10.5聚類分析的統計檢驗795
10.5.1為內部指標生成零分布796
10.5.2為外部指標生成零分布798
10.5.3富集798
10.6異常檢測的統計檢驗800
10.7文獻注釋803
10.8習題808

Contents
1 Introduction1
1.1 What Is Data Mining?4
1.2 Motivating Challenges5
1.3 The Origins of Data Mining7
1.4 Data Mining Tasks9
1.5 Scope and Organization of the Book13
1.6 Bibliographic Notes15
1.7 Exercises21
2 Data23
2.1 Types of Data26
2.1.1 Attributes and Measurement27
2.1.2 Types of Data Sets34
2.2 Data Quality42
2.2.1 Measurement and Data Collection Issues42
2.2.2 Issues Related to Applications49
2.3 Data Preprocessing50
2.3.1 Aggregation51
2.3.2 Sampling52
2.3.3 Dimensionality Reduction56

前言

自12年前的第1版以來，數據分析領域發生了很大的變化。采集數據和用數據做決策的速率不斷提高，采集到的數據數量和種類也在不斷增加。事實上，“大數據”這個術語已被用於指代那些可獲得的海量、多樣的數據集。此外，“數據科學”這個術語也被用於描述一個新興領域，其中，數據挖掘、機器學習、統計學等諸多領域的工具和技術，被用於從數據（通常是大數據）中提取出可實際應用的見解。
數據的增長為數據分析的各領域創造了大量的機會。其中，有著廣泛應用的預測建模領域的發展引人注目。例如，在神經網絡（也稱為深度學習）方面取得的進展，已經在許多具有挑戰性的領域（如圖像分類、語音識別以及文本分類和理解）表現出令人矚目的成果。即使那些發展不是特別顯著的領域（例如聚類、關聯分析和異常檢測等）也在不斷前進。這個新版本就是對這些發展的響應。自12年前的第1版以來，數據分析領域發生了很大的變化。采集數據和用數據做決策的速率不斷提高，采集到的數據數量和種類也在不斷增加。事實上，“大數據”這個術語已被用於指代那些可獲得的海量、多樣的數據集。此外，“數據科學”這個術語也被用於描述一個新興領域，其中，數據挖掘、機器學習、統計學等諸多領域的工具和技術，被用於從數據（通常是大數據）中提取出可實際應用的見解。
數據的增長為數據分析的各領域創造了大量的機會。其中，有著廣泛應用的預測建模領域的發展引人注目。例如，在神經網絡（也稱為深度學習）方面取得的進展，已經在許多具有挑戰性的領域（如圖像分類、語音識別以及文本分類和理解）表現出令人矚目的成果。即使那些發展不是特別顯著的領域（例如聚類、關聯分析和異常檢測等）也在不斷前進。這個新版本就是對這些發展的響應。
概述與第1版相同，本書第2版全面介紹了數據挖掘，方便學生、教師、研究人員和專業人士理解有關概念和技術。本書涵蓋的主題包括：數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和算法，為讀者提供將數據挖掘應用於實際問題所需的必要背景。與第1版一樣，分類、關聯分析和聚類分析都分兩章講述。前面一章（介紹章）講述基本概念、代表性算法和評估技術，後面一章（高級章）深入討論高級概念和算法。同第1版一樣，這樣做的目的是使讀者透徹地理解數據挖掘的基礎知識，同時論述更多重要的高級主題。由於這種安排，本書既可用作教材也可用作參考書。
為了幫助讀者更好地理解書中講述的概念，我們提供了大量的示例、圖表和習題，並在網上公開了原有習題的答案。除了第10章的新習題，其餘習題與第1版的基本一致。教師可以通過網絡獲取各章的新習題及其答案。對更高級的主題、重要的歷史文獻和當前趨勢感興趣的讀者，可以在每一章結尾找到文獻注釋，本版對這部分內容做了較大的更新。此外，還提供了一個覆蓋本書所有主題的索引。
第2版的新內容內容上主要的更新是與分類相關的兩章內容（第3章和第4章）。第3章仍使用決策樹分類器進行講解，但對適用於各種分類方法的主題討論進行了大量的擴充，這些主題包括：過擬合、欠擬合、訓練規模的影響、模型復雜度、模型選擇以及模型評估中常見的缺陷等。第4章的每一節幾乎都進行了重大更新，著重擴展了貝葉斯網絡、支持向量機和人工神經網絡的內容。對深度網絡，我們單獨增加了一節來介紹該領域當前的發展。我們還更新了4.11節“類不平衡問題”中有關評估方法的討論。
關聯分析內容的改進則更具體。我們對關聯模式評估部分（第5章）以及序列和圖形挖掘部分（第6章）進行了全面修訂。對聚類分析的修訂也很具體。在聚類分析的介紹章（第7章）增添了K均值初始化技術並更新了簇評估的討論。聚類分析的高級章（第8章）新添了關於譜圖聚類的內容。對異常檢測部分也進行了大量的修訂和擴展。我們保留並更新了現有方法，如統計學、基於近鄰/密度方法和基於聚類方法，同時介紹了基於重構的方法、單類分類和信息論方法。基於重構的方法通過深度學習範疇中的自編碼網絡進行闡述。關於數據的第2章也進行了更新，更新內容包括對互信息的討論和基於核技術的討論。
第10章討論了如何避免錯誤發現並產生正確的結果，這一章的內容是全新的並且在當前關於數據挖掘的教科書中也是新穎的。該章討論了關於避免虛假結果的統計概念（統計顯著性、p值、錯誤發現率、置換檢驗等），這些是對其他章中相關內容的補充，然後在介紹數據挖掘技術的內容中對這些概念進行了闡述。這一章還強調了對數據分析結果的有效性和可重復性的關注。新增的後一章，是認識到這個主題的重要性後的產物，同時也是對“在分析數據時需要對相關領域有更深入的理解”這一觀點的認可。
本版紙書刪除了數據探索章節以及附錄，但仍將其保留在網上。本版附錄對大數據環境下的可伸縮性進行了簡要討論。
致教師作為一本教材，本書廣泛適用於高年級本科生和研究生教學。由於學習這門課程的學生背景不同，他們可能不具備廣博的統計學和數據庫知識，因此本書隻要求限度的預備知識。數據庫知識不是必需的，但我們假定讀者有一定的統計學或數學背景，這些背景會讓他們更容易學*些內容。與以前一樣，本書或者更確切地說是討論主要數據挖掘主題的各章，都盡可能自成一體。因此，這些主題的講授次序相當靈活。其中第2章、第3章、第5章、第7章和第9章是核心內容。對於第10章，建議至少給出粗略的介紹，以在學生解釋他們的數據分析結果時引起一些注意。盡管應先介紹數據（第2章），但可以按任意順序來講授基本分類（第3章）、關聯分析（第5章）和聚類分析（第7章）。由於異常檢測（第9章）與分類（第3章）和聚類分析（第7章）具備先後關繫，所以後兩章應先於第9章進行講解。同時，可以根據時間安排和興趣，從高級分類、關聯分析和聚類分析章節（第4章、第6章、第8章）中選擇多種主題進行講解。我們還建議通過數據挖掘中的項目或實踐練習來強化聽課效果，雖然它們要花費一些時間，但這種實踐作業可以大

網友評論我們期待著您對此商品發表評論

相關商品

商品搜索

商品分类

【醫學】

【各大出版社】