了得網圖書_斯坦福數據挖掘教程(第3版) 圖書

作者:(美)尤雷·萊斯科夫,(美)阿南德·拉賈拉曼,(美)傑弗裡·大衛·阨爾曼著王斌,王達侃譯

定價:129

出版社:人民郵電出版社

出版日期:2021年04月01日

頁數:452

裝幀:平裝

ISBN:9787115556691

1.本書作者Jeffrey Ullman是2020圖靈獎獲得者；2.本書譯者是國內知名NLP專家王斌老師；3.本書內容源自斯坦福大學網紅課程“CS246：海量數據挖掘”、“CS224W：圖機器學習”和“CS341：項目實戰課”；4.書中以海量數據挖掘和機器學習為重點，全面分析並實現了各種常用的數據挖掘算法，同時介紹了目前Web應用的許多重要話題；5.在第2版《大數據互聯網大規模數據挖掘與分布式處理（第2版）》基礎上，第3版內容新增一章，專門探討神經網絡和深度學習並擴充了社會網絡分析和決等

●第1章數據挖掘基本概念1
1.1數據挖掘的定義1
1.1.1建模1
1.1.2統計建模2
1.1.3機器學習2
1.1.4建模的計算方法3
1.1.5數據概括3
1.1.6特征抽取4
1.2數據挖掘的統計5
1.2.1整體情報預警5
1.2.2邦弗朗尼原理5
1.2.3邦弗朗尼原理的一個例子6
1.2.4習題7
1.3相關知識7
1.3.1詞語在文檔中的重要性7
1.3.2哈希函數8
1.3.3索引9
1.3.4二級存儲器10
1.3.5自然對數的底e11
1.3.6冪定律12
1.3.7習題13
1.4本書概要14
1.5小結15
1.6參考文獻16
第2章 MapReduce和新軟件棧17
2.1分布式文件繫統18
2.1.1計算節點的物理結構18
2.1.2大規模文件繫統的結構19
2.2MapReduce20
2.2.1Map任務21
2.2.2按鍵分組21
2.2.3Reduce任務22
2.2.4組合器22
2.2.5MapReduce的執行細節23
2.2.6節點故障的處理24
2.2.7習題24
2.3使用MapReduce的算法24
2.3.1基於MapReduce的矩陣—向量乘法實現25
2.3.2向量v無法放入內存時的處理26
2.3.4基於MapReduce的選擇運算28
2.3.5基於MapReduce的投影運算28
2.3.6基於MapReduce的並、交和差運算29
2.3.7基於MapReduce的自然連接運算29
2.3.8基於MapReduce的分組和聚合運算30
2.3.9矩陣乘法30
2.3.10基於單步MapReduce的矩陣乘法31
2.3.11習題32
2.4MapReduce的擴展32
2.4.1工作流繫統33
2.4.2Spark34
2.4.3Spark實現36
2.4.4TensorFlow37
2.4.5MapReduce的遞歸擴展版本38
2.4.6整體同步繫統40
2.4.7習題41
2.5通信開銷模型41
2.5.1任務網絡的通信開銷42
2.5.2時鐘時間43
2.5.3多路連接43
2.5.4習題46
2.6MapReduce復雜性理論47
2.6.1Reducer規模及復制率47
2.6.2一個例子：相似性連接48
2.6.3MapReduce問題的一個圖模型51
2.6.5並非所有輸入都存在時的處理52
2.6.7案例分析：矩陣乘法54
2.6.8習題57
2.7小結58
2.8參考文獻59
第3章相似項發現61
3.1集合相似度的應用62
3.1.1集合的Jaccard相似度62
3.1.2文檔的相似度62
3.1.3協同過濾——一個集合相似問題63
3.1.4習題64
3.2文檔的shingling65
3.2.1k-shingle65
3.2.2shingle大小的選擇65
3.2.3對shingle進行哈希66
3.2.4基於詞的shingle66
3.2.5習題67
3.3保持相似度的集合摘要表示67
3.3.1集合的矩陣表示67
3.3.2最小哈希68
3.3.3最小哈希和Jaccard相似度69
3.3.4最小哈希簽名69
3.3.5最小哈希簽名的計算70
3.3.6對最小哈希加速72
3.3.7使用哈希加速73
3.3.8習題75
3.4文檔的局部敏感哈希算法76
3.4.1面向最小哈希簽名的LSH76
3.4.2行條化策略的分析77
3.4.3上述技術的綜合79
3.4.4習題79
3.5距離測度80
3.5.1距離測度的定義80
3.5.2歐氏距離80
3.5.3Jaccard 距離81
3.5.4餘弦距離81
3.5.5編輯距離82
3.5.6海明距離83
3.5.7習題83
3.6局部敏感函數理論85
3.6.1局部敏感函數85
3.6.2面向Jaccard距離的局部敏感函數族86
3.6.3局部敏感函數族的放大處理87
3.6.4習題89
3.7面向其他距離測度的LSH函數族89
3.7.1面向海明距離的LSH函數族89
3.7.2隨機超平面和餘弦距離90
3.7.3梗概91
3.7.4面向歐氏距離的LSH函數族91
3.7.5面向歐氏空間的更多LSH函數族92
3.7.6習題93
3.8LSH函數的應用93
3.8.1實體關聯94
3.8.2一個實體關聯的例子94
3.8.3記錄匹配的驗證95
3.8.4指紋匹配96
3.8.5適用於指紋匹配的LSH函數族98
3.8.7習題99
3.9面向高相似度的方法99
3.9.1相等項發現99
3.9.2集合的字符串表示方法100
3.9.3基於長度的過濾100
3.9.4前綴索引101
3.9.5位置信息的使用102
3.9.6使用位置和長度信息的索引103
3.9.7習題105
3.10小結106
3.11參考文獻108
第4章數據流挖掘109
4.1流數據模型109
4.1.1一個數據流管理繫統109
4.1.2流數據源的例子110
4.1.3流查詢111
4.1.4流處理中的若干問題112
4.2流當中的數據抽樣112
4.2.1一個富有啟發性的例子112
4.2.2代表性樣本的獲取113
4.2.3一般的抽樣問題114
4.2.4樣本規模的變化114
4.2.5習題115
4.3流過濾115
4.3.1一個例子115
4.3.2布隆過濾器116
4.3.3布隆過濾方法的分析116
4.3.4習題117
4.4流素的數目統計118
4.4.素計數問題118
4.4.2FM算法118
4.4.3組合估計119
4.4.4空間需求120
4.4.5習題120
4.5矩估計120
4.5.1矩定義120
4.5.2二階矩估計的AMS算法121
4.5.3AMS算法有效的原因122
4.5.4更高階矩的估計122
4.5.5無限流的處理123
4.5.6習題124
4.6窗口內的計數問題124
4.6.1準確計數的開銷125
4.6.2DGIM算法125
4.6.3DGIM算法的存儲需求127
4.6.4DGIM算法中的查詢應答127
4.6.5DGIM條件的保持127
4.6.6降低錯誤率128
4.6.7窗口內計數問題的擴展129
4.6.8習題130
4.7衰減窗口130
4.7.1素問題130
4.7.2衰減窗口的定義130
4.7.素的發現131
4.8小結132
4.9參考文獻133
第5章鏈接分析134
5.1PageRank134
5.1.1早期的搜索引擎及詞項作弊134
5.1.2PageRank的定義136
5.1.3Web結構138
5.1.4避免終止點140
5.1.5采集器陷阱和“抽稅”法142
5.1.6PageRank在搜索引擎中的使用144
5.1.7習題144
5.2PageRank的快速計算145
5.2.1轉移矩陣的表示146
5.2.2基於MapReduce的PageRank迭代計算146
5.2.3結果向量合並時的組合器使用147
5.2.4轉移矩陣中塊的表示148
5.2.5其他高效的PageRank迭代方法149
5.2.6習題150
5.3面向主題的PageRank150
5.3.1動機150
5.3.2有偏的隨機遊走模型151
5.3.3面向主題的PageRank的使用153
5.3.5習題153
5.4鏈接作弊153
5.4.1垃圾農場的架構154
5.4.2垃圾農場的分析155
5.4.3與鏈接作弊的鬥爭156
5.4.4TrustRank156
5.4.5垃圾質量156
5.4.6習題157
5.5導航頁和權威頁157
5.5.1HITS的直觀意義158
5.5.2導航度和權威度的形式化158
5.5.3習題161
5.6小結161
5.7參考文獻164
第6章頻繁項集165
6.1購物籃模型165
6.2購物籃和A-Priori算法171
6.3更大數據集在內存中的處理178
6.4有限掃描算法185
6.5流中的頻繁項計數190
6.6小結192
6.7參考文獻194
第7章聚類195
7.1聚類技術介紹195
7.2層次聚類198
7.3k-均值算法206
7.4CURE算法212
7.5非歐空間下的聚類215
7.6流聚類及並行化218
7.7小結222
7.8參考文獻224
第8章 Web廣告226
8.1在線廣告相關問題226
8.2在線算法228
8.3廣告匹配問題231
8.4adwords問題233
8.5adwords的實現240
8.6小結243
8.7參考文獻245
第9章推薦繫統246
9.1推薦繫統的模型246
9.2基於內容的推薦249
9.3協同過濾257
9.4降維處理262
9.5Netflix競賽270
9.6小結271
9.7參考文獻272
第10章社會網絡圖挖掘273
10.1將社會網絡看成圖273
10.2社會網絡圖的聚類277
10.3社區的直接發現283
10.4圖劃分287
10.5重疊社區的發現293
10.6Simrank299
10.7三角形計數問題.306
10.8圖的鄰居性質311
10.9小結324
10.10參考文獻326
第11章降維處理328
11.1特征值和特征向量328
11.2主成分分析334
11.3奇異值分解339
11.4CUR分解347
11.5小結352
11.6參考文獻353
第12章大規模機器學習354
12.1機器學習模型354
12.2感知機360
12.3支持向量機371
12.4近鄰學習381
12.5決策樹387
12.6各種學習方法的比較397
12.7小結397
12.8參考文獻399
第13章神經網絡與深度學習400
13.1神經網絡簡介400
13.2密集型前饋網絡405
13.3反向傳播與梯度下降413
13.4卷積神經網絡420
13.5循環神經網絡427
13.6正則化433
13.7小結435
13.8參考文獻436

本書由斯坦福大學“Web挖掘”課程的內容總結而成，主要關注極大規模數據的挖掘。書中包括分布式文件繫統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦繫統、社會網絡圖挖掘和大規模機器學習等主要內容。第3版新增了決策樹、神經網絡和深度學習等內容。幾乎每節都有對應的習題，以此來鞏固所講解的內容。讀者還可以從網上獲取相關拓展資料。本書適合作為本科生、研究生數據挖掘課程的教材，也適合對數據挖掘感興趣的技術人員閱讀。

(美)尤雷·萊斯科夫,(美)阿南德·拉賈拉曼,(美)傑弗裡·大衛·阨爾曼著王斌,王達侃譯

【作者簡介】尤雷·萊斯科夫（Jure Leskovec）Pinterest公司首席科學家，斯坦福大學計算機科學繫副教授，研究方向為大型社交和信息網絡的數據挖掘。他的研究成果獲得了很多獎項，如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship，還獲得了很多很好論文獎，同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《連線》、NBC、BBC和CBC等流行的社會媒體刊載。他還創建了斯坦福網絡分析平臺（SNAP）。阿南德·拉賈拉曼（Anand Rajaram等

商品搜索

商品分类

【醫學】

【各大出版社】