了得網計算機/網絡_斯坦福數據挖掘教程第3版

產品特色

編輯推薦

1.本書*作者Jure Leskovec為當今AI領域*知名的學者之一，在圖神經網絡領域取得了了不起的研究進展
2.本書第三作者Jeffrey Ullman是2020年圖靈獎得主，第二作者是他的得意弟子
3.本書由國內知名NLP專家王斌、Jure實驗室AI專家王達侃擔綱翻譯
4.本書被譽為“數據挖掘全景式入門參考書”，源自斯坦福大學公開課“CS246：海量數據挖掘”“CS224W：圖機器學習”和“CS341：項目實戰課”
5.書中以海量數據挖掘和機器學習為重點，全面分析並實現了各種常用的數據挖掘算法，同時介紹了目前Web應用的許多重要話題
6.在第2版《大數據互聯網大規模數據挖掘與分布式處理（第2版）》基礎上，第3版內容新增一章，專門探討神經網絡和深度學習，並擴充了社會網絡分析和決策樹的相關內容
7.本書配套資源豐富，包括開源英文原書PDF、PPT、視頻講解、考試題等

內容簡介

本書由斯坦福大學“Web挖掘”課程的內容總結而成，主要關注極大規模數據的挖掘。書中包括分布式文件繫統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦繫統、社會網絡圖挖掘和大規模機器學習等主要內容。第3 版新增了決策樹、神經網絡和深度學習等內容。幾乎每節都有對應的習題，以此來鞏固所講解的內容。讀者還可以從網上獲取相關拓展資料。

作者簡介

【作者簡介】

尤雷·萊斯科夫（Jure Leskovec）

Pinterest公司首席科學家，斯坦福大學計算機科學繫副教授，研究方向為大型社交和信息網絡的數據挖掘。他的研究成果獲得了很多獎項，如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship，還獲得了很多論文獎，同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《連線》、NBC、BBC和CBC等流行的社會媒體刊載。他還創建了斯坦福網絡分析平臺（SNAP）。

阿南德·拉賈拉曼（Anand Rajaraman）

數據庫和Web技術領域領軍者，硅谷連續創業者和風險投資人，斯坦福大學計算機科學繫助理教授。自1996年起創立過多家公司，這些公司先後被亞馬遜、谷歌和沃爾瑪集團收購，而他本人歷任亞馬遜技術總監、沃爾瑪負責全球電子商務業務的副總裁。之後創立了風投公司Milliways Ventures和Rocketship VC，投資過Facebook、Lyft等眾多公司。作為學者，他主要研究數據庫繫統、Web和社交媒體，他的研究論文在學術會議上獲得了多個獎項，他在2012年被Fast Company雜志列入“商界創造力100人”。

傑弗裡·大衛·阨爾曼（Jeffrey David Ullman）

計算機科學家，美國國家工程院院士，2020年圖靈獎得主。早年在貝爾實驗室工作，之後任教於普林斯頓大學，十年後加入斯坦福大學直至退休，一生的科研、著書和育人成果卓著。他是ACM會員，曾獲SIGMOD創新獎、高德納獎、馮諾依曼獎等多項科研大獎；合著有“龍書”《編譯原理》、數據庫名著《數據庫繫統實現》等多部經典著作；培養的多名學生已成為數據庫領域的專家，其中包括谷歌聯合創始人Sergey Brin，本書第二作者也是他的得意弟子。目前擔任Gradiance公司CEO。

【譯者簡介】

王斌博士

小米AI實驗室主任，NLP首席科學家。中國中文信息學會理事，《中文信息學報》編委。加入小米公司之前，是中科院研究員、博導及中科院大學教授。譯有《信息檢索導論》《大數據：互聯網大規模數據挖掘與分布式處理》和《機器學習實戰》等書。

王達侃

優刻得AI部門負責人，曾任WeWork Research & Applied Science中國區負責人，並曾在LinkedIn、Twitter和微軟亞洲研究院負責AI以及大數據方向的研發工作。碩士畢業於美國斯坦福大學計算機繫，本科畢業於上海交通大學ACM班。

第 1章數據挖掘基本概念 1
1.1 數據挖掘的定義 1
1.1.1 建模 1
1.1.2 統計建模 2
1.1.3 機器學習 2
1.1.4 建模的計算方法 3
1.1.5 數據概括 3
1.1.6 特征抽取 4
1.2 數據挖掘的統計限制 5
1.2.1 整體情報預警 5
1.2.2 邦弗朗尼原理 5
1.2.3 邦弗朗尼原理的一個例子 6
1.2.4 習題 7
1.3 相關知識 7
1.3.1 詞語在文檔中的重要性 7
1.3.2 哈希函數 8
1.3.3 索引 9
1.3.4 二級存儲器 10
1.3.5 自然對數的底e 11
1.3.6 冪定律 12
1.3.7 習題 13
1.4 本書概要 14
1.5 小結 15
1.6 參考文獻 16
第 2章 MapReduce和新軟件棧 17
2.1 分布式文件繫統 18
2.1.1 計算節點的物理結構 18
2.1.2 大規模文件繫統的結構 19
2.2 MapReduce 20
2.2.1 Map任務 21
2.2.2 按鍵分組 21
2.2.3 Reduce任務 22
2.2.4 組合器 22
2.2.5 MapReduce的執行細節 23
2.2.6 節點故障的處理 24
2.2.7 習題 24
2.3 使用MapReduce的算法 24
2.3.1 基於MapReduce的矩陣—向量乘法實現 25
2.3.2 向量v無法放入內存時的處理 26
2.3.4 基於MapReduce的選擇運算 28
2.3.5 基於MapReduce的投影運算 28
2.3.6 基於MapReduce的並、交和差運算 29
2.3.7 基於MapReduce的自然連接運算 29
2.3.8 基於MapReduce的分組和聚合運算 30
2.3.9 矩陣乘法 30
2.3.10 基於單步MapReduce的矩陣乘法 31
2.3.11 習題 32
2.4 MapReduce的擴展 32
2.4.1 工作流繫統 33
2.4.2 Spark 34
2.4.3 Spark實現 36
2.4.4 TensorFlow 37
2.4.5 MapReduce的遞歸擴展版本 38
2.4.6 整體同步繫統 40
2.4.7 習題 41
2.5 通信開銷模型 41
2.5.1 任務網絡的通信開銷 42
2.5.2 時鐘時間 43
2.5.3 多路連接 43
2.5.4 習題 46
2.6 MapReduce復雜性理論 47
2.6.1 Reducer規模及復制率 47
2.6.2 一個例子：相似性連接 48
2.6.3 MapReduce問題的一個圖模型 51
2.6.5 並非所有輸入都存在時的處理 52
2.6.7 案例分析：矩陣乘法 54
2.6.8 習題 57
2.7 小結 58
2.8 參考文獻 59
第3章相似項發現 61
3.1 集合相似度的應用 62
3.1.1 集合的Jaccard相似度 62
3.1.2 文檔的相似度 62
3.1.3 協同過濾——一個集合相似問題 63
3.1.4 習題 64
3.2 文檔的shingling 65
3.2.1 k-shingle 65
3.2.2 shingle大小的選擇 65
3.2.3 對shingle進行哈希 66
3.2.4 基於詞的shingle 66
3.2.5 習題 67
3.3 保持相似度的集合摘要表示 67
3.3.1 集合的矩陣表示 67
3.3.2 小哈希 68
3.3.3 小哈希和Jaccard相似度 69
3.3.4 小哈希簽名 69
3.3.5 小哈希簽名的計算 70
3.3.6 對小哈希加速 72
3.3.7 使用哈希加速 73
3.3.8 習題 75
3.4 文檔的局部敏感哈希算法 76
3.4.1 面向小哈希簽名的LSH 76
3.4.2 行條化策略的分析 77
3.4.3 上述技術的綜合 79
3.4.4 習題 79
3.5 距離測度 80
3.5.1 距離測度的定義 80
3.5.2 歐氏距離 80
3.5.3 Jaccard 距離 81
3.5.4 餘弦距離 81
3.5.5 編輯距離 82
3.5.6 海明距離 83
3.5.7 習題 83
3.6 局部敏感函數理論 85
3.6.1 局部敏感函數 85
3.6.2 面向Jaccard距離的局部敏感函數族 86
3.6.3 局部敏感函數族的放大處理 87
3.6.4 習題 89
3.7 面向其他距離測度的LSH函數族 89
3.7.1 面向海明距離的LSH函數族 89
3.7.2 隨機超平面和餘弦距離 90
3.7.3 梗概 91
3.7.4 面向歐氏距離的LSH函數族 91
3.7.5 面向歐氏空間的更多LSH函數族 92
3.7.6 習題 93
3.8 LSH函數的應用 93
3.8.1 實體關聯 94
3.8.2 一個實體關聯的例子 94
3.8.3 記錄匹配的驗證 95
3.8.4 指紋匹配 96
3.8.5 適用於指紋匹配的LSH函數族 98
3.8.7 習題 99
3.9 面向高相似度的方法 99
3.9.1 相等項發現 99
3.9.2 集合的字符串表示方法 100
3.9.3 基於長度的過濾 100
3.9.4 前綴索引 101
3.9.5 位置信息的使用 102
3.9.6 使用位置和長度信息的索引 103
3.9.7 習題 105
3.10 小結 106
3.11 參考文獻 108
第4章數據流挖掘 109
4.1 流數據模型 109
4.1.1 一個數據流管理繫統 109
4.1.2 流數據源的例子 110
4.1.3 流查詢 111
4.1.4 流處理中的若干問題 112
4.2 流當中的數據抽樣 112
4.2.1 一個富有啟發性的例子 112
4.2.2 代表性樣本的獲取 113
4.2.3 一般的抽樣問題 114
4.2.4 樣本規模的變化 114
4.2.5 習題 115
4.3 流過濾 115
4.3.1 一個例子 115
4.3.2 布隆過濾器 116
4.3.3 布隆過濾方法的分析 116
4.3.4 習題 117
4.4 流素的數目統計 118
4.4.1素計數問題 118
4.4.2 FM算法 118
4.4.3 組合估計 119
4.4.4 空間需求 120
4.4.5 習題 120
4.5 矩估計 120
4.5.1 矩定義 120
4.5.2 二階矩估計的AMS算法 121
4.5.3 AMS算法有效的原因 122
4.5.4 更高階矩的估計 122
4.5.5 無限流的處理 123
4.5.6 習題 124
4.6 窗口內的計數問題 124
4.6.1 精確計數的開銷 125
4.6.2 DGIM算法 125
4.6.3 DGIM算法的存儲需求 127
4.6.4 DGIM算法中的查詢應答 127
4.6.5 DGIM條件的保持 127
4.6.6 降低錯誤率 128
4.6.7 窗口內計數問題的擴展 129
4.6.8 習題 130
4.7 衰減窗口 130
4.7.1素問題 130
4.7.2 衰減窗口的定義 130
4.7.3素的發現 131
4.8 小結 132
4.9 參考文獻 133
第5章鏈接分析 134
5.1 PageRank 134
5.1.1 早期的搜索引擎及詞項作弊 134
5.1.2 PageRank的定義 136
5.1.3 Web結構 138
5.1.4 避免終止點 140
5.1.5 采集器陷阱和“抽稅”法 142
5.1.6 PageRank在搜索引擎中的使用 144
5.1.7 習題 144
5.2 PageRank的快速計算 145
5.2.1 轉移矩陣的表示 146
5.2.2 基於MapReduce的PageRank迭代計算 146
5.2.3 結果向量合並時的組合器使用 147
5.2.4 轉移矩陣中塊的表示 148
5.2.5 其他高效的PageRank迭代方法 149
5.2.6 習題 150
5.3 面向主題的PageRank 150
5.3.1 動機 150
5.3.2 有偏的隨機遊走模型 151
5.3.3 面向主題的PageRank的使用 153
5.3.5 習題 153
5.4 鏈接作弊 153
5.4.1 垃圾農場的架構 154
5.4.2 垃圾農場的分析 155
5.4.3 與鏈接作弊的鬥爭 156
5.4.4 TrustRank 156
5.4.5 垃圾質量 156
5.4.6 習題 157
5.5 導航頁和權威頁 157
5.5.1 HITS的直觀意義 158
5.5.2 導航度和權威度的形式化 158
5.5.3 習題 161
5.6 小結 161
5.7 參考文獻 164
第6章頻繁項集 165
6.1 購物籃模型 165
6.1.1 頻繁項集的定義 165
6.1.2 頻繁項集的應用 167
6.1.3 關聯規則 168
6.1.4 高可信度關聯規則的發現 169
6.1.5 習題 170
6.2 購物籃和A-Priori算法 171
6.2.1 購物籃數據的表示 171
6.2.2 項集計數中的內存使用 172
6.2.3 項集的單調性 173
6.2.組計數 174
6.2.5 A-Priori算法 174
6.2.6 所有頻繁項集上的A-Priori算法 176
6.2.7 習題 177
6.3 更大數據集在內存中的處理 178
6.3.1 PCY算法 179
6.3.2 多階段算法 180
6.3.3 多哈希算法 182
6.3.4 習題 183
6.4 有限掃描算法 185
6.4.1 簡單的隨機化算法 185
6.4.2 抽樣算法中的錯誤規避 186
6.4.3 SON算法 187
6.4.4 SON算法和MapReduce 187
6.4.5 Toivonen算法 188
6.4.6 Toivonen算法的有效性分析 189
6.4.7 習題 189
6.5 流中的頻繁項計數 190
6.5.1 流的抽樣方法 190
6.5.2 衰減窗口中的頻繁項集 191
6.5.3 混合方法 191
6.5.4 習題 192
6.6 小結 192
6.7 參考文獻 194
第7章聚類 195
7.1 聚類技術介紹 195
7.1.1 點、空間和距離 195
7.1.2 聚類策略 196
7.1.3 維數災難 197
7.1.4 習題 198
7.2 層次聚類 198
7.2.1 歐氏空間下的層次聚類 198
7.2.2 層次聚類算法的效率 202
7.2.3 控制層次聚類的其他規則 202
7.2.4 非歐空間下的層次聚類 204
7.2.5 習題 205
7.3 k-均值算法 206
7.3.1 k-均值算法基本知識 206
7.3.2 k-均值算法的簇初始化 206
7.3.3 選擇正確的k值 207
7.3.4 BFR算法 208
7.3.5 BFR算法中的數據處理 210
7.3.6 習題 211
7.4 CURE算法 212
7.4.1 CURE算法的初始化 213
7.4.2 CURE算法的完成 214
7.4.3 習題 214
7.5 非歐空間下的聚類 215
7.5.1 GRGPF算法中的簇表示 215
7.5.2 簇表示樹的初始化 215
7.5.3 GRGPF算法中的點加入 216
7.5.4 簇的分裂及合並 217
7.5.5 習題 218
7.6 流聚類及並行化 218
7.6.1 流計算模型 218
7.6.2 一個流聚類算法 219
7.6.3 桶的初始化 219
7.6.4 桶合並 219
7.6.5 查詢應答 221
7.6.6 並行環境下的聚類 221
7.6.7 習題 222
7.7 小結 222
7.8 參考文獻 224
第8章 Web廣告 226
8.1 在線廣告相關問題 226
8.1.1 廣告機會 226
8.1.2 直投廣告 227
8.1.3 展示廣告的相關問題 227
8.2 在線算法 228
8.2.1 在線和離線算法 228
8.2.2 貪心算法 229
8.2.3 競爭率 230
8.2.4 習題 230
8.3 廣告匹配問題 231
8.3.1 匹配及完美匹配 231
8.3.2 極大匹配貪心算法 232
8.3.3 貪心匹配算法的競爭率 232
8.3.4 習題 233
8.4 adwords問題 233
8.4.1 搜索廣告的歷史 234
8.4.2 adwords問題的定義 234
8.4.3 adwords問題的貪心方法 235
8.4.4 Balance算法 236
8.4.5 Balance算法競爭率的一個下界 236
8.4.6 多投標者的Balance算法 238
8.4.7 一般性的Balance算法 239
8.4.8 adwords問題的後論述 240
8.4.9 習題 240
8.5 adwords的實現 240
8.5.1 投標和搜索查詢的匹配 241
8.5.2 更復雜的匹配問題 241
8.5.3 文檔和投標之間的匹配算法 242
8.6 小結 243
8.7 參考文獻 245
第9章推薦繫統 246
9.1 推薦繫統的模型 246
9.1.1 效用矩陣 246
9.1.2 長尾現像 247
9.1.3 推薦繫統的應用 249
9.1.4 效用矩陣的填充 249
9.2 基於內容的推薦 249
9.2.1 項模型 250
9.2.2 文檔的特征發現 250
9.2.3 基於Tag的項特征獲取 251
9.2.4 項模型的表示 252
9.2.5 用戶模型 253
9.2.6 基於內容的項推薦 254
9.2.7 分類算法 254
9.2.8 習題 256
9.3 協同過濾 257
9.3.1 相似度計算 257
9.3.2 相似度對偶性 259
9.3.3 用戶聚類和項聚類 261
9.3.4 習題 262
9.4 降維處理 262
9.4.1 UV分解 262
9.4.2 RMSE 263
9.4.3 UV分解的增量式計算 264
9.4.4 素的優化 267
9.4.5 一個完整UV分解算法的構建 269
9.5 Netflix競賽 270
9.6 小結 271
9.7 參考文獻 272
第 10章社會網絡圖挖掘 273
10.1 將社會網絡看成圖 273
10.1.1 社會網絡的概念 273
10.1.2 將社會網絡看成圖 274
10.1.3 各種社會網絡的例子 275
10.1.4 多類型節點構成的圖 276
10.1.5 習題 277
10.2 社會網絡圖的聚類 277
10.2.1 社會網絡圖的距離計算 277
10.2.2 應用標準的聚類算法 278
10.2.3 中介度 279
10.2.4 Girvan-Newman算法 279
10.2.5 利用中介度來發現社區 282
10.2.6 習題 283
10.3 社區的直接發現 283
10.3.1 團的發現 284
10.3.2 完全二部圖 284
10.3.3 發現完全二部子圖 285
10.3.4 完全二部子圖一定存在的原因 285
10.3.5 習題 287
10.4 圖劃分 287
10.4.1 圖劃分的好壞標準 288
10.4.2 歸一化割 288
10.4.3 描述圖的一些矩陣 289
10.4.4 拉普拉斯矩陣的特征值 290
10.4.5 其他圖劃分方法 292
10.4.6 習題 292
10.5 重疊社區的發現 293
10.5.1 社區的本質 293
10.5.2 極大似然估計 294
10.5.3 關繫圖模型 295
10.5.4 社區分配的離散優化 296
10.5.5 避免成員隸屬關繫的離散式變化 297
10.5.6 習題 298
10.6 Simrank 299
10.6.1 社會網絡上的隨機遊走者 299
10.6.2 帶重啟的隨機遊走 300
10.6.3 近似Simrank 302
10.6.4 近似Simrank有效的原因 303
10.6.5 Simrank在社區發現中的應用 304
10.6.6 習題 305
10.7 三角形計數問題. 306
10.7.1 為什麼要對三角形計數 306
10.7.2 一個尋找三角形的算法 307
10.7.3 三角形尋找算法的性 308
10.7.4 基於MapReduce尋找三角形 308
10.7.5 使用更少的Reduce任務 310
10.7.6 習題 310
10.8 圖的鄰居性質 311
10.8.1 有向圖和鄰居 311
10.8.2 圖的直徑 312
10.8.3 傳遞閉包和可達性 313
10.8.4 基於MapReduce的可達性計算 314
10.8.5 半樸素求值 315
10.8.6 線性傳遞閉包 315
10.8.7 基於雙重遞歸的傳遞閉包 316
10.8.8 智能傳遞閉包 317
10.8.9 多種方法的比較 319
10.8.10 基於圖歸約的傳遞閉包 320
10.8.11 鄰居規模的近似計算 321
10.8.12 習題 323
10.9 小結 324
10.10 參考文獻 326
第 11章降維處理 328
11.1 特征值和特征向量 328
11.1.1 定義 328
11.1.2 特征值與特征向量計算 329
11.1.3 基於冪迭代方法的特征對求解 331
11.1.4 特征向量矩陣 333
11.1.5 習題 333
11.2 主成分分析 334
11.2.1 一個示例 334
11.2.2 利用特征向量進行降維 337
11.2.3 距離矩陣 338
11.2.4 習題 339
11.3 奇異值分解 339
11.3.1 SVD的定義 339
11.3.2 SVD解析 341
11.3.3 基於SVD的降維 342
11.3.4 將較低奇異值置為0後有效的原因 343
11.3.5 使用概念進行查詢處理 344
11.3.6 矩陣SVD的計算 345
11.3.7 習題 346
11.4 CUR分解 347
11.4.1 CUR的定義 347
11.4.2 合理選擇行和列 348
11.4.3 構建中間矩陣 349
11.4.4 完整的CUR分解 350
11.4.5 去除重復行和列 351
11.4.6 習題 352
11.5 小結 352
11.6 參考文獻 353
第 12章大規模機器學習 354
12.1 機器學習模型 354
12.1.1 訓練集 354
12.1.2 一些例子 355
12.1.3 機器學習方法 357
12.1.4 機器學習架構 358
12.1.5 習題 360
12.2 感知機 360
12.2.1 訓練閾值為0的感知機 361
12.2.2 感知機的收斂性 363
12.2.3 Winnow算法 364
12.2.4 允許閾值變化的情況 365
12.2.5 多類感知機 366
12.2.6 變換訓練集 367
12.2.7 感知機的問題 368
12.2.8 感知機的並行實現 369
12.2.9 習題 370
12.3 支持向量機 371
12.3.1 支持向量機的機理 371
12.3.2 超平面歸一化 372
12.3.3 尋找逼近分界面 374
12.3.4 基於梯度下降法求解SVM 380
12.3.6 SVM的並行實現 380
12.3.7 習題 381
12.4 近鄰學習 381
12.4.1 近鄰計算的框架 381
12.4.2 近鄰學習 382
12.4.3 學習一維函數 383
12.4.4 核回歸 384
12.4.5 處理高維歐氏空間數據 385
12.4.6 對非歐距離的處理 386
12.4.7 習題 386
12.5 決策樹 387
12.5.1 使用決策樹 387
12.5.2 不純度度量方法 389
12.5.3 決策樹節點的設計 390
12.5.4 選擇基於數值型特征的測試 390
12.5.5 選擇基於分類型特征的測試 392
12.5.6 決策樹的並行設計 393
12.5.7 節點剪枝 394
12.5.8 隨機森林 395
12.5.9 習題 396
12.6 各種學習方法的比較 397
12.7 小結 397
12.8 參考文獻 399
第 13章神經網絡與深度學習 400
13.1 神經網絡簡介 400
13.1.1 神經網絡概述 402
13.1.2 節點間的連接 403
13.1.3 卷積神經網絡 403
13.1.4 神經網絡的設計事項 404
13.1.5 習題 404
13.2 密集型前饋網絡 405
13.2.1 基於線性代數的記法 405
13.2.2 激活函數 406
13.2.3 sigmoid函數 407
13.2.4 雙曲正切函數 407
13.2.5 softmax函數 408
13.2.6 修正 409
13.2.7 損失函數 410
13.2.8 回歸損失函數 410
13.2.9 分類損失函數 411
13.2.10 習題 412
13.3 反向傳播與梯度下降 413
13.3.1 計算圖 414
13.3.2 梯度、雅可比矩陣與鏈式法則 415
13.3.3 反向傳播算法 416
13.3.4 梯度下降的迭代計算 418
13.3.5 張量 419
13.3.6 習題 420
13.4 卷積神經網絡 420
13.4.1 卷積層 421
13.4.2 卷積與互相關 423
13.4.3 池化層 424
13.4.4 CNN架構 424
13.4.5 實現與訓練 426
13.4.6 習題 427
13.5 循環神經網絡 427
13.5.1 RNN的訓練 428
13.5.2 梯度消失與爆炸 430
13.5.3 長短期記憶網絡 431
13.5.4 習題 433
13.6 正則化 433
13.6.1 範式懲罰 434
13.6.2 dropout 434
13.6.3 提前停止 434
13.6.4 數據增強 435
13.7 小結 435
13.8 參考文獻 436

商品搜索

商品分类

【醫學】

【各大出版社】