了得網圖書_信息檢索導論修訂版

作者:(美)克裡斯托夫·曼寧(Christopher Manning),(美)普拉巴卡爾·拉格萬(Prabhakar Raghavan),(德)欣裡希·舒策(Hinrich Schutze) 著王斌, 譯

定價:99

出版社:人民郵電出版社

出版日期:2019年07月01日

頁數:369

裝幀:平裝

ISBN:9787115514080

●第1章布爾檢索1
1.1一個信息檢索的例子2
1.2構建倒排索引的初體驗5
1.3布爾查詢的處理8
1.4對基本布爾操作的擴展及有序檢索11
1.5參考文獻及補充讀物13
第2章詞項詞典及倒排記錄表14
2.1文檔分析及編碼轉換14
2.1.1字符序列的生成14
2.1.2文檔單位的選擇16
2.2詞項集合的確定16
2.2.1詞條化16
2.2.2去除停用詞19
2.2.3詞項歸一化20
2.2.4詞干還原和詞形歸並23
2.3基於跳表的倒排記錄表快速合並算法26
2.4含位置信息的倒排記錄表及短語查詢28
2.4詞索引28
2.4.2位置信息索引29
2.4.3混合索引機制31
2.5參考文獻及補充讀物32
第3章詞典及容錯式檢索34
3.1詞典搜索的數據結構34
3.2通配符查詢36
3.2.1一般的通配符查詢37
3.2.2支持通配符查詢的k-gram索引38
3.3拼寫校正39
3.3.1拼寫校正的實現39
3.3.2拼寫校正的方法40
3.3.3編輯距離40
3.3.4拼寫校正中的k-gram索引42
3.3.5上下文敏感的拼寫校正43
3.4基於發音的校正技術44
3.5參考文獻及補充讀物45
第4章索引構建46
4.1硬件基礎46
4.2基於塊的排序索引方法47
4.3內存式單遍掃描索引構建方法50
4.4分布式索引構建方法51
4.5動態索引構建方法54
4.6其他索引類型56
4.7參考文獻及補充讀物57
第5章索引壓縮59
5.1信息檢索中詞項的統計特性59
5.1.1Heaps定律：詞項數目的估計61
5.1.2Zipf定律：對詞項的分布建模62
5.2詞典壓縮63
5.2.1將詞典看成單一字符串的壓縮方法63
5.2.2按塊存儲64
5.3倒排記錄表的壓縮66
5.3.1可變字節碼67
5.3.2γ編碼68
5.4參考文獻及補充讀物74
第6章文檔評分、詞項權重計算及向量空間模型76
6.1參數化索引及域索引76
6.1.1域加權評分78
6.1.2權重學習79
6.1.3很優權重g的計算80
6.2詞項頻率及權重計算81
6.2.1逆文檔頻率81
6.2.2tf-idf權重計算82
6.3向量空間模型83
6.3.1內積83
6.3.2查詢向量86
6.3.3向量相似度計算87
6.4其他tf-idf權重計算方法88
6.4.1tf的亞線性尺度變換方法88
6.4.2基於優選值的tf歸一化88
6.4.3文檔權重和查詢權重機制89
6.4.4文檔長度的回轉歸一化89
6.5參考文獻及補充讀物92
第7章一個完整搜索繫統中的評分計算93
7.1快速評分及排序93
7.1.1非準確返回前K篇文檔的方法94
7.1.2索引去除技術94
7.1.3勝者表95
7.1.4靜態得分和排序95
7.1.5影響度排序96
7.1.6簇剪枝方法97
7.2信息檢索繫統的組成98
7.2.1層次型索引98
7.2.2查詢詞項的鄰近性98
7.2.3查詢分析及文檔評分函數的設計99
7.2.4搜索繫統的組成100
7.3向量空間模型對各種查詢操作的支持101
7.3.1布爾查詢101
7.3.2通配符查詢102
7.3.3短語查詢102
7.4參考文獻及補充讀物102
第8章信息檢索的評價103
8.1信息檢索繫統的評價103
8.2標準測試集104
8.3無序檢索結果集合的評價105
8.4有序檢索結果的評價方法108
8.5相關性判定112
8.6更廣的視角看評價：繫統質量及用戶效用115
8.6.1繫統相關問題115
8.6.2用戶效用115
8.6.3對已有繫統的改進116
8.7結果片段116
8.8參考文獻及補充讀物118
第9章相關反饋及查詢擴展120
9.1相關反饋及偽相關反饋120
9.1.1Rocchio相關反饋算法122
9.1.2基於概率的相關反饋方法125
9.1.3相關反饋的作用時機125
9.1.4Web上的相關反饋126
9.1.5相關反饋策略的評價127
9.1.6偽相關反饋127
9.1.7間接相關反饋128
9.1.8小結128
9.2查詢重構的全局方法128
9.2.1查詢重構的詞彙表工具128
9.2.2查詢擴展129
9.2.3同義詞詞典的自動構建130
9.3參考文獻及補充讀物131
第10章XML檢索133
10.1XML的基本概念134
10.2XML檢索中的挑戰性問題137
10.3基於向量空間模型的XML檢索140
10.4XML檢索的評價144
10.5XML檢索：以文本為中心與以數據為中心的對比146
10.6參考文獻及補充讀物148
第11章概率檢索模型150
11.1概率論基礎知識150
11.2概率排序原理151
11.2.110風險的情況151
11.2.2基於檢索代價的概率排序原理152
11.3二值獨立模型152
11.3.1排序函數的推導153
11.3.2理論上的概率估計方法155
11.3.3實際中的概率估計方法156
11.3.4基於概率的相關反饋方法157
11.4概率模型的相關評論及擴展158
11.4.1概率模型的評論158
11.4.2詞項之間的樹型依賴159
11.4.3OkapiBM25：一個非二值的模型160
11.4.4IR中的貝葉斯網絡方法161
11.5參考文獻及補充讀物162
第12章基於語言建模的信息檢索模型163
12.1語言模型163
12.1.1有窮自動機和語言模型163
12.1.2語言模型的種類165
12.1.3詞的多項式分布166
12.2查詢似然模型167
12.2.1IR中的查詢似然模型167
12.2.2查詢生成概率的估計167
12.2.3Ponte和Croft進行的實驗169
12.3語言建模的方法與其他檢索方法的比較171
12.4擴展的LM方法172
12.5參考文獻及補充讀物173
第13章文本分類及樸素貝葉斯方法175
13.1文本分類問題177
13.2樸素貝葉斯文本分類178
13.3伯努利模型182
13.4NB的性質183
13.5特征選擇188
13.5.1互信息188
13.5.22統計量191
13.5.3基於頻率的特征選擇方法192
13.5.4多類問題的特征選擇方法193
13.5.5不同特征選擇方法的比較193
13.6文本分類的評價194
13.7參考文獻及補充讀物199
第14章基於向量空間模型的文本分類200
14.1文檔表示及向量空間中的關聯度計算201
14.2Rocchio分類方法202
14.3k近鄰分類器205
14.4線性及非線性分類器209
14.5多類問題的分類212
14.6偏差—方差折中準則214
14.7參考文獻及補充讀物219
第15章支持向量機及文檔機器學習方法221
15.1二類線性可分條件下的支持向量機221
15.2支持向量機的擴展226
15.2.1軟間隔分類226
15.2.2多類情況下的支持向量機228
15.2.3非線性支持向量機228
15.2.4實驗結果230
15.3有關文本文檔分類的考慮231
15.3.1分類器類型的選擇232
15.3.2分類器效果的提高233
15.4adhoc檢索中的機器學習方法236
15.4.1基於機器學習評分的簡單例子236
15.4.2基於機器學習的檢索結果排序238
15.5參考文獻及補充讀物239
第16章扁平聚類241
16.1信息檢索中的聚類應用242
16.2問題描述244
16.3聚類算法的評價246
16.4K-均值算法248
16.5基於模型的聚類254
16.6參考文獻及補充讀物258
第17章層次聚類260
17.1凝聚式層次聚類260
17.2單連接及全連接聚類算法263
17.3組平均凝聚式聚類268
17.4質心聚類269
17.5層次凝聚式聚類的很優性270
17.6分裂式聚類272
17.7簇標簽生成273
17.8實施中的注意事項274
17.9參考文獻及補充讀物275
第18章矩陣分解及隱性語義索引277
18.1線性代數基礎277
18.2詞項—文檔矩陣及SVD280
18.3低秩逼近282
18.4LSI284
18.5參考文獻及補充讀物288
第19章Web搜索基礎289
19.1背景和歷史289
19.2Web的特性290
19.2.1Web圖291
19.2.2作弊網頁293
19.3廣告經濟模型294
19.4搜索用戶體驗296
19.5索引規模及其估計297
19.6近似重復及搭疊300
19.7參考文獻及補充讀物303
第20章Web采集及索引304
20.1概述304
20.1.1采集器必須提供的功能特點304
20.1.2采集器應該提供的功能特點304
20.2采集305
20.2.1采集器架構305
20.2.2DNS解析308
20.2.3待采集URL池309
20.3分布式索引311
20.4連接服務器312
20.5參考文獻及補充讀物314
第21章鏈接分析316
21.1Web圖316
21.2PageRank318
21.2.1馬爾科夫鏈318
21.2.2PageRank的計算320
21.2.3面向主題的PageRank322
21.3Hub網頁及Authority網頁325
21.4參考文獻及補充讀物329
參考文獻331
索引356

本書是信息檢索的教材，旨在從計算機科學的視角提供一種現代的信息檢索方法。書中從基本概念講解網絡搜索以及文本分類和文本聚類等，對收集、索引和搜索文檔繫統的設計和實現的方方面面、評估繫統的方法、機器學習方法在文本收集中的應用等給出了近期新的講解。

商品搜索

商品分类

【醫學】

【各大出版社】