![](/c3/53812833770.jpg)
出版社:人民郵電出版社 ISBN:9787115514080 商品編碼:53812833770 品牌:文軒 出版時間:2019-07-01 代碼:99 作者:克裡斯托夫·曼寧(ChristopherMa
"![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg) 作 者:(美)克裡斯托夫·曼寧(Christopher Manning),(美)普拉巴卡爾·拉格萬(Prabhakar Raghavan),(德)欣裡希·舒策(Hinrich Schutze) 著 王斌, 譯 定 價:99 出 版 社:人民郵電出版社 出版日期:2019年07月01日 頁 數:369 裝 幀:平裝 ISBN:9787115514080 ●第1章布爾檢索1 1.1一個信息檢索的例子2 1.2構建倒排索引的初體驗5 1.3布爾查詢的處理8 1.4對基本布爾操作的擴展及有序檢索11 1.5參考文獻及補充讀物13 第2章詞項詞典及倒排記錄表14 2.1文檔分析及編碼轉換14 2.1.1字符序列的生成14 2.1.2文檔單位的選擇16 2.2詞項集合的確定16 2.2.1詞條化16 2.2.2去除停用詞19 2.2.3詞項歸一化20 2.2.4詞干還原和詞形歸並23 2.3基於跳表的倒排記錄表快速合並算法26 2.4含位置信息的倒排記錄表及短語查詢28 2.4詞索引28 2.4.2位置信息索引29 2.4.3混合索引機制31 2.5參考文獻及補充讀物32 第3章詞典及容錯式檢索34 3.1詞典搜索的數據結構34 3.2通配符查詢36 3.2.1一般的通配符查詢37 3.2.2支持通配符查詢的k-gram索引38 3.3拼寫校正39 3.3.1拼寫校正的實現39 3.3.2拼寫校正的方法40 3.3.3編輯距離40 3.3.4拼寫校正中的k-gram索引42 3.3.5上下文敏感的拼寫校正43 3.4基於發音的校正技術44 3.5參考文獻及補充讀物45 第4章索引構建46 4.1硬件基礎46 4.2基於塊的排序索引方法47 4.3內存式單遍掃描索引構建方法50 4.4分布式索引構建方法51 4.5動態索引構建方法54 4.6其他索引類型56 4.7參考文獻及補充讀物57 第5章索引壓縮59 5.1信息檢索中詞項的統計特性59 5.1.1Heaps定律:詞項數目的估計61 5.1.2Zipf定律:對詞項的分布建模62 5.2詞典壓縮63 5.2.1將詞典看成單一字符串的壓縮方法63 5.2.2按塊存儲64 5.3倒排記錄表的壓縮66 5.3.1可變字節碼67 5.3.2γ編碼68 5.4參考文獻及補充讀物74 第6章文檔評分、詞項權重計算及向量空間模型76 6.1參數化索引及域索引76 6.1.1域加權評分78 6.1.2權重學習79 6.1.3很優權重g的計算80 6.2詞項頻率及權重計算81 6.2.1逆文檔頻率81 6.2.2tf-idf權重計算82 6.3向量空間模型83 6.3.1內積83 6.3.2查詢向量86 6.3.3向量相似度計算87 6.4其他tf-idf權重計算方法88 6.4.1tf的亞線性尺度變換方法88 6.4.2基於優選值的tf歸一化88 6.4.3文檔權重和查詢權重機制89 6.4.4文檔長度的回轉歸一化89 6.5參考文獻及補充讀物92 第7章一個完整搜索繫統中的評分計算93 7.1快速評分及排序93 7.1.1非準確返回前K篇文檔的方法94 7.1.2索引去除技術94 7.1.3勝者表95 7.1.4靜態得分和排序95 7.1.5影響度排序96 7.1.6簇剪枝方法97 7.2信息檢索繫統的組成98 7.2.1層次型索引98 7.2.2查詢詞項的鄰近性98 7.2.3查詢分析及文檔評分函數的設計99 7.2.4搜索繫統的組成100 7.3向量空間模型對各種查詢操作的支持101 7.3.1布爾查詢101 7.3.2通配符查詢102 7.3.3短語查詢102 7.4參考文獻及補充讀物102 第8章信息檢索的評價103 8.1信息檢索繫統的評價103 8.2標準測試集104 8.3無序檢索結果集合的評價105 8.4有序檢索結果的評價方法108 8.5相關性判定112 8.6更廣的視角看評價:繫統質量及用戶效用115 8.6.1繫統相關問題115 8.6.2用戶效用115 8.6.3對已有繫統的改進116 8.7結果片段116 8.8參考文獻及補充讀物118 第9章相關反饋及查詢擴展120 9.1相關反饋及偽相關反饋120 9.1.1Rocchio相關反饋算法122 9.1.2基於概率的相關反饋方法125 9.1.3相關反饋的作用時機125 9.1.4Web上的相關反饋126 9.1.5相關反饋策略的評價127 9.1.6偽相關反饋127 9.1.7間接相關反饋128 9.1.8小結128 9.2查詢重構的全局方法128 9.2.1查詢重構的詞彙表工具128 9.2.2查詢擴展129 9.2.3同義詞詞典的自動構建130 9.3參考文獻及補充讀物131 第10章XML檢索133 10.1XML的基本概念134 10.2XML檢索中的挑戰性問題137 10.3基於向量空間模型的XML檢索140 10.4XML檢索的評價144 10.5XML檢索:以文本為中心與以數據為中心的對比146 10.6參考文獻及補充讀物148 第11章概率檢索模型150 11.1概率論基礎知識150 11.2概率排序原理151 11.2.110風險的情況151 11.2.2基於檢索代價的概率排序原理152 11.3二值獨立模型152 11.3.1排序函數的推導153 11.3.2理論上的概率估計方法155 11.3.3實際中的概率估計方法156 11.3.4基於概率的相關反饋方法157 11.4概率模型的相關評論及擴展158 11.4.1概率模型的評論158 11.4.2詞項之間的樹型依賴159 11.4.3OkapiBM25:一個非二值的模型160 11.4.4IR中的貝葉斯網絡方法161 11.5參考文獻及補充讀物162 第12章基於語言建模的信息檢索模型163 12.1語言模型163 12.1.1有窮自動機和語言模型163 12.1.2語言模型的種類165 12.1.3詞的多項式分布166 12.2查詢似然模型167 12.2.1IR中的查詢似然模型167 12.2.2查詢生成概率的估計167 12.2.3Ponte和Croft進行的實驗169 12.3語言建模的方法與其他檢索方法的比較171 12.4擴展的LM方法172 12.5參考文獻及補充讀物173 第13章文本分類及樸素貝葉斯方法175 13.1文本分類問題177 13.2樸素貝葉斯文本分類178 13.3伯努利模型182 13.4NB的性質183 13.5特征選擇188 13.5.1互信息188 13.5.22統計量191 13.5.3基於頻率的特征選擇方法192 13.5.4多類問題的特征選擇方法193 13.5.5不同特征選擇方法的比較193 13.6文本分類的評價194 13.7參考文獻及補充讀物199 第14章基於向量空間模型的文本分類200 14.1文檔表示及向量空間中的關聯度計算201 14.2Rocchio分類方法202 14.3k近鄰分類器205 14.4線性及非線性分類器209 14.5多類問題的分類212 14.6偏差—方差折中準則214 14.7參考文獻及補充讀物219 第15章支持向量機及文檔機器學習方法221 15.1二類線性可分條件下的支持向量機221 15.2支持向量機的擴展226 15.2.1軟間隔分類226 15.2.2多類情況下的支持向量機228 15.2.3非線性支持向量機228 15.2.4實驗結果230 15.3有關文本文檔分類的考慮231 15.3.1分類器類型的選擇232 15.3.2分類器效果的提高233 15.4adhoc檢索中的機器學習方法236 15.4.1基於機器學習評分的簡單例子236 15.4.2基於機器學習的檢索結果排序238 15.5參考文獻及補充讀物239 第16章扁平聚類241 16.1信息檢索中的聚類應用242 16.2問題描述244 16.3聚類算法的評價246 16.4K-均值算法248 16.5基於模型的聚類254 16.6參考文獻及補充讀物258 第17章層次聚類260 17.1凝聚式層次聚類260 17.2單連接及全連接聚類算法263 17.3組平均凝聚式聚類268 17.4質心聚類269 17.5層次凝聚式聚類的很優性270 17.6分裂式聚類272 17.7簇標簽生成273 17.8實施中的注意事項274 17.9參考文獻及補充讀物275 第18章矩陣分解及隱性語義索引277 18.1線性代數基礎277 18.2詞項—文檔矩陣及SVD280 18.3低秩逼近282 18.4LSI284 18.5參考文獻及補充讀物288 第19章Web搜索基礎289 19.1背景和歷史289 19.2Web的特性290 19.2.1Web圖291 19.2.2作弊網頁293 19.3廣告經濟模型294 19.4搜索用戶體驗296 19.5索引規模及其估計297 19.6近似重復及搭疊300 19.7參考文獻及補充讀物303 第20章Web采集及索引304 20.1概述304 20.1.1采集器必須提供的功能特點304 20.1.2采集器應該提供的功能特點304 20.2采集305 20.2.1采集器架構305 20.2.2DNS解析308 20.2.3待采集URL池309 20.3分布式索引311 20.4連接服務器312 20.5參考文獻及補充讀物314 第21章鏈接分析316 21.1Web圖316 21.2PageRank318 21.2.1馬爾科夫鏈318 21.2.2PageRank的計算320 21.2.3面向主題的PageRank322 21.3Hub網頁及Authority網頁325 21.4參考文獻及補充讀物329 參考文獻331 索引356 本書是信息檢索的教材,旨在從計算機科學的視角提供一種現代的信息檢索方法。書中從基本概念講解網絡搜索以及文本分類和文本聚類等,對收集、索引和搜索文檔繫統的設計和實現的方方面面、評估繫統的方法、機器學習方法在文本收集中的應用等給出了近期新的講解。 ![](https://img10.360buyimg.com/imgzone/jfs/t1/147514/7/5440/73116/5f34a3beE3ba58783/f5b2391383f5625c.jpg)
" |