出版者的話
譯者序
第2版前言
第1版前言
第2版致謝
第1版致謝
出版商致謝
第1章引言
1.1信息檢索
1.1.1信息檢索的早期發展
1.1.2圖書館和數字圖書館中的信息檢索
1.1.3舞臺中央的信息檢索
1.2信息檢索問題
1.2.1用戶的任務
1.2.2信息檢索與數據檢索
1.3信息檢索繫統
1.3.1信息檢索繫統的軟件架構
1.3.2檢索和排序過程
1.4Web
1.4.1Web簡史
1.4.2電子出版時代
1.4.3Web如何改變搜索
1.4.4Web上的實際問題
1.5本書的組織結構
1.5.1本書的重點
1.5.2本書的內容
1.6本書的教學資源網站
1.7文獻討論
第2章用戶搜索界面
2.1介紹
2.2人們如何搜索
2.2.1信息查找與探索式搜索
2.2.2信息搜尋的經典模型與動態模型
2.2.3導航與搜索
2.2.4對搜索過程的觀察
2.3現今的搜索界面
2.3.1啟動搜尋
2.3.2查詢描述
2.3.3查詢描述界面
2.3.4檢索結果顯示
2.3.5查詢重構
2.3.6組織搜索結果
2.4搜索界面的可視化
2.4.1可視化布爾語法
2.4.2可視化查詢結果中的查詢項
2.4.3可視化詞語和文檔間的關繫
2.4.4文本挖掘的可視化
2.5搜索界面的設計和評價
2.6趨勢和研究問題
2.7文獻討論
第3章信息檢索建模
3.1信息檢索模型
3.1.1建模和排序
3.1.2信息檢索模型描述
3.1.3信息檢索模型的分類體繫
3.2經典信息檢索
3.2.1基本概念
3.2.2布爾模型
3.2.3項權重
3.2.4TF-IDF權重
3.2.5文檔長度歸一化
3.2.6向量模型
3.2.7概率模型
3.2.8經典模型之間的簡單比較
3.3其他集合論模型
3.3.1基於集合的模型
3.3.2擴展布爾模型
3.3.3模糊集模型
3.4其他代數模型
3.4.1廣義向量空間模型
3.4.2潛在語義索引模型
3.4.3神經網絡模型
3.5其他概率模型
3.5.1BM25模型
3.5.2語言模型
3.5.3隨機差異模型
3.5.4貝葉斯網模型
3.6其他模型
3.6.1超文本模型
3.6.2基於Web的模型
3.6.3結構化文本檢索
3.6.4多媒體檢索
3.6.5企業和垂直搜索
3.7趨勢和研究問題
3.8文獻討論
第4章檢索評價
4.1介紹
4.2Cranfield範式
4.2.1歷史簡述
4.2.2參考集
4.3檢索指標
4.3.1精度和召回率
4.3.2單值總結:,MAP,MRR,F
4.3.3面向用戶的指標
4.3.4累積增益
4.3.偏好
4.3.6排序相關性測度
4.4參考文檔集
4.4.1TREC參考集
4.4.2其他參考集
4.4.3其他小規模測試文檔集
4.5基於用戶的評價
4.5.1實驗室中的人工實驗
4.5.2並排面板
4.5.3A/B測試
4.5.4眾包
4.5.5使用點擊數據的評價
4.6實踐說明
4.7趨勢和研究問題
4.8文獻討論
第5章相關反饋與查詢擴展
5.1介紹
5.2反饋方法的框架
5.3顯式相關反饋
5.3.1向量模型的相關反饋:Rocchio方法
5.3.2概率模型的相關反饋
5.3.3相關反饋的評價
5.4基於點擊的顯式反饋
5.4.1眼動追蹤和相關性評價
5.4.2用戶行為
5.4.3點擊作為用戶偏好的指標
5.5通過局部分析的隱式反饋
5.5.1通過局部聚類的隱式反饋
5.5.2通過局部上下文分析的隱式反饋
5.6通過全局分析的隱式反饋
5.6.1基於相似度同義詞典的查詢擴展
5.6.2基於統計同義詞典的查詢擴展
5.7趨勢和研究問題
5.8文獻討論
第6章文檔:語言及屬性
6.1介紹
6數據
6.3文檔格式
6.3.1文本
6.3.2多媒體
6.3.3圖形和虛擬現實
6.4標記語言
6.4.1SGML
6.4.2HTML
6.4.3XML
6.4.4RDF
6.4.5HyTime
6.5文本屬性
6.5.1信息論
6.5.2自然語言建模
6.5.3文本相似度
6.6文檔預處理
6.6.1文本的詞彙分析
6.6.2去除禁用詞
6.6.3詞干提取
6.6.4關鍵詞選擇
6.6.5同義詞典
6.7組織文檔
6.7.1分類體繫法
6.7.2分眾分類法
6.8文本壓縮
6.8.1基本概念
6.8.2統計方法
6.8.3統計方法:建模
6.8.4統計方法:編碼
6.8.5字典方法
6.8.6壓縮預處理
6.8.7文本壓縮技術的比較
6.8.8結構化文本壓縮
6.9趨勢和研究問題
6.10文獻討論
第7章查詢:語言及屬性
7.1查詢語言
7.1.1基於關鍵詞的查詢
7.1.2非關鍵詞查詢
7.1.3結構化查詢
7.1.4查詢協議
7.2查詢屬性
7.2.1Web查詢的特征
7.2.2用戶搜索行為
7.2.3查詢意圖
7.2.4查詢主題
7.2.5查詢會話與任務
7.2.6查詢難度
7.3趨勢和研究問題
7.4文獻討論
第8章文本分類
8.1介紹
8.2文本分類的特性描述
8.2.1機器學習
8.2.2文本分類問題
8.2.3文本分類算法
8.3無監督算法
8.3.1聚類
8.3.2樸素文本分類
8.4監督算法
8.4.1決策樹
8.4.2k近鄰分類器
8.4.3Rocchio分類器
8.4.4概率樸素貝葉斯文檔分類
8.4.5支持向量機分類器
8.4.6集成分類器
8.4.7關於監督算法的結束語
8.5特征選擇或降維
8.5.1項-類別出現列聯表
8.5.2索引項文檔頻率
8.5.3TF-IDF權重
8.5.4互信息
8.5.5信息增益
8.5.6卡方檢驗
8.5.7特征選擇的作用
8.6評價指標
8.6.1列聯表
8.6.2準確率和錯誤率
8.6.3精度和召回率
8.6.4F測度和F
8.6.5交叉檢驗
8.6.6標準文檔集
8.7類別組織--構建分類體繫
8.8趨勢和研究問題
8.9文獻討論
第9章索引和搜索
9.1介紹
9.2倒排索引
9.2.1基本概念
9.2.2完全倒排索引
9.2.3搜索
9.2.4排序
9.2.5構建
9.2.6壓縮的倒排索引
9.2.7結構化查詢
9.3簽名文件
9.4後綴樹和後綴數組
9.4.1結構:trie樹和後綴樹
9.4.2簡單字符串搜索
9.4.3復雜模式的搜索
9.4.4構建
9.4.5壓縮的後綴數組
9.5序列搜索
9.5.1簡單字符串:Horspool
9.5.2復雜模式:自動機和位並行
9.5.3更快的位並行算法
9.5.4正則表達式
9.5.5多重模式
9.5.6近似搜索
9.5.7搜索壓縮文本
9.6多維索引
9.7趨勢和研究問題
9.8文獻討論
第10章並行與分布式信息檢索
10.1介紹
10.2分布式信息檢索繫統的分類
10.3數據劃分
10.3.1文檔集劃分
10.3.2文檔集選擇
10.3.3倒排索引劃分
10.3.4劃分其他索引
10.4並行信息檢索
10.4.1介紹
10.4.2在MIMD架構上的並行信息檢索
10.4.3在SIMD架構上的並行信息檢索
10.5基於集群的信息檢索
10.6分布式信息檢索
10.6.1介紹
10.6.2索引
10.6.3查詢處理
10.6.4Web問題
10.7聯合搜索
10.8在對等網絡中的檢索
10.9趨勢和研究問題
10.10文獻討論
第11章Web檢索
11.1介紹
11.2一個有挑戰性的問題
11.3Web
11.3.1特性
11.3.2Web圖的結構
11.3.3對Web建模
11.3.4鏈接分析
11.4搜索引擎架構
11.4.1基本架構
11.4.2基於集群的架構
11.4.3緩存
11.4.4多級索引
11.4.5分布式架構
11.5搜索引擎排序
11.5.1排序信號
11.5.2基於鏈接的排序
11.5.3簡單的排序函數
11.5.4排序學習
11.5.5學習排序函數
11.5.6質量評價
11.5.7Web垃圾
11.6管理Web數據
11.6.1為文檔分配標識符
11.6數據
11.6.3壓縮Web圖
11.6.4處理重復數據
11.7搜索引擎用戶交互
11.7.1搜索矩形範式
11.7.2搜索引擎結果頁面
11.7.3培養用戶
11.8瀏覽
11.8.1扁平瀏覽
11.8.2結構導向的瀏覽和Web目錄
11.9瀏覽之外
11.9.1超文本和Web
11.9.2搜索與瀏覽相結合
11.9.3Web查詢語言
11.9.4動態搜索
11.10相關問題
11.10.1計算廣告學
11.10.2Web挖掘
11.10搜索
11.11趨勢和研究問題
11.11.1靜態文本數據之外
11.11.2目前的挑戰
11.12文獻討論
第12章Web爬取
12.1介紹
12.2網絡爬蟲的應用
12.2.1通用Web搜索
12.2.2聚焦爬取
12.2.3Web刻畫
12.2.4鏡像
12.2.5網站分析
12.3爬蟲的分類體繫
12.4架構和實現
12.4.1爬蟲架構
12.4.2實際問題
12.4.3並行爬取
12.5調度算法
12.5.1選擇策略
12.5.2重訪問策略
12.5.3友好策略
12.5.4組合策略
12.6評價
12.6.1評價網絡使用
12.6.2評價長期調度
12.7趨勢和研究問題
12.7.1爬取“暗網”
12.7.2在網站幫助下的爬取
12.7.3分布式爬取
12.8文獻討論
第13章結構化文本檢索
13.1介紹
13.2結構化能力
13.2.1顯式和隱式結構對比
13.2.2靜態與動態結構對比
13.2.3單一層次結構與多層次結構對比
13.3早期文本檢索模型
13.3.1基於非覆蓋列表的模型
13.3.2基於相鄰結點的模型
13.3.3結構化文本結果排序
13.4XML檢索
13.4.1XML檢索中的挑戰
13.4.2索引策略
13.4.3排序策略
13.4.4去除重疊
13.5XML檢索評價
13.5.1文檔集
13.5.2主題
13.5.3檢索任務
13.5.4相關性
13.5.5測度
13.6查詢語言
13.6.1特性
13.6.2XML查詢語言分類
13.6.3XML查詢語言樣例
13.7趨勢和研究問題
13.8文獻討論
第14章多媒體信息檢索
14.1介紹
14.1.1什麼是多媒體
14.1.2多媒體檢索
14.1.3文本檢索與多媒體檢索的對比
14.2挑戰
14.2.1語義鴻溝
14.2.2特征歧義性
14.2.3機器生成的數據
14.3基於內容的圖像檢索
14.3.1基於顏色的檢索
14.3.2紋理
14.3.3顯著點
14.4聲音和音樂檢索
14.4.1指紋識別
14.4.2語音識別
14.4.3說話人識別
14.4.4語音文檔檢索
14.4.5音頻基礎知識
14.5檢索和瀏覽視頻
14.5.1視頻摘要
14.5.2靜態摘要
14.5.3圖像拼接與跳躍劇照
14.5.4動態摘要
14.5.5交互式摘要
14.5.6視覺與聽覺瀏覽對比
14.5.7摘要評價
14.6融合模型:合並所有信息
14.6.1人臉命名
14.6.2圖像命名
14.6.3音頻命名
14.6.4結合音頻與視頻的音-視頻語音識別
14.6.5結合音頻和視頻的多媒體處理
14.7分割
14.7.1視頻分割樣例
14.7.2視頻分割方案
14.7.3利用邊緣的視頻分割
14.7.4語音分割
14.7.5分割評價
14.8壓縮和MPEG標準
14.8.1強度和采樣
14.8.2顏色
14.8.3有損壓縮
14.8.4無損壓縮
14.8.5時間冗餘
14.8.6運動預測
14.8.7MPEG標準
14.9趨勢和研究問題
14.10文獻討論
第15章企業搜索
15.1介紹
15.1.1企業搜索的特點和應用
15.1.2企業搜索軟件
15.1.3工作場所搜索
15.2企業搜索任務
15.2.1搜索支持任務的例子
15.2.2搜索類型
15.2.3研究企業搜索
15.3企業搜索繫統的結構
15.3.1收集
15.3.2提取
15.3.3索引
15.3.4文本注釋的索引
15.3.5查詢處理
15.3.6搜索結果的展示
15.3.7安全模型
15.3.8搜索
15.4企業搜索評價
15.4.1企業搜索的公開測試集
15.4.2企業搜索內部評價
15.4.3企業搜索調試
15.4.4所能期待的是什麼
15.5不滿意的可能原因
15.6情境化和個性化
15.6.1情境化的控制和工具
15.6.2情境化:本地、企業或全球
15.6.3輪廓的隱私
15.6.4定義、建立和維護輪廓
15.6.5用戶建模
15.6.6隱式評價
15.6.7信息過濾
15.6.8社會化推薦繫統
15.7趨勢和研究問題
15.8文獻討論
第16章圖書館繫統
16.1圖書館的信息環境
16.2聯機公共檢索目錄
16.2.1OPAC和書目記錄
16.2.2來自ILS的信息檢索
16.2.3混合圖書館的整合
16.2.4OPAC和終用戶
16.2.5ILS:供應商和產品
16.3信息檢索繫統與文檔數據庫
16.3.1書目和全文數據庫
16.3.2數據庫記錄的內容
16.3.3聯機產業:數據庫供應商
16.3.4來自文檔數據庫的信息檢索
16.4組織機構內部的信息檢索
16.5趨勢和研究問題
16.6文獻討論
第17章數字圖書館
17.1介紹
17.2定義數字圖書館
17.3通用架構
17.4基本概念
17.4.1數字對像和館藏
17.4數據和目錄
17.4.3資源庫/檔案庫
17.4.4服務
17.5社會經濟問題
17.5.1社會問題
17.5.2經濟問題
17.6軟件繫統
17.6.1Greenstone
17.6.2Eprints
17.6.3DSpace
17.6.4Fedora
17.6.5ODL
17.6.65S套件
17.7數字圖書館案例研究
17.7.1聯網學位論文數字圖書館
17.7.2國家科學數字圖書館
17.7.3ETANA-DL考古數字圖書館
17.8趨勢和研究問題
17.8.1評價
17.8.2集成
17.8.3其他研究挑戰
17.9文獻討論
附錄A開源搜索引擎
附錄B作者簡介
參考文獻
索引