●章 引言
1.1 信息檢索與搜索引擎
1.2 搜索引擎的歷史
1.3 搜索引擎的分類
1.4 搜索引擎的基本架構
1.4.1 主要性能需求
1.4.2 總體架構
1.5 搜索引擎的主要組件及其功能
1.5.1 網絡爬蟲
1.5.2 解析器
1.5.3 索引器
1.5.4 檢索器
1.5.5 用戶交互接口
1.6 開源搜索引擎
本章小結
習題
第2章 信息采集
2.1 網絡爬蟲的概述
2.1.1 網絡爬蟲的功能特點
2.1.2 網絡爬蟲通用架構
2.1.3 網絡爬蟲分類
2.2 分布式網絡爬蟲架構
2.2.1 主從分布式結構爬蟲(master-slave)
2.2.2 對等分布式結構爬蟲(peer to peer)
2.3 信息采集涉及的協議
2.3.1 URL規範和HTTP協議
2.3.2 User Agent
2.3.3 Robots協議
2.4 頁面遍歷
2.4.1 寬度優先遍歷策略
2.4.2 深度優先遍歷策略
2.4.3 重要度優先遍歷策略
2.5 頁面更新
2.5.1 網頁更新策略
2.5.2 爬蟲更新方式
2.6 深網抓取
2.7 開源網絡爬蟲
本章小結
習題
第3章 文本處理
3.1 文本信息提取
3.1.1 網頁數據獲取
3.1.2 非網頁的數據獲取
3.2 統計語言模型
3.2.模型(N-gram)的基本概念
3.2.2 數據平滑方法
3.3 英文分詞
3.3.1 詞素切分
3.3.2 詞干提取
3.3.3 去除停用詞
3.4 中文分詞
3.4.1 中文分詞概述
3.4.2 基於詞典的機械分詞法
3.4.3 基於統計的分詞法
3.4.4 分詞粒度
3.5 網頁去重
3.5.1 通用去重算法流程
3.5.2 Shingling算法
3.5.3 SimHash算法
本章小結
習題
第4章 搜索引擎索引構建
4.1 倒排索引
4.1.1 倒排索引基礎
4.1.2 詞典結構
4.1.3 倒排表結構
4.2 建立索引方式
4.2.1 基於內存的索引構建
4.2.2 基於排序的索引建立
4.2.3 基於合並法的索引構建
4.3 索引更新
4.4 分布式索引
4.4.1 數據劃分
4.4.2 冗餘和容錯
4.4.3 Elastic Search的分布式索引
4.5 索引壓縮
4.5.1 評價壓縮算法的指標
4.5.2 Delta編碼(D-Gaps)
4.5.3 無參數間距壓縮編碼
4.5.4 參數間距壓縮
4.5.5 高查詢性能的編碼
本章小結
習題
第5章 基於文本內容的檢索模型
5.1 檢索模型概述
5.2 布爾模型
5.3 向量空間模型
5.3.1 文本表示
5.3.2 查詢相關度計算
5.4 概率檢索模型
5.4.1 概率檢索模型概述
5.4.獨立模型(binary independent model)
5.4.3 BM25模型
5.4.4 BM25F模型
5.5 基於統計語言建模的檢索模型
5.6 機器學習排序
5.6.1 機器學習排序概述
5.6.2 單文檔方法(pointwise approach)
5.6.3 文檔對方法(pairwise approach)
5.6.4 文檔列表方法(listwise approach)
5.7 檢索質量評價標準
5.7.1 準確率和召回率
5.7.2 前k個文檔的查準率(P@k)
5.7.3 平均查準率均值(mean average precision,MAP)
5.7.4 NDCG(normalize DCC)
本章小結
習題
第6章 基於鏈接的檢索模型
6.1 Web圖
6.2 Page Rank算法
6.2.1 基於簡單模型的Page Rank算法
6.2.2 基於隨機衝浪模型的Page Rank算法
6.2.3 主題敏感的Page Rank
6.3 HITS算法
6.3.1 HITS算法基本思想
6.3.2 HITS算法流程
6.3.3 HITS的優勢與缺陷
6.4 SALAS算法
6.5 通用鏈接反作弊方法
6.5.1 鏈接作弊方法
6.5.2 反鏈接作弊思路
6.5.3 經典鏈接反作弊算法
本章小結
習題
第7章 查詢處理與結果展示
7.1 查詢糾錯
7.1.1 查詢糾錯概述
7.1.2 英文糾錯
7.2 搜索智能提示
7.3 不安全信息過濾
7.4 查詢處理
7.4.1 “一次一文檔”
7.4.2 “一次一詞”
7.5 結果展示
7.5.1 頁面摘要
7.5.2 查詢結果聚類
7.6 查詢緩存機制
本章小結
習題
第8章 相關反饋與查詢擴展
8.1 相關反饋框架
8.2 顯式相關反饋
8.2.1 Rocchio相關反饋算法
8.2.2 概率相關反饋
8.2.3 相關反饋策略的評價
8.3 偽相關反饋
8.4 隱式反饋
8.5 查詢擴展
本章小結
習題
第9章 分類與聚類
9.1 文本分類
9.1.1 文本分類框架
9.1.2 貝葉斯文檔分類
9.1.3 支持向量機
9.1.4 特征選擇
9.1.5 評價
9.2 聚類
9.2.1 劃分聚類
9.2.2 層次聚類
9.2.3 評價
本章小結
習題
0章 基於知識圖譜的搜索引擎
10.1 概述
10.2 知識圖譜的數據獲取
10.3 信息抽取
10.3.1 實體抽取
10.3.2 關繫抽取
10.3.3 屬性抽取
10.4 知識融合
10.4.1 實體對齊
10.4.2 實體歧義分析
10.5 知識表示與知識推理
10.5.1 知識表示
10.5.2 知識推理
10.6 基於知識圖譜的智能搜索引擎
10.6.1 基於知識圖譜的搜索結構
10.6.2 查詢理解
10.6.3 自動問答
本章小結
習題
參考文獻
內容簡介
本書對於實際搜索引擎所涉及的各種核心技術做了全面細致的介紹,除了作為搜索繫統核心的網絡爬蟲、索引繫統、排序繫統、鏈接分析及用戶分析外,還包括網頁反作弊、緩存管理、網頁去重技術等實際搜索引擎必須關注的技術,同時還講解了雲計算與雲存儲的核心技術原理。同時本書對諸多新技術在相關章節都有詳細講解。