目 錄
第1章 搜索引擎.... 1 1.1 搜索引擎基本模塊... 2 1.2 開發環境... 3 1.3 搜索引擎工作原理... 4 1.3.1 網絡爬蟲... 5 1.3.2 全文索引... 5 1.3.3 搜索用戶界面... 8 1.3.4 分布式計算... 9 1.3.5 文本挖掘... 9 1.4 算法基礎... 9 1.4.1 折半查找... 10 1.4.2 排序... 10 1.4.3 成樹... 12 1.5 軟件工具... 15 1.6 測試... 15 1.7 本章小結... 17 1.8 術語表... 18 第2章 自己動手寫全文檢索.... 19 2.1 構建索引... 22 2.2 生成索引文件... 23 2.3 讀入索引文件... 25 2.4 查詢... 26 2.5 有限狀態機... 29 2.5.1 運算... 29 2.5.2 編輯距離有限狀態機... 30 2.6 本章小結... 32 第3章 Lucene的原理與應用.... 33 3.1 Lucene快速入門... 34 3.1.1 創建索引... 34 3.1.2 查詢索引庫... 35 3.1.3 創建文檔索引... 36 3.1.4 查詢文檔索引... 36 3.2 創建和維護索引庫... 37 3.2.1 設計索引庫結構... 37 3.2.2 創建索引庫... 38 3.2.3 向索引庫中添加索引文檔... 40 3.2.4 刪除索引庫中的索引文檔... 43 3.2.5 更新索引庫中的索引文檔... 44 3.2.6 關閉索引庫... 45 3.2.7 索引的優化與合並... 45 3.2.8 靈活索引... 46 3.2.9 索引文件格式... 47 3.2.10 定制索引存儲結構... 49 3.2.11 寫索引集成到爬蟲... 54 3.2.12 多線程寫索引... 56 3.2.13 分發索引... 58 3.2.14 修復索引... 61 3.3 查找索引庫... 61 3.3.1 查詢過程... 61 3.3.2 常用查詢... 64 3.3.3 基本詞查詢... 65 3.3.4 模糊匹配... 65 3.3.5 布爾查詢... 67 3.3.6 短語查詢... 69 3.3.7 跨度查詢... 71 3.3.8 FieldScoreQuery. 74 3.3.9 排序... 77 3.3.10 使用Filter篩選搜索結果... 81 3.3.11 使用Collector篩選搜索 結果... 82 3.3.12 遍歷索引庫... 85 3.3.13 關鍵詞高亮顯示... 88 3.3.14 列合並... 91 3.3.15 關聯內容(BlockJoinQuery) 92 3.3.16 查詢大容量索引... 94 3.4 讀寫並發... 95
|