了得網社會科學_自制搜索引擎/圖靈程序設計叢書

第1章搜索引擎是如何工作的
1-1 理解搜索引擎的構成
什麼是搜索引擎
構成搜索引擎的組件
與搜索引擎相關的組件
1-2 實現了快速全文搜索的索引結構
全文搜索的兩種方法
倒排索引的結構
倒排索引的構建方法
倒排索引中的術語
1-3 深入理解倒排索引
倒排索引=詞典+倒排文件
從倒排索引中查找單詞
將單詞的位置信息加入倒排文件中
從倒排索引中查找短語
1-1 理解搜索引擎的構成
什麼是搜索引擎
構成搜索引擎的組件
與搜索引擎相關的組件
1-2 實現了快速全文搜索的索引結構
全文搜索的兩種方法
倒排索引的結構
倒排索引的構建方法
倒排索引中的術語
1-3 深入理解倒排索引
倒排索引=詞典+倒排文件
從倒排索引中查找單詞
將單詞的位置信息加入倒排文件中
從倒排索引中查找短語
1-4 制作中文文檔的倒排索引
分割中文句子的方法
權衡分割方法
1-5 實現倒排索引
實現詞典
實現倒排文件
1-6 使用倒排索引進行檢索
布爾檢索
使用倒排索引的檢索處理流程
關聯度的計算方法
信息檢索中的檢索
1-7 構建倒排索引
使用內存構建倒排索引
使用二級存儲構建倒排索引
靜態索引構建和動態索引構建
1-8 準備要檢索的文檔
收集數據
數據規範化
第2章準備全文搜索引擎的檢索樣本
2-1 全文搜索引擎wiser
wiser的構成
準備用於檢索的文檔
2-2 安裝wiser
構建wiser
啟動wiser
解壓縮Wikipedia的副本
2-3 運行wiser
構建倒排索引
使用倒排索引查詢
比較grep和wiser的運行速度
第3章構建倒排索引
3-1 復習有關倒排索引的知識
提取詞元
為每個詞元創建倒排列表
3-2 構建倒排索引
在存儲器上創建倒排列表
倒排列表和倒排文件的數據結構
從源代碼級別梳理倒排索引的構建順序
進一步閱讀源代碼
專欄根據實際情況設計搜索引擎（繫統）
第4章開始檢索吧
4-1 檢索處理的大致流程
充分理解檢索處理的流程
4-2 使用倒排索引進行檢索
從源代碼級別梳理檢索處理的流程
解讀split_query_to_tokens()函數的具體實現
使用具體示例加深對檢索處理流程的理解
解讀函數search_docs()的實現細節
解讀函數search_phrase()的實現
專欄如何實現標簽檢索
第5章壓縮倒排索引
5-1 壓縮的基礎知識
壓縮倒排索引的好處
專欄壓縮的目的
倒排索引的壓縮方法
倒排文件的壓縮方法
壓縮的原理
5-2 實現wiser中的壓縮功能
壓縮功能源代碼的概要
了解無需進行壓縮時的操作
抓住Golomb編碼的要點
解讀Golomb編碼中的編碼處理
解讀Golomb編碼的解碼處理
第6章挑戰wiser的優化及參數的調整
6-1 提高檢索處理的效率
優化檢索處理
將查詢分割為無重復部分的詞元序列
6-2 禁用短語檢索
分析對2字符的字符串進行檢索時的行為
分析對3字符的字符串進行檢索時的行為
6-3 改變檢索結果的輸出順序
作為檢索結果排序核心的指標
按照文檔大小降序排列的檢索結果
專欄排名欺詐
6-4 讓1個字符的查詢也能檢索出結果
獲取以特定字符開頭的詞元的列表
合並檢索到的結果
專欄如何實現相似文檔的檢索
6-5 調整控制倒排索引*新的緩衝區容量
確認由緩衝區容量的差異帶來的不同效果
用sar命令分析負載
6-6 調整隻有英文字母的詞元的分割方法
如何避免用英文單詞檢索時準確率下降的問題
如何判斷某字符是否屬於索引對像
修改負責分割詞元的函數
6-7 確認壓縮的效果
觀察Golomb編碼的效果
對比壓縮啟用前後的索引大小
專欄避免濫用全文搜索引擎
第7章為今後*加深入的學習做準備
7-1 wiser沒能實現的功能
倒排索引之外的全文搜索索引
高效處理大規模數據的存儲器
利用緩存提高檢索的速度
使用各種各樣的壓縮方法
優化搜索結果的排名
調整準確率和召回率
降低檢索結果排序處理的負載
並行處理
結合對屬性的篩選過濾
分面搜索
專欄時延和吞吐量
7-2 全文搜索引擎Groonga的特點
通過詞元的部分一致檢索提升召回率
使用內存映射文件片段
專欄宣傳活動的重要性
7-3 實現出考慮到用戶意圖的搜索引擎
引入停用詞
應對詞素解析的錯誤
專欄斷句錯誤
處理全角字符和半角字符
對查詢進行歸一化
留意布爾檢索的解析過程
通過詞素解析器適當地解析查詢
對錯誤的輸入進行修正
輸入補全
建議用戶檢索相關的關鍵詞
7-4 收集、提取文檔時的要點
制作爬蟲時的處理要點
在提取文本時需要處理的要點
Appendix附錄
A-1深度話題
近幾年的壓縮方法
動態索引構建
分布式索引
A-2wiser中的文本提取和存儲
用於處理XML的2種API――DOM和SAX
提取文檔的標題和正文
掌握狀態的遷移
構建文檔數據庫
後記

商品搜索

商品分类

【醫學】

【各大出版社】