| | | 自制搜索引擎/圖靈程序設計叢書 | 該商品所屬分類:社會科學 -> 社會學 | 【市場價】 | 353-512元 | 【優惠價】 | 221-320元 | 【介質】 | book | 【ISBN】 | 9787115411709 | 【折扣說明】 | 一次購物滿999元台幣免運費+贈品 一次購物滿2000元台幣95折+免運費+贈品 一次購物滿3000元台幣92折+免運費+贈品 一次購物滿4000元台幣88折+免運費+贈品
| 【本期贈品】 | ①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
| |
版本 | 正版全新電子版PDF檔 | 您已选择: | 正版全新 | 溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。 *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。 | | | | 內容介紹 | |
-
出版社:人民郵電
-
ISBN:9787115411709
-
作者:(日)山田浩之//末永匡|譯者:胡屹
-
頁數:190
-
出版日期:2016-01-01
-
印刷日期:2016-01-01
-
包裝:平裝
-
開本:32開
-
版次:1
-
印次:1
-
字數:187千字
-
由山田浩之、末永匡編著的《自制搜索引擎/圖 靈程序設計叢書》聚焦於Google和Yahoo!等Web搜索 服務幕後的搜索引擎繫統,首先講解了搜索引擎的基 礎知識和原理,接著以現實中的開源搜索引擎 Senna/Groonga為示例,使用該引擎的源代碼引導讀 者親自體驗搜索引擎的開發過程。這部分講解涉及了 倒排索引的制作和壓縮、檢索的處理流程以及搜索引 擎的優化等內容。又簡單介紹了一些更加專業的搜索 引擎的知識和要點,為讀者今後進一步學習打下了基 礎。本書適合做有對搜索引擎感興趣的技術人員閱讀 。
-
第1章 搜索引擎是如何工作的 1-1 理解搜索引擎的構成 什麼是搜索引擎 構成搜索引擎的組件 與搜索引擎相關的組件 1-2 實現了快速全文搜索的索引結構 全文搜索的兩種方法 倒排索引的結構 倒排索引的構建方法 倒排索引中的術語 1-3 深入理解倒排索引 倒排索引=詞典+倒排文件 從倒排索引中查找單詞 將單詞的位置信息加入倒排文件中 從倒排索引中查找短語 1-1 理解搜索引擎的構成 什麼是搜索引擎 構成搜索引擎的組件 與搜索引擎相關的組件 1-2 實現了快速全文搜索的索引結構 全文搜索的兩種方法 倒排索引的結構 倒排索引的構建方法 倒排索引中的術語 1-3 深入理解倒排索引 倒排索引=詞典+倒排文件 從倒排索引中查找單詞 將單詞的位置信息加入倒排文件中 從倒排索引中查找短語 1-4 制作中文文檔的倒排索引 分割中文句子的方法 權衡分割方法 1-5 實現倒排索引 實現詞典 實現倒排文件 1-6 使用倒排索引進行檢索 布爾檢索 使用倒排索引的檢索處理流程 關聯度的計算方法 信息檢索中的檢索 1-7 構建倒排索引 使用內存構建倒排索引 使用二級存儲構建倒排索引 靜態索引構建和動態索引構建 1-8 準備要檢索的文檔 收集數據 數據規範化 第2章 準備全文搜索引擎的檢索樣本 2-1 全文搜索引擎wiser wiser的構成 準備用於檢索的文檔 2-2 安裝wiser 構建wiser 啟動wiser 解壓縮Wikipedia的副本 2-3 運行wiser 構建倒排索引 使用倒排索引查詢 比較grep和wiser的運行速度 第3章 構建倒排索引 3-1 復習有關倒排索引的知識 提取詞元 為每個詞元創建倒排列表 3-2 構建倒排索引 在存儲器上創建倒排列表 倒排列表和倒排文件的數據結構 從源代碼級別梳理倒排索引的構建順序 進一步閱讀源代碼 專欄根據實際情況設計搜索引擎(繫統) 第4章 開始檢索吧 4-1 檢索處理的大致流程 充分理解檢索處理的流程 4-2 使用倒排索引進行檢索 從源代碼級別梳理檢索處理的流程 解讀split_query_to_tokens()函數的具體實現 使用具體示例加深對檢索處理流程的理解 解讀函數search_docs()的實現細節 解讀函數search_phrase()的實現 專欄如何實現標簽檢索 第5章 壓縮倒排索引 5-1 壓縮的基礎知識 壓縮倒排索引的好處 專欄壓縮的目的 倒排索引的壓縮方法 倒排文件的壓縮方法 壓縮的原理 5-2 實現wiser中的壓縮功能 壓縮功能源代碼的概要 了解無需進行壓縮時的操作 抓住Golomb編碼的要點 解讀Golomb編碼中的編碼處理 解讀Golomb編碼的解碼處理 第6章 挑戰wiser的優化及參數的調整 6-1 提高檢索處理的效率 優化檢索處理 將查詢分割為無重復部分的詞元序列 6-2 禁用短語檢索 分析對2字符的字符串進行檢索時的行為 分析對3字符的字符串進行檢索時的行為 6-3 改變檢索結果的輸出順序 作為檢索結果排序核心的指標 按照文檔大小降序排列的檢索結果 專欄排名欺詐 6-4 讓1個字符的查詢也能檢索出結果 獲取以特定字符開頭的詞元的列表 合並檢索到的結果 專欄如何實現相似文檔的檢索 6-5 調整控制倒排索引*新的緩衝區容量 確認由緩衝區容量的差異帶來的不同效果 用sar命令分析負載 6-6 調整隻有英文字母的詞元的分割方法 如何避免用英文單詞檢索時準確率下降的問題 如何判斷某字符是否屬於索引對像 修改負責分割詞元的函數 6-7 確認壓縮的效果 觀察Golomb編碼的效果 對比壓縮啟用前後的索引大小 專欄避免濫用全文搜索引擎 第7章 為今後*加深入的學習做準備 7-1 wiser沒能實現的功能 倒排索引之外的全文搜索索引 高效處理大規模數據的存儲器 利用緩存提高檢索的速度 使用各種各樣的壓縮方法 優化搜索結果的排名 調整準確率和召回率 降低檢索結果排序處理的負載 並行處理 結合對屬性的篩選過濾 分面搜索 專欄時延和吞吐量 7-2 全文搜索引擎Groonga的特點 通過詞元的部分一致檢索提升召回率 使用內存映射文件片段 專欄宣傳活動的重要性 7-3 實現出考慮到用戶意圖的搜索引擎 引入停用詞 應對詞素解析的錯誤 專欄斷句錯誤 處理全角字符和半角字符 對查詢進行歸一化 留意布爾檢索的解析過程 通過詞素解析器適當地解析查詢 對錯誤的輸入進行修正 輸入補全 建議用戶檢索相關的關鍵詞 7-4 收集、提取文檔時的要點 制作爬蟲時的處理要點 在提取文本時需要處理的要點 Appendix附錄 A-1深度話題 近幾年的壓縮方法 動態索引構建 分布式索引 A-2wiser中的文本提取和存儲 用於處理XML的2種API――DOM和SAX 提取文檔的標題和正文 掌握狀態的遷移 構建文檔數據庫 後記
| | | | | |