![](http://img.alicdn.com/imgextra/i3/2455124912/TB2XiwaonqWBKNjSZFxXXcpLpXa_!!2455124912-0-item_pic.jpg)
產品名稱:Lucene搜索引擎開發進階實... 是否是套裝:否 書名:Lucene搜索引擎開發進階實戰 Lucene搜索引擎開發進階實戰 代碼:59 出版社名稱:機械工業出版社 出版時間:2015年1月 作者:成龍 開本:16開 ISBN編號:9787111488422
" Lucene搜索引擎開發進階實戰 作 者:成龍 著 著作 定 價:59 出 版 社:機械工業出版社 出版日期:2015年01月01日 頁 數:219 裝 幀:平裝 ISBN:9787111488422 ●前言 ●第1章網絡爬蟲策略 ●1.1信息時代的飛躍 ●1.1.1搜索引擎的出現 ●1.1.2搜索之網絡爬蟲的由來 ●1.2網絡爬蟲 ●1.2.1網絡爬蟲的基礎框架 ●1.2.2網絡爬蟲的策略分析 ●1.2.3暗網獲取 ●1.2.4分布式爬蟲 ●1.3實現Web搜索 ●1.3.1Web搜索的概念 ●1.3.2經典小實例展示 ●1.4疑難解析 ●1.4.1本節技術概念 ●1.4.2實例疑難解析 ●1.5實踐心得 ●1.5.1如何快速實現Web搜索 ●1.5.2如何解決和發現代碼錯誤 ●1.6本章小結...... 內容簡介 全書共12章,首先是基礎知識的引導性介紹(包括了1~2章),其中**章通過簡單介紹了網絡爬蟲和Web搜索。第2章主要講解了Lucene的概念、架構認知;第3章主要通過對文本進行索引,創建了一個小實例,並對其中的一些方法和類進行了介紹;從第4章開始將進入正題,將基於數據庫搜索創建搜索引擎實例,並分析技術疑難問題。第4章建立了工程類的索引,進行詳細的分析和解析;第5章則是細分內容,對創建索引中的分詞技術獨章論述,進行了分析;第6章對在創建索引過程中的jar包進行了解析;第7章繼續深入,讓索引技術走上了界面,成了應用程序的好幫手。第8章和第9章則是分別就搜索引擎中的很重要的兩個關鍵技術—查詢方法和高亮顯示進行了詳細的分析和介紹,提供了一個直觀的認識和架構;**0章介紹了查詢結果排序和詞頻統計的相關知識;**1章介紹了性能優化,包括代碼優化,索引優化以及備份和恢復等相關知識;**2章將對目前的一些...... 成龍 著 著作 成龍,軟件開發工程師,從事Lucene相關搜索引擎開發多年,曾在醫藥、教育等行業參與開發多個搜索引擎類項目,目前在進行一個搜索引擎項目的優化和二次開發工作,具有豐富的搜索引擎方向項目開發經驗。工作之餘也喜歡鑽研疑難問題,並在實踐驗證後形成文檔或經驗與讀者分享。 講完了上面的正向和反向*大程度匹配法,還有一個方法不得不介紹,那就是*少切分法。什麼是*少切分法?簡單來講:就是使每一句中切分的次數*少。也就是說,不僅希望有盡可能多的完整的詞彙,又要是語意完整的切分模式,同時,還要求切分次數盡可能少。 針對這種方法,給大家舉兩個簡單的例子。例如“這就是搜索引擎”,使用這種方法來分詞,可以得到的結果是“這/就是/搜索引擎”。再比如“你要去哪裡”,按照這種方法來進行分詞,得到的分詞結果是“你要/去哪裡/”。從這兩個分詞案例可以看出,**,保持了完整的語意,**句的“搜索引擎”,大家都習慣且默認把這當做一個詞彙了,第二句的“去哪裡”也是大家常用的詞彙;第二,保證了*少切分,形成了盡可能多的詞彙,**句切分了兩次,第二句隻切分了一次,可見是達到了*少切分法的要...... "![](http://img.alicdn.com/imgextra/i3/2455124912/TB2XiwaonqWBKNjSZFxXXcpLpXa_!!2455124912-0-item_pic.jpg)
|