了得網計算機/網絡_搜索引擎——原理、技術與繫統（第二版）

編輯推薦

李曉明等編著的《搜索引擎——原理技術與繫統(第2版)》保留了**版上篇的大部分內容，即搜索引擎的基本原理，過去這麼些年並沒有什麼變化；刪除了**版中的第九，第十二和十三章，增加了第十，第十一和十三章，分別介紹基於搜索引擎技術開發並從2002年一直運行至今的“中國web信息博物館”、“中國數字財富庫藏”及開放域問答繫統。同時，較大幅度修訂了**版中的部分小節內容。本書分三篇共13章，內容包括引論、Web搜索引擎工作原理和體繫結構、web信息的搜集、對搜集信息的預處理、信息查詢服務等。

內容簡介

搜索引擎：原理、技術與繫統（第二版）繫統介紹了互聯網搜索引擎的工作原理、實現技術及繫統構建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術，講述一個小型簡單搜索引擎實現的具體細節；中篇詳細討論了大規模分布式搜索引擎繫統的設計要點及其關鍵技術；下篇結合“中國Web信息博物館”和“中國互聯網數字資源財富庫藏”的實踐經驗，介紹了構建大規模Web歷史網頁和非網頁倉儲繫統的技術和方法，以及中文網頁的自動分類與聚類、開放域問題繫統的構建等。
搜索引擎：原理、技術與繫統（第二版）層次分明，由淺入深，上篇和中篇涉及內容提供了源代碼下載地址；既有深入的理論分析，也有大量的實驗數據和程序，具有學習和實用雙重意義。
搜索引擎：原理、技術與繫統（第二版）可作為高等院校計算機科學與技術、軟件工程、信息管理與信息繫統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料；對廣大從事網絡技術、Web站點管理、數字圖書館、Web挖掘等研究和應用開發的科技人員有很高的參考價值；書中提供了大量源代碼，除了用於構建搜索引擎之外，對於學習編程，提高編程技巧，以及實現一個大規模應用開發也有一定的參考價值。

目錄
第二版前言
第一版前言
第一章引論
第一節搜索引擎的概念
第二節搜索引擎的發展歷史
第三節一些著名的搜索引擎
第四節小結
上篇 Web搜索引擎基本原理和技術
第二章 Web搜索引擎工作原理和體繫結構
第一節基本要求
第二節網頁搜集
第三節預處理
第四節查詢服務目錄
第二版前言
第一版前言
第一章引論
第一節搜索引擎的概念
第二節搜索引擎的發展歷史
第三節一些著名的搜索引擎
第四節小結
上篇 Web搜索引擎基本原理和技術
第二章 Web搜索引擎工作原理和體繫結構
第一節基本要求
第二節網頁搜集
第三節預處理
第四節查詢服務
第五節體繫結構
第六節小結
第三章 Web信息的搜集
第一節概述
一、超文本傳輸協議
二、一個小型搜索引擎繫統
第二節網頁搜集
一、定義URL類和Page類
二、與服務器建立連接
三、發送請求和接收數據
四、網頁信息存儲的天網格式
第三節多道搜集程序並行工作
一、多線程並發工作
二、控制對一個站點並發搜集線程的數目
第四節如何避免網頁的重復搜集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節搜集信息的類型
第六節小結
第四章對搜集信息的預處理
第一節索引網頁庫
第二節網頁編碼識別
一、基本而重要的概念
二、常用字符編碼
三、常用字符編碼算法
四、字符的輸入和顯示
五、編碼識別
第三節中文自動分詞
第四節分析網頁和建立倒排文件
第五節小結
第五章信息查詢服務
第一節檢索的定義
第二節查詢服務的實現
一、結果集合的形成
二、查詢結果顯示
第三節小結
中篇對質量和性能的追求
第六章可擴展搜集子繫統
第一節天網繫統概述和集中式搜集繫統結構
一、天網繫統結構
二、集中式搜集繫統
第二節利用並行處理技術高效搜集網頁的一種方案
一、節點間URL的劃分策略
二、關於性能的討論
三、性能測試和評價
四、繫統的動態可配置性設計
第三節天網分布式搜集繫統
第四節對Deep Web的認識
一、Deep Web的成因
二、搜索Deep Web的方法
第五節小結
第七章網頁淨化與消重
第一節網頁數據提取
一、DocView模型
二、網頁的表示
三、提取DocView模型要素的方法
四、模型應用及實驗研究
第二節網頁消重算法
一、消重算法
二、算法評測
第三節小結
第八章高性能檢索子繫統
第一節檢索繫統基本技術
一、繫統設計與結構
二、索引創建
三、檢索過程
第二節適於查詢的網頁索引結構
一、倒排索引結構
二、平面位置索引
第三節倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排表的壓縮
第四節索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節混合索引技術
一、混合索引的原理
二、混合索引的實現
第六節倒排文件緩存機制
一、倒排文件緩存
二、負載特性
三、緩存策略的選擇
第七節小結
第九章相關排序與繫統質量評估
第一節傳統IR的相關排序技術
第二節鏈接分析與相關排序
一、鏈接分析
二、Web查詢模式下的新信息
第三節相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用鏈接的結構
三、收集用戶反饋信息
四、計算最終的權重
第四節信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWIRF信息檢索評估
三、搜索引擎技術評估
第五節小結
下篇 Web信息資源的組織與應用服務
第十章大規模Web歷史網頁倉儲繫統的構建
第一節國外Web歷史網頁保存現狀
一、Internet Archive
二、PANDORA
三、其他相關Web保存項目
第二節中國Web信息博物館的繫統設計
一、Web InfoMall的設計目標
二、Web InfoMall的體繫結構
第三節歷史網頁的存儲
一、數據的組織
二、存儲結構
三、數據管理與壓縮
四、存儲性能
第四節數據訪問
一、PageID的索引
二、URL的索引
三、數據服務
四、性能與優化
第五節網頁的格式保存
第六節小結
第十一章大規模Web非網頁信息倉儲繫統的構建
第一節網絡資源庫藏相關工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中國互聯網數字資源財富庫藏
第二節 CDAL繫統概況
第三節 CDAL繫統設計
一、繫統體繫結構
二、可擴展的存儲組織方案
第四節網絡資源描述信息獲取
一、Ontology概述
二、描述信息獲取機制
三、改進查詢的方法
四、改進排序的方法
第五節基於局部聚類思想的共現詞彙算法
一、基本定義
二、FDC共現詞彙算法
第六節小結
第十二章中文網頁自動分類與聚類
第一節文檔自動分類算法的類型
第二節實現中文網頁自動分類的一般過程
第三節影響分類器性能的關鍵因素分析
一、實驗設置
二、訓練樣本
三、特征選取
四、分類算法
五、截尾算法
六、中文網頁分類器的設計方案
第四節天網目錄導航服務
一、問題的提出
二、天網目錄導航服務的體繫結構
三、天網目錄的運行實例
第五節文本聚類方法
一、文本聚類的一般過程
二、文本間相似性的度量
三、常用聚類算法
四、聚類結果的評估
五、搜索引擎返回結果的聚類
第六節小結
第十三章開放域問答繫統
第一節概述
一、問答繫統的歷史
二、著名開放域問答繫統介紹
三、開放域問答繫統的通用體繫結構
第二節問句的分析
一、問句中的指代消解
二、問句分類
三、問句主題提取
第三節文檔和段落檢索
一、檢索模型的選用
二、查詢生成
三、查詢結果排序
四、增強索引的功能
第四節答案提取和驗證模塊
一、生成候選答案集合
二、答案提取
第五節問答繫統的改進方法
一、問答繫統中外部資源的利用
二、尋找特殊類問題的解決方案
三、通過繫綜方法構建問答繫統
第六節問答繫統的評測
一、TREC問答繫統評測
二、問答繫統評測指標
第七節實例:天網開放域問答繫統
第八節小結
參考文獻
附錄術語
圖目錄
圖1-1 2012年3月在Google上檢索“伊拉克戰爭”的結果
圖1-2 2012年3月在Open Directory上檢索“伊拉克戰爭”的結果
圖2-1 搜索引擎示意圖
圖2-2 搜索引擎三段式工作流程
圖2-3 搜索引擎的體繫結構
圖3-1 TSE搜索引擎界面
圖3-2 TSE查詢結果頁面
圖3-3 TSE網頁快照頁面
圖3-4 TSE繫統結構
圖3-5 Web信息的搜集
圖3-6 Sockets和端口
圖3-7 通過Socket建立連接
圖4-1 網頁預處理繫統結構
圖4-2 原始網頁庫中的記錄格式
圖4-3 索引網頁庫算法
圖4-4 字符的輸入和顯示流程
圖4-5 GB2312,Big5和GBK字符編碼分布
圖4-6 正向減字最大匹配算法流程
圖4-7 切詞算法流程
圖4-8 分析網頁與建立倒排文件流程
圖4-9 過濾網頁中非正文信息算法
圖4-10 正向索引表記錄格式
圖4-11 由正向索引建立反向索引
圖5-1 信息查詢的繫統結構
圖5-2 基本檢索算法
圖5-3 動態摘要算法
圖5-4 用戶查詢日志的記錄格式
圖6-1 天網繫統概貌
圖6-2 搜集繫統的主控結構
圖6-3 協調進程工作算法
圖6-4 分布式Web搜集繫統結構
圖6-5 負載方差
圖6-6 並行搜集繫統與集中式搜集繫統的性能對比
圖6-7 分布式繫統效率
圖6-8 URL兩階段映射
圖6-9 天網分布式搜集繫統P_Arthur體繫結構
圖6-10 人纔招聘網站首頁
圖7-1 用DocView模型提取的網頁要素
圖7-2 淨化後的網頁
圖7-3 HTML Tree結構
圖7-4 內容塊權值傳遞過程
圖7-5 有主題網頁DocView模型生成過程
圖7-6 計算網頁特征項權值的算法
圖7-7 正文段落識別過程
圖7-8 基於anchor text的超鏈選取算法
圖7-9 網頁淨化前後分類效果對比
圖7-10 查全率隨選取關鍵詞個數的變化
圖8-1 檢索繫統集成框架結構
圖8-2 天網WWW檢索分布式繫統構架
圖8-3 倒排索引結構示意圖
圖8-4 按塊組織的倒排鏈的結構
圖8-5 位置索引的結構
圖8-6 CLPS結構示意圖
圖8-7 倒排鏈中文檔號之間的d-gaps分布圖
圖8-8 不同文檔號分配下平均每個查詢對應文檔號序列的壓縮大小
圖8-9 不同壓縮算法對文檔號的解壓速度
圖8-10 不同文檔號分配下平均每個查詢對應詞頻序列的壓縮大小
圖8-11 不同壓縮算法對詞頻的解壓速度
圖8-12 平均每個查詢對應的位置信息需要的存儲空間
圖8-13 索引剪枝方法的分類
圖8-14 MAXSCORE算法的示例
圖8-15 WAND算法選擇候選文檔的過程
圖8-16 基於最大塊索引的支點文檔號的選擇示例
圖8-17 Interval-Base剪枝方法中文檔子區間劃分的示例
圖8-18 SAAT方法處理查詢處理模式及分數累加器數量的變化
圖8-19 當前支持高效SR+IR剪枝的索引結構
圖8-20 擴展詞典樹結構示例
圖8-21 擴展詞典匹配查找算法
圖8-22 搜索引擎檢索繫統緩存結構
圖8-23 文檔數據訪問對像大小分布
圖8-24 I/O與PAGE序列序號-頻度分布
圖8-25 I/O與PAGE序列時間間隔分布
圖8-26 I/O和PAGE序列中唯一模式串
圖9-1 Inktomi提供的幾種搜索引擎技術的比較
圖9-2 詞典在繫統中的地位
圖9-3 新詞學習
圖9-4 網頁的互聯結構示意
圖9-5 信息獲取技術評估的“森林”
圖9-6 查準率和召回率基礎定義圖示
圖9-7 查準率和召回率例子
圖9-8 “省事的”11點標準召回率例子
圖9-9 實踐中召回率例子
圖9-10 實際中的44個查詢詞的評價統計表和P-R圖
圖9-11 測試集在檢索評估中的角色
圖9-12 幫助判斷相關結果頁面的計算機輔助程序入口
圖9-13 幫助判斷相關結果頁面的計算機輔助程序操作界面
圖10-1 Web InfoMall體繫結構
圖10-2 網頁數據的分割
圖10-3 Web InfoMall的存儲結構
圖10-4 網頁的引用壓縮示意圖
圖11-1 CDAL提供的資源訪問方式
圖11-2 CDAL繫統結構圖
圖11-3 基於Ontology的網絡資源描述信息獲取
圖11-4 概念的屬性及其詞彙擴展(以電影類資源為例)
圖11-5 獲得描述信息的改進排序算法
圖11-6 網絡資源描述信息展示
圖12-1 自動文檔分類算法的分類
圖12-2 中文網頁自動分類的一般過程
圖12-3 中文網頁分類器的工作原理圖
圖12-4 WebSmart——一個網頁實例集搜集和整理工具
圖12-5 一種中文網頁的分類體繫
圖12-6 Macro-F₁值隨樣本數的變化
圖12-7 Micro-F₁值隨樣本數的變化
圖12-8 CHI、IG、DF、MI的比較(Macro-F₁)
圖12-9 CHI、IG、DF、MI的比較(Micro-F₁)
圖12-10 kNN與NB分類結果的比較
圖12-11 k的取值對分類器質量的影響(Marco-F₁)
圖12-12 k的取值對分類器質量的影響(Micro-F₁)
圖12-13 蘭式距離法與歐式距離法對12個不同類別的分類情況
圖12-14 基於層次模型的kNN與基本kNN的比較
圖12-15 RCut和SCut截尾算法的比較
圖12-16 天網目錄的體繫結構
圖12-17 天網目錄導航服務
圖12-18 文本聚類的一般過程
圖12-19 層次聚類實例
圖12-20 k-均值算法進行文本聚類的過程
圖12-21 搜索結果聚類繫統Carrot2
圖13-1 START繫統界面
圖13-2 Ask Jeeves查詢結果
圖13-3 問答繫統的通用體繫結構
圖13-4 天網開放域繫統的體繫結構
表目錄
表4-1 網頁索引文件
表4-2 URL索引文件
表6-1 SOIF數據描述
表6-2 SOIF具體語法
表6-3 參照序列,假設節點數為2
表7-1 類別編號對照表
表7-2 消重實驗結果
表7-3 當N=10、δ=0.01時5種算法的查全率和準確率
表7-4 考察δ的取值對算法3和4的影響
表7-5 分段簽名算法的時間復雜度及性能
表7-6 基於關鍵詞的各算法的時間復雜度及性能(N=10,δ=0.01)
表8-1 MTF對序列<4,4,1,4,2>進行轉換的過程
表8-2 對包含100萬詞條的詞典使用不同編碼所需要的空間
表8-3 平均每個查詢對應詞頻鏈的空間大小(文檔號按URL序分配)
表8-4 不同索引的組織結構及其支持的查詢處理方式
表8-5 數據集基本統計信息
表9-1 新詞學習對檢索準確率的影響
表9-2 影響權值的HTML標簽
表9-3 補償因子定義表
表9-4 2004中文Web信息檢索評測提交結果
表9-5 主題提取
表9-6 導航搜索
表9-7 用戶查詢信息類別
表10-1 網頁存儲性能(個/秒)
表10-2 網頁訪問性能(個/秒)
表11-1 幾個網絡資源庫藏繫統的特征
表11-2 CDAL中的資源分布
表12-1 樣本集中類別及實例數量的分布情況表
表12-2 kNN和NB算法的分類質量和分類效率比較
表12-3 歐式距離與蘭式距離的比較
表12-4 基於層次模型的kNN與基本kNN的比較
表12-5 RCut和SCut截尾算法的比較
表12-6 一個分類器的設計方案
表13-1 問題分類體繫結構及TREC問答任務中問題的分布
表13-2 天網開放域繫統在TREC2005中的表現

在線試讀

第一章引論
信息的生產、傳播、搜集與查詢是人類最基本的活動之一。考慮以文字為載體的信息，傳統上有圖書館、相應的編目體繫和專業人員幫助我們很快找到所需的信息，其粒度通常是“書”或者“文章” 。隨著計算機與信息技術的發展，有了信息檢索（in-formation retrieval ，IR）學科領域，有了關於圖書或者文獻的全文檢索繫統，使我們能很方便地在“關鍵詞”的粒度上得到相關的信息。
我們注意到，上述全文檢索繫統一般工作在一個規模相對有限、內容相對穩定的館藏（collection）上，被檢索的對像通常是經過認真篩選和預先處理的（如人工提取出了“作者” 、“標數據，形成了很好的“摘要”等），並且繫統需要同時響應的查詢數量通常都不會太大（如每秒鐘10 個左右）。
1994 年左右，萬維網（ World Wide Web ，簡記為WWW 或Web）出現。它的開放性（openness）和其上信息廣泛的可訪問性（accessibility）極大地鼓勵了人們創作的積極性。作為一個信息源，Web 和上述全文檢索繫統的工作對像相比，具有許多不同的特征，它們給信息檢索領域帶來了新的發展機遇和技術挑戰。
規模大。在短短的10 年左右時間，人類至少生產了40 億網頁（Google 2004），而人類有文字以來上萬年裡產生了大約1 億本書；中國網上到2004 年初大致有了約3億網頁（天網2004），而中華民族有史以來出版的書籍大約不過275 萬種。盡管書籍的容量和質量是一般網頁不可比的，但在對應的時間背景上考察其文字的總體數量，我們不能不為人類在Web 上創造文字的激情驚嘆！
內容不穩定。除了不斷有新的網頁出現外，舊的網頁也可能會因為各種原因被刪除（有研究指出：50 % 網頁的平均生命周期大約為50 天（ Cho et al.2000 ，Cho 2002））。
從原則上講，讀者數和作者數在同一個量級，形式和內容的隨意性很強，權威性相對也不高，也不太可能進行人工篩選和預處理。
與生俱來的數字化、網絡化。傳統載體上的信息，人們目前正忙於將它們數字化、上網（花費極高），而網絡信息天生如此。這個特性是一把雙刃劍：一方面便於我們搜集和處理，另一方面也會使我們感到太多，蜂擁而至、魚目混珠。
而作為要在Web 上提供服務的信息查詢繫統，如搜索引擎和數字圖書館，通常要具備同時對付大量訪問的能力（如每秒鐘1000 個查詢），而且響應時間還要足夠的快（如1 秒鐘）。
本書旨在介紹構建這類搜索引擎的有關技術。傳統的IR 是其基礎，同時本書也充分討論了由上述Web 信息的特征所帶來的新問題及其解決方案。第一章引論
信息的生產、傳播、搜集與查詢是人類最基本的活動之一。考慮以文字為載體的信息，傳統上有圖書館、相應的編目體繫和專業人員幫助我們很快找到所需的信息，其粒度通常是“書”或者“文章” 。隨著計算機與信息技術的發展，有了信息檢索（in-formation retrieval ，IR）學科領域，有了關於圖書或者文獻的全文檢索繫統，使我們能很方便地在“關鍵詞”的粒度上得到相關的信息。
我們注意到，上述全文檢索繫統一般工作在一個規模相對有限、內容相對穩定的館藏（collection）上，被檢索的對像通常是經過認真篩選和預先處理的（如人工提取出了“作者” 、“標數據，形成了很好的“摘要”等），並且繫統需要同時響應的查詢數量通常都不會太大（如每秒鐘10 個左右）。
1994 年左右，萬維網（ World Wide Web ，簡記為WWW 或Web）出現。它的開放性（openness）和其上信息廣泛的可訪問性（accessibility）極大地鼓勵了人們創作的積極性。作為一個信息源，Web 和上述全文檢索繫統的工作對像相比，具有許多不同的特征，它們給信息檢索領域帶來了新的發展機遇和技術挑戰。
規模大。在短短的10 年左右時間，人類至少生產了40 億網頁（Google 2004），而人類有文字以來上萬年裡產生了大約1 億本書；中國網上到2004 年初大致有了約3億網頁（天網2004），而中華民族有史以來出版的書籍大約不過275 萬種。盡管書籍的容量和質量是一般網頁不可比的，但在對應的時間背景上考察其文字的總體數量，我們不能不為人類在Web 上創造文字的激情驚嘆！
內容不穩定。除了不斷有新的網頁出現外，舊的網頁也可能會因為各種原因被刪除（有研究指出：50 % 網頁的平均生命周期大約為50 天（ Cho et al.2000 ，Cho 2002））。
從原則上講，讀者數和作者數在同一個量級，形式和內容的隨意性很強，權威性相對也不高，也不太可能進行人工篩選和預處理。
與生俱來的數字化、網絡化。傳統載體上的信息，人們目前正忙於將它們數字化、上網（花費極高），而網絡信息天生如此。這個特性是一把雙刃劍：一方面便於我們搜集和處理，另一方面也會使我們感到太多，蜂擁而至、魚目混珠。
而作為要在Web 上提供服務的信息查詢繫統，如搜索引擎和數字圖書館，通常要具備同時對付大量訪問的能力（如每秒鐘1000 個查詢），而且響應時間還要足夠的快（如1 秒鐘）。
本書旨在介紹構建這類搜索引擎的有關技術。傳統的IR 是其基礎，同時本書也充分討論了由上述Web 信息的特征所帶來的新問題及其解決方案。
第一節搜索引擎的概念
搜索引擎，在本書指的是一種在Web 上應用的軟件繫統，它以一定的策略在Web 上搜集和發現信息，這些信息集合對應於Web 上一段時間內（如一周或兩周）搜集的網頁。對Web 上更長時間段（如10 年）網頁的搜集和整理，我們在下篇介紹。
在對信息進行處理和組織後，為用戶提供Web 信息查詢服務。從使用者的角度看，這種軟件繫統提供一個網頁界面，通過瀏覽器提交一個詞語或者短語，可以很快返回一個可能和用戶輸入內容相關的信息列表（常常會是很長一個列表，如包含1 萬個條目）。這個列表中的每一條目代表一篇網頁，每個條目至少素：
1）標題：以某種方式得到的網頁內容的標題。最簡單的方式就是從網頁的＜ TITLE ＞＜ / TITLE ＞標簽中提取的內容（盡管在一些情況下並不真正反映網頁的內容）。本書第七章會介紹其他形成“標題”的方法。
2） URL ：該網頁對應的“訪問地址” 。有經驗的Web 用戶常常可以通素對網頁內容的權威性進行判斷，例如，http ：// www ．people ．com 上面的內容通常就比http ：//notresponsible ．net（某個假想的個人網站）上的要更權威些（不排除後者上的內容更有趣些）。
3）摘要：以某種方式得到的網頁內容的摘要。最簡單的一種方式就是將網頁內容的頭若干字節（如前512 字節）截取下來作為摘要。本書第七章會介紹形成“摘要”
的其他方法。
通過瀏素，用戶對相應的網頁是否真正包含他所需的信息進行判斷。
比較肯定的話則可以點擊上述URL ，從而得到該網頁的全文。圖1-1 是2012 年3月15 日在Google 搜索引擎（http ：//www ．google ．com ．hk/）上的一個例子，用戶提交了查詢詞“伊拉克戰爭” ，繫統返回一個相關信息列表。列表的每一條目所含內容比上述要豐富些，但核心還是素。
這個例子提示了我們一個重要的情況，即搜索引擎提供信息查詢服務的時候，它面對的隻是查詢詞。而有不同背景的人可能提交相同的查詢詞，關心的是和這個查詢詞相關的不同方面的信息，但搜索引擎通常是不知道用戶背景的，因此搜索引擎既要爭取不漏掉任何相關的信息，還要爭取將那些“最可能被關心”的信息排在列表的前面。這也就是對搜索引擎的根本要求。除此以外，考慮到搜索引擎的應用環境是Web ，因此對大量並發用戶查詢的響應性能也是一個不能忽略的方面。
作為對搜索引擎工作原理的基本了解，這裡有兩個問題需要首先澄清。第一，當用戶提交查詢的時候，搜索引擎並不是即刻在Web 上“搜索”一通，發現那些相關的網頁，形成列表呈現給用戶；而是事先已“搜集”了一批網頁，以某種方式存放在繫統中，此時的搜索隻是在繫統內部進行而已。第二，當用戶感到返回結果列表中的某一項很可能是他需要的，從而點擊URL ，獲得網頁全文的時候，他此時訪問的則是網頁的原始出處。因此，從理論上講搜索引擎並不保證用戶在返回結果列表上看到的標題和摘要內容與他點擊URL 所看到的內容一致（上面那個“伊拉克戰爭”的例子就是如此），甚至不保證那個網頁還存在。這也是搜索引擎和傳統信息檢索繫統的一個重要區別。這種區別源於前述Web 信息的基本特征。為了彌補這個差別，現代搜索引擎都保存網頁搜集過程中得到的網頁全文，並在返回結果列表中提供“網頁快照”或“歷史網頁”鏈接，保證讓用戶能看到和摘要信息一致的內容。
第二節搜索引擎的發展歷史
早在Web 出現之前，互聯網上就已經存在許多旨在讓人們共享的信息資源了。
那些資源當時主要存在於各種允許匿名訪問的FTP 站點（anonymous FTP），內容以學術技術報告、研究性軟件居多，它們以計算機文件的形式存在，文字材料的編碼通常是PostScript 或者純文本（那時還沒有H TML）。
為了便於人們在分散的FTP 資源中找到所需的東西，1990 年加拿大麥吉爾大學（ University of McGill）計算機學院的師生開發了一個軟件，Archie 。它通過定期搜集並分析FTP 繫統中存在的文件名信息，提供查找分布在各個FTP 主機中文件的服務。Archie 能在隻知道文件名的前提下，為用戶找到這個文件所在的FTP 服務器的地址。Archie 實際上是一個大型的數據庫，再加上與這個大型數據庫相關聯的一套檢索方法。該數據庫中包括大量可通過FTP 下載的文件資源的有關信息，包括這些資源的文件名、文件長度、存放該文件的計算機名及目錄名等。盡管所提供服務的信息資源對像（非H TML 文件）和本書所討論搜索引擎的信息資源對像（ H TML網頁）不一樣，但基本工作方式是相同的（自動搜集分布在廣域網上的信息，建立索引，提供檢索服務），因此人們公認Archie 為現代搜索引擎的鼻祖。以FTP 文件為對像的信息檢索服務技術在2000 年左右是比較流行的，尤其是在用戶使用界面上充分采用了Web 風格，北大天網文件檢索繫統就是一個例子。隨著P2P 文件共享繫統的流行，更多的用戶搜索文件開始使用P2P 客戶端，FTP 搜索逐漸淡出。近年來，隨著智能手機和平板電腦的流行，搜索已經不限於在電腦上完成，而且有些應用天生適合移動設備的小屏幕，如微博、微信和飛信等；搜索的技術更多地在不同的領域得到應用，如淘寶網（http ：//www ．taobao ．com/）中提供的檢索、推薦和過濾功能；搜索的對像也不限於網頁和文件，如微博、評論、標簽、視頻、音頻、事件和圖片等。鋻於本書寫作定位的關繫，後面將主要討論網頁搜索引擎的相關問題。
以Web 網頁為對像的搜索引擎和以FTP 文件為對像的檢索繫統一個基本的不同點在於搜集信息的過程。前者是利用HTML 文檔之間的鏈接關繫，在Web 上一個網頁一個網頁地“爬取”（crawl），將那些網頁“抓”（fetch）到本地後進行分析；後者則是根據已有的關於FTP 站點地址的知識（如得到了一個站點地址列表），對那些站點進行訪問，獲得其文件目錄信息，並不真正將那些文件下載到繫統上來。因此，如何在Web 上“爬取” ，就是搜索引擎要解決的一個基本問題。在這方面，1993 年Mat-thew Gray 開發了World Wide Web Wanderer ，它是世界上第一個利用H TML 網頁之間的鏈接關繫來監測Web 發展規模的“機器人”（robot）程序。剛開始時它隻用來統計互聯網上的服務器數量，後來則發展為能夠通過它檢索網站域名。鋻於其在Web 上沿超鏈“爬行”的工作方式，這種程序有時也稱為“蜘蛛”（spider）。因此，在文獻中crawler 、spider 、robot 一般都指的是相同的事物，即在Web 上依照網頁之間的超鏈關繫一個個抓取網頁的程序，通常也稱為“搜集” 。在搜索引擎繫統中，也稱為網頁搜集子繫統。
現代搜索引擎的思路源於Wanderer ，不少人在Matthew Gray 工作的基礎上對它的蜘蛛程序做了改進。1994 年7 月，Michael Mauldin 將John Leavitt 的蜘蛛程序接入到其索引程序中，創建了大家現在熟知的Lycos ，成為第一個現代意義的搜索引擎。在那之後，隨著Web 上信息的爆炸性增長，搜索引擎的應用價值也越來越高，不斷有更新、更強的搜索引擎繫統推出。這其中，特別引人注目的是Google ，雖然是個姍姍來遲者（1998 年纔推出），但由於其采用了獨特的PageRank 技術，使它很快後來居上，成為當前全球最受歡迎的搜索引擎（作者2003 年初訪問印度，就聽到總統阿卜杜勒? 卡拉姆講他經常用Google 在網上查找信息）。
在中國，據我們所知，對搜索引擎的研究起源於“中國教育科研網”（CERNET）一期工程中的子項目，北京大學計算機繫的項目組在陳葆玨教授的主持下於1997 年10 月在CERNET 上推出了天網搜索1 ．0 版本。該繫統在這幾年裡不斷發展，目前已成為中國最大的公益性搜索引擎（http ：//e ．pku ．edu ．cn）。在這之後，幾位在美國留學的華人學者回國創業，成立了百度公司，於2000 年推出了“百度”商業搜索引擎（http ：//www ．baidu ．com），並一直處於國內搜索引擎的領先地位。我們看到搜狐公司也在中國推出了一個大規模搜索引擎（http ：// www ．sogou ．com），用起來感覺也不錯，但往後發展如何，還有待時間的考驗。
當我們談及搜索引擎的時候，不應該忽略另外一個幾乎是同期發展出來的事物：基於目錄的信息服務網站。1994 年4 月，斯坦福（Stanford）大學的兩名博士生，Da-vid Filo 和楊致遠（Gerry Yang）共同創辦了Yahoo ！門戶網站，並成功地使網絡信息搜索的概念深入人心。1996 年中國出現了類似的網站，“搜狐”（http ：//www ．sohu ．com）。在許多場合，也稱Yahoo ！之類的門戶網站提供的信息查找功能為搜索引擎。但從技術上講，這樣的門戶中提供的搜索服務和前述搜索引擎是很不同的。而且目前這類門戶網站通常采用兩種方式的結合來提供服務，即人工編輯結合自動搜索。這樣的門戶依賴的是人工整理的網站分類目錄，一方面，用戶可以直接沿著目錄導航，定位到他所關心的信息；另一方面，用戶也可以提交查詢詞，讓繫統將他直接引導到和該查詢詞最匹配的網站。圖1-2 就是我們在Open Directory Project（http ：//www ．dmoz ．org/）上查詢“伊拉克戰爭”的結果。一般來講，前者的信息搜索會更全面些，後者則會準確些。在沒有特殊說明的情況下，本書中所討論的“搜索引擎”不包括Yahoo ！和搜狐這樣的搜索方式。
隨著網上信息越來越多，單純靠人工整理網站目錄取得較高精度查詢結果的優勢逐漸退化――對海量的信息進行高質量的人工分類已經不太現實。目前有兩個發展方向。一是利用文本自動分類技術，在搜索引擎上提供對每篇網頁的自動分類，這方面最先看到的例子是Google 的“網頁分類”選項，但它分類的對像隻是英文網頁。
在中文方面，文本自動分類的研究工作有很多，但我們知道的第一個在網上提供較大規模網頁自動分類服務的是北大網絡實驗室馮是聰和龔筆宏等人的工作（馮是聰2003），他們於2002 年10 月在天網搜索上掛接了一個300 萬網頁的分類目錄。另一個發展方向是將自動網頁爬取和一定的人工分類目錄相結合，希望形成一個既有高信息覆蓋率，也有高查詢準確性的服務。
互聯網上信息量在不斷增加，信息的種類也在不斷增加。例如，除了我們前面提到的網頁和文件，還有微博、論壇、專業數據庫等。同時上網的人數也在不斷增加，網民的成分也在發生變化。一個搜索引擎要覆蓋所有的網上信息查找需求已出現困難，因此各種主題搜索引擎、個性化搜索引擎、問答式搜索引擎等紛紛興起。這些搜索引擎雖然還沒有實現如通用搜索引擎那樣的大規模應用，但隨著互聯網的發展，我們相信它們的生命力會越來越旺盛。另外，即使通用搜索引擎的運行現在也開始出現分工協作，有了專業的搜索引擎技術和搜索數據庫服務提供商。如美國的Inkto-mi ，它本身並不是直接面向用戶的搜索引擎，但向包括Overture （原GoTo）、LookSmart 、MSN 、HotBot 等在內的其他搜索引擎提供全文網頁搜集服務。從這個意義上說，它是搜索引擎數據的來源。
搜索引擎出現雖然隻有20 年左右的歷史，但在Web 上已經有了確定不移的地位。據CNNIC 統計，它已經成為繼電子郵件之後的第二大Web 應用。雖然它的基本工作原理已經相當穩定，但在其質量、性能和服務方式等方面的提高空間依然很大，研究成果層出不窮，是每年WWW 學術年會① 的重要論題之一。
第三節一些著名的搜索引擎
為了讓感興趣的讀者有目的地試一試，我們整理了一些當前主流的搜索引擎，包括網址、首頁面圖片及其介紹。這些搜索引擎提供多語言的支持，可以滿足不同母語讀者的需求。

商品搜索

商品分类

【醫學】

【各大出版社】