[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 搜索引擎——原理、技術與繫統(第二版)
    該商品所屬分類:計算機/網絡 -> 網絡與數據通信
    【市場價】
    236-344
    【優惠價】
    148-215
    【作者】 李曉明闫宏飛王繼民 
    【所屬類別】 圖書  計算機/網絡  網絡與數據通信  網絡配置與管理 
    【出版社】科學出版社 
    【ISBN】9787030342584
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝

    是否套裝:否
    國際標準書號ISBN:9787030342584
    作者:李曉明,闫宏飛,王繼民

    出版社:科學出版社
    出版時間:2012年05月 

        
        
    "

    編輯推薦

        李曉明等編著的《搜索引擎——原理技術與繫統(第2版)》保留了**版上篇的大部分內容,即搜索引擎的基本原理,過去這麼些年並沒有什麼變化;刪除了**版中的第九,第十二和十三章,增加了第十,第十一和十三章,分別介紹基於搜索引擎技術開發並從2002年一直運行至今的“中國web信息博物館”、“中國數字財富庫藏”及開放域問答繫統。同時,較大幅度修訂了**版中的部分小節內容。本書分三篇共13章,內容包括引論、Web搜索引擎工作原理和體繫結構、web信息的搜集、對搜集信息的預處理、信息查詢服務等。

     
    內容簡介
    搜索引擎:原理、技術與繫統(第二版)繫統介紹了互聯網搜索引擎的工作原理、實現技術及繫統構建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術,講述一個小型簡單搜索引擎實現的具體細節;中篇詳細討論了大規模分布式搜索引擎繫統的設計要點及其關鍵技術;下篇結合“中國Web信息博物館”和“中國互聯網數字資源財富庫藏”的實踐經驗,介紹了構建大規模Web歷史網頁和非網頁倉儲繫統的技術和方法,以及中文網頁的自動分類與聚類、開放域問題繫統的構建等。
    搜索引擎:原理、技術與繫統(第二版)層次分明,由淺入深,上篇和中篇涉及內容提供了源代碼下載地址;既有深入的理論分析,也有大量的實驗數據和程序,具有學習和實用雙重意義。
    搜索引擎:原理、技術與繫統(第二版)可作為高等院校計算機科學與技術、軟件工程、信息管理與信息繫統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料;對廣大從事網絡技術、Web站點管理、數字圖書館、Web挖掘等研究和應用開發的科技人員有很高的參考價值;書中提供了大量源代碼,除了用於構建搜索引擎之外,對於學習編程,提高編程技巧,以及實現一個大規模應用開發也有一定的參考價值。
    目錄
    目錄
    第二版前言
    第一版前言
    第一章 引論
    第一節 搜索引擎的概念
    第二節 搜索引擎的發展歷史
    第三節 一些著名的搜索引擎
    第四節 小結
    上篇 Web搜索引擎基本原理和技術
    第二章 Web搜索引擎工作原理和體繫結構
    第一節 基本要求
    第二節 網頁搜集
    第三節 預處理
    第四節 查詢服務目錄
    第二版前言
    第一版前言
    第一章 引論
    第一節 搜索引擎的概念
    第二節 搜索引擎的發展歷史
    第三節 一些著名的搜索引擎
    第四節 小結
    上篇 Web搜索引擎基本原理和技術
    第二章 Web搜索引擎工作原理和體繫結構
    第一節 基本要求
    第二節 網頁搜集
    第三節 預處理
    第四節 查詢服務
    第五節 體繫結構
    第六節 小結
    第三章 Web信息的搜集
    第一節 概述
    一、超文本傳輸協議
    二、一個小型搜索引擎繫統
    第二節 網頁搜集
    一、定義URL類和Page類
    二、與服務器建立連接
    三、發送請求和接收數據
    四、網頁信息存儲的天網格式
    第三節 多道搜集程序並行工作
    一、多線程並發工作
    二、控制對一個站點並發搜集線程的數目
    第四節 如何避免網頁的重復搜集
    一、記錄未訪問、已訪問URL和網頁內容摘要信息
    二、域名與IP的對應問題
    第五節 搜集信息的類型
    第六節 小結
    第四章 對搜集信息的預處理
    第一節 索引網頁庫
    第二節 網頁編碼識別
    一、基本而重要的概念
    二、常用字符編碼
    三、常用字符編碼算法
    四、字符的輸入和顯示
    五、編碼識別
    第三節 中文自動分詞
    第四節 分析網頁和建立倒排文件
    第五節 小結
    第五章 信息查詢服務
    第一節 檢索的定義
    第二節 查詢服務的實現
    一、結果集合的形成
    二、查詢結果顯示
    第三節 小結
    中篇 對質量和性能的追求
    第六章 可擴展搜集子繫統
    第一節 天網繫統概述和集中式搜集繫統結構
    一、天網繫統結構
    二、集中式搜集繫統
    第二節 利用並行處理技術高效搜集網頁的一種方案
    一、節點間URL的劃分策略
    二、關於性能的討論
    三、性能測試和評價
    四、繫統的動態可配置性設計
    第三節 天網分布式搜集繫統
    第四節 對Deep Web的認識
    一、Deep Web的成因
    二、搜索Deep Web的方法
    第五節 小結
    第七章 網頁淨化與消重
    第一節 網頁數據提取
    一、DocView模型
    二、網頁的表示
    三、提取DocView模型要素的方法
    四、模型應用及實驗研究
    第二節 網頁消重算法
    一、消重算法
    二、算法評測
    第三節 小結
    第八章 高性能檢索子繫統
    第一節 檢索繫統基本技術
    一、繫統設計與結構
    二、索引創建
    三、檢索過程
    第二節 適於查詢的網頁索引結構
    一、倒排索引結構
    二、平面位置索引
    第三節 倒排索引壓縮
    一、倒排索引壓縮技術
    二、詞典與倒排表的壓縮
    第四節 索引剪枝
    一、靜態索引剪枝方法
    二、動態索引剪枝方法
    第五節 混合索引技術
    一、混合索引的原理
    二、混合索引的實現
    第六節 倒排文件緩存機制
    一、倒排文件緩存
    二、負載特性
    三、緩存策略的選擇
    第七節 小結
    第九章 相關排序與繫統質量評估
    第一節 傳統IR的相關排序技術
    第二節 鏈接分析與相關排序
    一、鏈接分析
    二、Web查詢模式下的新信息
    第三節 相關排序的一種實現方案
    一、形成網頁中詞項的基本權重
    二、利用鏈接的結構
    三、收集用戶反饋信息
    四、計算最終的權重
    第四節 信息檢索技術評估
    一、信息檢索技術評估指標
    二、TREC和CWIRF信息檢索評估
    三、搜索引擎技術評估
    第五節 小結
    下篇 Web信息資源的組織與應用服務
    第十章 大規模Web歷史網頁倉儲繫統的構建
    第一節 國外Web歷史網頁保存現狀
    一、Internet Archive
    二、PANDORA
    三、其他相關Web保存項目
    第二節 中國Web信息博物館的繫統設計
    一、Web InfoMall的設計目標
    二、Web InfoMall的體繫結構
    第三節 歷史網頁的存儲
    一、數據的組織
    二、存儲結構
    三、數據管理與壓縮
    四、存儲性能
    第四節 數據訪問
    一、PageID的索引
    二、URL的索引
    三、數據服務
    四、性能與優化
    第五節 網頁的格式保存
    第六節 小結
    第十一章 大規模Web非網頁信息倉儲繫統的構建
    第一節 網絡資源庫藏相關工作
    一、Ibiblio
    二、Internet Archive
    三、Wikimedia
    四、中國互聯網數字資源財富庫藏
    第二節 CDAL繫統概況
    第三節 CDAL繫統設計
    一、繫統體繫結構
    二、可擴展的存儲組織方案
    第四節 網絡資源描述信息獲取
    一、Ontology概述
    二、描述信息獲取機制
    三、改進查詢的方法
    四、改進排序的方法
    第五節 基於局部聚類思想的共現詞彙算法
    一、基本定義
    二、FDC共現詞彙算法
    第六節 小結
    第十二章 中文網頁自動分類與聚類
    第一節 文檔自動分類算法的類型
    第二節 實現中文網頁自動分類的一般過程
    第三節 影響分類器性能的關鍵因素分析
    一、實驗設置
    二、訓練樣本
    三、特征選取
    四、分類算法
    五、截尾算法
    六、中文網頁分類器的設計方案
    第四節 天網目錄導航服務
    一、問題的提出
    二、天網目錄導航服務的體繫結構
    三、天網目錄的運行實例
    第五節 文本聚類方法
    一、文本聚類的一般過程
    二、文本間相似性的度量
    三、常用聚類算法
    四、聚類結果的評估
    五、搜索引擎返回結果的聚類
    第六節 小結
    第十三章 開放域問答繫統
    第一節 概述
    一、問答繫統的歷史
    二、著名開放域問答繫統介紹
    三、開放域問答繫統的通用體繫結構
    第二節 問句的分析
    一、問句中的指代消解
    二、問句分類
    三、問句主題提取
    第三節 文檔和段落檢索
    一、檢索模型的選用
    二、查詢生成
    三、查詢結果排序
    四、增強索引的功能
    第四節 答案提取和驗證模塊
    一、生成候選答案集合
    二、答案提取
    第五節 問答繫統的改進方法
    一、問答繫統中外部資源的利用
    二、尋找特殊類問題的解決方案
    三、通過繫綜方法構建問答繫統
    第六節 問答繫統的評測
    一、TREC問答繫統評測
    二、問答繫統評測指標
    第七節 實例:天網開放域問答繫統
    第八節 小結
    參考文獻
    附錄 術語
    圖目錄
    圖1-1 2012年3月在Google上檢索“伊拉克戰爭”的結果
    圖1-2 2012年3月在Open Directory上檢索“伊拉克戰爭”的結果
    圖2-1 搜索引擎示意圖
    圖2-2 搜索引擎三段式工作流程
    圖2-3 搜索引擎的體繫結構
    圖3-1 TSE搜索引擎界面
    圖3-2 TSE查詢結果頁面
    圖3-3 TSE網頁快照頁面
    圖3-4 TSE繫統結構
    圖3-5 Web信息的搜集
    圖3-6 Sockets和端口
    圖3-7 通過Socket建立連接
    圖4-1 網頁預處理繫統結構
    圖4-2 原始網頁庫中的記錄格式
    圖4-3 索引網頁庫算法
    圖4-4 字符的輸入和顯示流程
    圖4-5 GB2312,Big5和GBK字符編碼分布
    圖4-6 正向減字最大匹配算法流程
    圖4-7 切詞算法流程
    圖4-8 分析網頁與建立倒排文件流程
    圖4-9 過濾網頁中非正文信息算法
    圖4-10 正向索引表記錄格式
    圖4-11 由正向索引建立反向索引
    圖5-1 信息查詢的繫統結構
    圖5-2 基本檢索算法
    圖5-3 動態摘要算法
    圖5-4 用戶查詢日志的記錄格式
    圖6-1 天網繫統概貌
    圖6-2 搜集繫統的主控結構
    圖6-3 協調進程工作算法
    圖6-4 分布式Web搜集繫統結構
    圖6-5 負載方差
    圖6-6 並行搜集繫統與集中式搜集繫統的性能對比
    圖6-7 分布式繫統效率
    圖6-8 URL兩階段映射
    圖6-9 天網分布式搜集繫統P_Arthur體繫結構
    圖6-10 人纔招聘網站首頁
    圖7-1 用DocView模型提取的網頁要素
    圖7-2 淨化後的網頁
    圖7-3 HTML Tree結構
    圖7-4 內容塊權值傳遞過程
    圖7-5 有主題網頁DocView模型生成過程
    圖7-6 計算網頁特征項權值的算法
    圖7-7 正文段落識別過程
    圖7-8 基於anchor text的超鏈選取算法
    圖7-9 網頁淨化前後分類效果對比
    圖7-10 查全率隨選取關鍵詞個數的變化
    圖8-1 檢索繫統集成框架結構
    圖8-2 天網WWW檢索分布式繫統構架
    圖8-3 倒排索引結構示意圖
    圖8-4 按塊組織的倒排鏈的結構
    圖8-5 位置索引的結構
    圖8-6 CLPS結構示意圖
    圖8-7 倒排鏈中文檔號之間的d-gaps分布圖
    圖8-8 不同文檔號分配下平均每個查詢對應文檔號序列的壓縮大小
    圖8-9 不同壓縮算法對文檔號的解壓速度
    圖8-10 不同文檔號分配下平均每個查詢對應詞頻序列的壓縮大小
    圖8-11 不同壓縮算法對詞頻的解壓速度
    圖8-12 平均每個查詢對應的位置信息需要的存儲空間
    圖8-13 索引剪枝方法的分類
    圖8-14 MAXSCORE算法的示例
    圖8-15 WAND算法選擇候選文檔的過程
    圖8-16 基於最大塊索引的支點文檔號的選擇示例
    圖8-17 Interval-Base剪枝方法中文檔子區間劃分的示例
    圖8-18 SAAT方法處理查詢處理模式及分數累加器數量的變化
    圖8-19 當前支持高效SR+IR剪枝的索引結構
    圖8-20 擴展詞典樹結構示例
    圖8-21 擴展詞典匹配查找算法
    圖8-22 搜索引擎檢索繫統緩存結構
    圖8-23 文檔數據訪問對像大小分布
    圖8-24 I/O與PAGE序列序號-頻度分布
    圖8-25 I/O與PAGE序列時間間隔分布
    圖8-26 I/O和PAGE序列中唯一模式串
    圖9-1 Inktomi提供的幾種搜索引擎技術的比較
    圖9-2 詞典在繫統中的地位
    圖9-3 新詞學習
    圖9-4 網頁的互聯結構示意
    圖9-5 信息獲取技術評估的“森林”
    圖9-6 查準率和召回率基礎定義圖示
    圖9-7 查準率和召回率例子
    圖9-8 “省事的”11點標準召回率例子
    圖9-9 實踐中召回率例子
    圖9-10 實際中的44個查詢詞的評價統計表和P-R圖
    圖9-11 測試集在檢索評估中的角色
    圖9-12 幫助判斷相關結果頁面的計算機輔助程序入口
    圖9-13 幫助判斷相關結果頁面的計算機輔助程序操作界面
    圖10-1 Web InfoMall體繫結構
    圖10-2 網頁數據的分割
    圖10-3 Web InfoMall的存儲結構
    圖10-4 網頁的引用壓縮示意圖
    圖11-1 CDAL提供的資源訪問方式
    圖11-2 CDAL繫統結構圖
    圖11-3 基於Ontology的網絡資源描述信息獲取
    圖11-4 概念的屬性及其詞彙擴展(以電影類資源為例)
    圖11-5 獲得描述信息的改進排序算法
    圖11-6 網絡資源描述信息展示
    圖12-1 自動文檔分類算法的分類
    圖12-2 中文網頁自動分類的一般過程
    圖12-3 中文網頁分類器的工作原理圖
    圖12-4 WebSmart——一個網頁實例集搜集和整理工具
    圖12-5 一種中文網頁的分類體繫
    圖12-6 Macro-F1值隨樣本數的變化
    圖12-7 Micro-F1值隨樣本數的變化
    圖12-8 CHI、IG、DF、MI的比較(Macro-F1)
    圖12-9 CHI、IG、DF、MI的比較(Micro-F1)
    圖12-10 kNN與NB分類結果的比較
    圖12-11 k的取值對分類器質量的影響(Marco-F1)
    圖12-12 k的取值對分類器質量的影響(Micro-F1)
    圖12-13 蘭式距離法與歐式距離法對12個不同類別的分類情況
    圖12-14 基於層次模型的kNN與基本kNN的比較
    圖12-15 RCut和SCut截尾算法的比較
    圖12-16 天網目錄的體繫結構
    圖12-17 天網目錄導航服務
    圖12-18 文本聚類的一般過程
    圖12-19 層次聚類實例
    圖12-20 k-均值算法進行文本聚類的過程
    圖12-21 搜索結果聚類繫統Carrot2
    圖13-1 START繫統界面
    圖13-2 Ask Jeeves查詢結果
    圖13-3 問答繫統的通用體繫結構
    圖13-4 天網開放域繫統的體繫結構
    表目錄
    表4-1 網頁索引文件
    表4-2 URL索引文件
    表6-1 SOIF數據描述
    表6-2 SOIF具體語法
    表6-3 參照序列,假設節點數為2
    表7-1 類別編號對照表
    表7-2 消重實驗結果
    表7-3 當N=10、δ=0.01時5種算法的查全率和準確率
    表7-4 考察δ的取值對算法3和4的影響
    表7-5 分段簽名算法的時間復雜度及性能
    表7-6 基於關鍵詞的各算法的時間復雜度及性能(N=10,δ=0.01)
    表8-1 MTF對序列<4,4,1,4,2>進行轉換的過程
    表8-2 對包含100萬詞條的詞典使用不同編碼所需要的空間
    表8-3 平均每個查詢對應詞頻鏈的空間大小(文檔號按URL序分配)
    表8-4 不同索引的組織結構及其支持的查詢處理方式
    表8-5 數據集基本統計信息
    表9-1 新詞學習對檢索準確率的影響
    表9-2 影響權值的HTML標簽
    表9-3 補償因子定義表
    表9-4 2004中文Web信息檢索評測提交結果
    表9-5 主題提取
    表9-6 導航搜索
    表9-7 用戶查詢信息類別
    表10-1 網頁存儲性能(個/秒)
    表10-2 網頁訪問性能(個/秒)
    表11-1 幾個網絡資源庫藏繫統的特征
    表11-2 CDAL中的資源分布
    表12-1 樣本集中類別及實例數量的分布情況表
    表12-2 kNN和NB算法的分類質量和分類效率比較
    表12-3 歐式距離與蘭式距離的比較
    表12-4 基於層次模型的kNN與基本kNN的比較
    表12-5 RCut和SCut截尾算法的比較
    表12-6 一個分類器的設計方案
    表13-1 問題分類體繫結構及TREC問答任務中問題的分布
    表13-2 天網開放域繫統在TREC2005中的表現
    在線試讀
    第一章引論
    信息的生產、傳播、搜集與查詢是人類最基本的活動之一。考慮以文字為載體的信息,傳統上有圖書館、相應的編目體繫和專業人員幫助我們很快找到所需的信息,其粒度通常是“書”或者“文章” 。隨著計算機與信息技術的發展,有了信息檢索(in-formation retrieval ,IR)學科領域,有了關於圖書或者文獻的全文檢索繫統,使我們能很方便地在“關鍵詞”的粒度上得到相關的信息。
    我們注意到,上述全文檢索繫統一般工作在一個規模相對有限、內容相對穩定的館藏(collection)上,被檢索的對像通常是經過認真篩選和預先處理的(如人工提取出了“作者” 、“標數據,形成了很好的“摘要”等) ,並且繫統需要同時響應的查詢數量通常都不會太大(如每秒鐘10 個左右) 。
    1994 年左右,萬維網( World Wide Web ,簡記為WWW 或Web)出現。它的開放性(openness)和其上信息廣泛的可訪問性(accessibility)極大地鼓勵了人們創作的積極性。作為一個信息源,Web 和上述全文檢索繫統的工作對像相比,具有許多不同的特征,它們給信息檢索領域帶來了新的發展機遇和技術挑戰。
    規模大。在短短的10 年左右時間,人類至少生產了40 億網頁(Google 2004) ,而人類有文字以來上萬年裡產生了大約1 億本書;中國網上到2004 年初大致有了約3億網頁(天網2004) ,而中華民族有史以來出版的書籍大約不過275 萬種。盡管書籍的容量和質量是一般網頁不可比的,但在對應的時間背景上考察其文字的總體數量,我們不能不為人類在Web 上創造文字的激情驚嘆!
    內容不穩定。除了不斷有新的網頁出現外,舊的網頁也可能會因為各種原因被刪除( 有研究指出:50 % 網頁的平均生命周期大約為50 天( Cho et al.2000 ,Cho 2002)) 。
    從原則上講,讀者數和作者數在同一個量級,形式和內容的隨意性很強,權威性相對也不高,也不太可能進行人工篩選和預處理。
    與生俱來的數字化、網絡化。傳統載體上的信息,人們目前正忙於將它們數字化、上網(花費極高) ,而網絡信息天生如此。這個特性是一把雙刃劍:一方面便於我們搜集和處理,另一方面也會使我們感到太多,蜂擁而至、魚目混珠。
    而作為要在Web 上提供服務的信息查詢繫統,如搜索引擎和數字圖書館,通常要具備同時對付大量訪問的能力(如每秒鐘1000 個查詢) ,而且響應時間還要足夠的快(如1 秒鐘) 。
    本書旨在介紹構建這類搜索引擎的有關技術。傳統的IR 是其基礎,同時本書也充分討論了由上述Web 信息的特征所帶來的新問題及其解決方案。第一章引論
    信息的生產、傳播、搜集與查詢是人類最基本的活動之一。考慮以文字為載體的信息,傳統上有圖書館、相應的編目體繫和專業人員幫助我們很快找到所需的信息,其粒度通常是“書”或者“文章” 。隨著計算機與信息技術的發展,有了信息檢索(in-formation retrieval ,IR)學科領域,有了關於圖書或者文獻的全文檢索繫統,使我們能很方便地在“關鍵詞”的粒度上得到相關的信息。
    我們注意到,上述全文檢索繫統一般工作在一個規模相對有限、內容相對穩定的館藏(collection)上,被檢索的對像通常是經過認真篩選和預先處理的(如人工提取出了“作者” 、“標數據,形成了很好的“摘要”等) ,並且繫統需要同時響應的查詢數量通常都不會太大(如每秒鐘10 個左右) 。
    1994 年左右,萬維網( World Wide Web ,簡記為WWW 或Web)出現。它的開放性(openness)和其上信息廣泛的可訪問性(accessibility)極大地鼓勵了人們創作的積極性。作為一個信息源,Web 和上述全文檢索繫統的工作對像相比,具有許多不同的特征,它們給信息檢索領域帶來了新的發展機遇和技術挑戰。
    規模大。在短短的10 年左右時間,人類至少生產了40 億網頁(Google 2004) ,而人類有文字以來上萬年裡產生了大約1 億本書;中國網上到2004 年初大致有了約3億網頁(天網2004) ,而中華民族有史以來出版的書籍大約不過275 萬種。盡管書籍的容量和質量是一般網頁不可比的,但在對應的時間背景上考察其文字的總體數量,我們不能不為人類在Web 上創造文字的激情驚嘆!
    內容不穩定。除了不斷有新的網頁出現外,舊的網頁也可能會因為各種原因被刪除( 有研究指出:50 % 網頁的平均生命周期大約為50 天( Cho et al.2000 ,Cho 2002)) 。
    從原則上講,讀者數和作者數在同一個量級,形式和內容的隨意性很強,權威性相對也不高,也不太可能進行人工篩選和預處理。
    與生俱來的數字化、網絡化。傳統載體上的信息,人們目前正忙於將它們數字化、上網(花費極高) ,而網絡信息天生如此。這個特性是一把雙刃劍:一方面便於我們搜集和處理,另一方面也會使我們感到太多,蜂擁而至、魚目混珠。
    而作為要在Web 上提供服務的信息查詢繫統,如搜索引擎和數字圖書館,通常要具備同時對付大量訪問的能力(如每秒鐘1000 個查詢) ,而且響應時間還要足夠的快(如1 秒鐘) 。
    本書旨在介紹構建這類搜索引擎的有關技術。傳統的IR 是其基礎,同時本書也充分討論了由上述Web 信息的特征所帶來的新問題及其解決方案。
    第一節搜索引擎的概念
    搜索引擎,在本書指的是一種在Web 上應用的軟件繫統,它以一定的策略在Web 上搜集和發現信息,這些信息集合對應於Web 上一段時間內(如一周或兩周)搜集的網頁。對Web 上更長時間段(如10 年)網頁的搜集和整理,我們在下篇介紹。
    在對信息進行處理和組織後,為用戶提供Web 信息查詢服務。從使用者的角度看,這種軟件繫統提供一個網頁界面,通過瀏覽器提交一個詞語或者短語,可以很快返回一個可能和用戶輸入內容相關的信息列表(常常會是很長一個列表,如包含1 萬個條目) 。這個列表中的每一條目代表一篇網頁,每個條目至少素:
    1) 標題:以某種方式得到的網頁內容的標題。最簡單的方式就是從網頁的< TITLE > < / TITLE > 標簽中提取的內容(盡管在一些情況下並不真正反映網頁的內容) 。本書第七章會介紹其他形成“標題”的方法。
    2) URL :該網頁對應的“訪問地址” 。有經驗的Web 用戶常常可以通素對網頁內容的權威性進行判斷,例如,http :// www .people .com 上面的內容通常就比http ://notresponsible .net(某個假想的個人網站)上的要更權威些(不排除後者上的內容更有趣些) 。
    3) 摘要:以某種方式得到的網頁內容的摘要。最簡單的一種方式就是將網頁內容的頭若干字節(如前512 字節)截取下來作為摘要。本書第七章會介紹形成“摘要”
    的其他方法。
    通過瀏素,用戶對相應的網頁是否真正包含他所需的信息進行判斷。
    比較肯定的話則可以點擊上述URL ,從而得到該網頁的全文。圖1-1 是2012 年3月15 日在Google 搜索引擎(http ://www .google .com .hk/)上的一個例子,用戶提交了查詢詞“伊拉克戰爭” ,繫統返回一個相關信息列表。列表的每一條目所含內容比上述要豐富些,但核心還是素。
    這個例子提示了我們一個重要的情況,即搜索引擎提供信息查詢服務的時候,它面對的隻是查詢詞。而有不同背景的人可能提交相同的查詢詞,關心的是和這個查詢詞相關的不同方面的信息,但搜索引擎通常是不知道用戶背景的,因此搜索引擎既要爭取不漏掉任何相關的信息,還要爭取將那些“最可能被關心”的信息排在列表的前面。這也就是對搜索引擎的根本要求。除此以外,考慮到搜索引擎的應用環境是Web ,因此對大量並發用戶查詢的響應性能也是一個不能忽略的方面。
    作為對搜索引擎工作原理的基本了解,這裡有兩個問題需要首先澄清。第一,當用戶提交查詢的時候,搜索引擎並不是即刻在Web 上“搜索”一通,發現那些相關的網頁,形成列表呈現給用戶;而是事先已“搜集”了一批網頁,以某種方式存放在繫統中,此時的搜索隻是在繫統內部進行而已。第二,當用戶感到返回結果列表中的某一項很可能是他需要的,從而點擊URL ,獲得網頁全文的時候,他此時訪問的則是網頁的原始出處。因此,從理論上講搜索引擎並不保證用戶在返回結果列表上看到的標題和摘要內容與他點擊URL 所看到的內容一致(上面那個“伊拉克戰爭”的例子就是如此) ,甚至不保證那個網頁還存在。這也是搜索引擎和傳統信息檢索繫統的一個重要區別。這種區別源於前述Web 信息的基本特征。為了彌補這個差別,現代搜索引擎都保存網頁搜集過程中得到的網頁全文,並在返回結果列表中提供“網頁快照”或“歷史網頁”鏈接,保證讓用戶能看到和摘要信息一致的內容。
    第二節搜索引擎的發展歷史
    早在Web 出現之前,互聯網上就已經存在許多旨在讓人們共享的信息資源了。
    那些資源當時主要存在於各種允許匿名訪問的FTP 站點(anonymous FTP) ,內容以學術技術報告、研究性軟件居多,它們以計算機文件的形式存在,文字材料的編碼通常是PostScript 或者純文本(那時還沒有H TML) 。
    為了便於人們在分散的FTP 資源中找到所需的東西,1990 年加拿大麥吉爾大學( University of McGill)計算機學院的師生開發了一個軟件,Archie 。它通過定期搜集並分析FTP 繫統中存在的文件名信息,提供查找分布在各個FTP 主機中文件的服務。Archie 能在隻知道文件名的前提下,為用戶找到這個文件所在的FTP 服務器的地址。Archie 實際上是一個大型的數據庫,再加上與這個大型數據庫相關聯的一套檢索方法。該數據庫中包括大量可通過FTP 下載的文件資源的有關信息,包括這些資源的文件名、文件長度、存放該文件的計算機名及目錄名等。盡管所提供服務的信息資源對像(非H TML 文件)和本書所討論搜索引擎的信息資源對像( H TML網頁)不一樣,但基本工作方式是相同的(自動搜集分布在廣域網上的信息,建立索引,提供檢索服務) ,因此人們公認Archie 為現代搜索引擎的鼻祖。以FTP 文件為對像的信息檢索服務技術在2000 年左右是比較流行的,尤其是在用戶使用界面上充分采用了Web 風格,北大天網文件檢索繫統就是一個例子。隨著P2P 文件共享繫統的流行,更多的用戶搜索文件開始使用P2P 客戶端,FTP 搜索逐漸淡出。近年來,隨著智能手機和平板電腦的流行,搜索已經不限於在電腦上完成,而且有些應用天生適合移動設備的小屏幕,如微博、微信和飛信等;搜索的技術更多地在不同的領域得到應用,如淘寶網(http ://www .taobao .com/)中提供的檢索、推薦和過濾功能;搜索的對像也不限於網頁和文件,如微博、評論、標簽、視頻、音頻、事件和圖片等。鋻於本書寫作定位的關繫,後面將主要討論網頁搜索引擎的相關問題。
    以Web 網頁為對像的搜索引擎和以FTP 文件為對像的檢索繫統一個基本的不同點在於搜集信息的過程。前者是利用HTML 文檔之間的鏈接關繫,在Web 上一個網頁一個網頁地“爬取”(crawl) ,將那些網頁“抓”(fetch)到本地後進行分析;後者則是根據已有的關於FTP 站點地址的知識(如得到了一個站點地址列表) ,對那些站點進行訪問,獲得其文件目錄信息,並不真正將那些文件下載到繫統上來。因此,如何在Web 上“爬取” ,就是搜索引擎要解決的一個基本問題。在這方面,1993 年Mat-thew Gray 開發了World Wide Web Wanderer ,它是世界上第一個利用H TML 網頁之間的鏈接關繫來監測Web 發展規模的“機器人”(robot)程序。剛開始時它隻用來統計互聯網上的服務器數量,後來則發展為能夠通過它檢索網站域名。鋻於其在Web 上沿超鏈“爬行”的工作方式,這種程序有時也稱為“蜘蛛”(spider) 。因此,在文獻中crawler 、spider 、robot 一般都指的是相同的事物,即在Web 上依照網頁之間的超鏈關繫一個個抓取網頁的程序,通常也稱為“搜集” 。在搜索引擎繫統中,也稱為網頁搜集子繫統。
    現代搜索引擎的思路源於Wanderer ,不少人在Matthew Gray 工作的基礎上對它的蜘蛛程序做了改進。1994 年7 月,Michael Mauldin 將John Leavitt 的蜘蛛程序接入到其索引程序中,創建了大家現在熟知的Lycos ,成為第一個現代意義的搜索引擎。在那之後,隨著Web 上信息的爆炸性增長,搜索引擎的應用價值也越來越高,不斷有更新、更強的搜索引擎繫統推出。這其中,特別引人注目的是Google ,雖然是個姍姍來遲者(1998 年纔推出) ,但由於其采用了獨特的PageRank 技術,使它很快後來居上,成為當前全球最受歡迎的搜索引擎(作者2003 年初訪問印度,就聽到總統阿卜杜勒? 卡拉姆講他經常用Google 在網上查找信息) 。
    在中國,據我們所知,對搜索引擎的研究起源於“中國教育科研網”(CERNET)一期工程中的子項目,北京大學計算機繫的項目組在陳葆玨教授的主持下於1997 年10 月在CERNET 上推出了天網搜索1 .0 版本。該繫統在這幾年裡不斷發展,目前已成為中國最大的公益性搜索引擎(http ://e .pku .edu .cn) 。在這之後,幾位在美國留學的華人學者回國創業,成立了百度公司,於2000 年推出了“百度”商業搜索引擎(http ://www .baidu .com) ,並一直處於國內搜索引擎的領先地位。我們看到搜狐公司也在中國推出了一個大規模搜索引擎(http :// www .sogou .com) ,用起來感覺也不錯,但往後發展如何,還有待時間的考驗。
    當我們談及搜索引擎的時候,不應該忽略另外一個幾乎是同期發展出來的事物:基於目錄的信息服務網站。1994 年4 月,斯坦福(Stanford)大學的兩名博士生,Da-vid Filo 和楊致遠(Gerry Yang)共同創辦了Yahoo ! 門戶網站,並成功地使網絡信息搜索的概念深入人心。1996 年中國出現了類似的網站,“搜狐”(http ://www .sohu .com) 。在許多場合,也稱Yahoo ! 之類的門戶網站提供的信息查找功能為搜索引擎。但從技術上講,這樣的門戶中提供的搜索服務和前述搜索引擎是很不同的。而且目前這類門戶網站通常采用兩種方式的結合來提供服務,即人工編輯結合自動搜索。這樣的門戶依賴的是人工整理的網站分類目錄,一方面,用戶可以直接沿著目錄導航,定位到他所關心的信息;另一方面,用戶也可以提交查詢詞,讓繫統將他直接引導到和該查詢詞最匹配的網站。圖1-2 就是我們在Open Directory Project(http ://www .dmoz .org/)上查詢“伊拉克戰爭”的結果。一般來講,前者的信息搜索會更全面些,後者則會準確些。在沒有特殊說明的情況下,本書中所討論的“搜索引擎”不包括Yahoo ! 和搜狐這樣的搜索方式。
    隨著網上信息越來越多,單純靠人工整理網站目錄取得較高精度查詢結果的優勢逐漸退化――對海量的信息進行高質量的人工分類已經不太現實。目前有兩個發展方向。一是利用文本自動分類技術,在搜索引擎上提供對每篇網頁的自動分類,這方面最先看到的例子是Google 的“網頁分類”選項,但它分類的對像隻是英文網頁。
    在中文方面,文本自動分類的研究工作有很多,但我們知道的第一個在網上提供較大規模網頁自動分類服務的是北大網絡實驗室馮是聰和龔筆宏等人的工作(馮是聰2003) ,他們於2002 年10 月在天網搜索上掛接了一個300 萬網頁的分類目錄。另一個發展方向是將自動網頁爬取和一定的人工分類目錄相結合,希望形成一個既有高信息覆蓋率,也有高查詢準確性的服務。
    互聯網上信息量在不斷增加,信息的種類也在不斷增加。例如,除了我們前面提到的網頁和文件,還有微博、論壇、專業數據庫等。同時上網的人數也在不斷增加,網民的成分也在發生變化。一個搜索引擎要覆蓋所有的網上信息查找需求已出現困難,因此各種主題搜索引擎、個性化搜索引擎、問答式搜索引擎等紛紛興起。這些搜索引擎雖然還沒有實現如通用搜索引擎那樣的大規模應用,但隨著互聯網的發展,我們相信它們的生命力會越來越旺盛。另外,即使通用搜索引擎的運行現在也開始出現分工協作,有了專業的搜索引擎技術和搜索數據庫服務提供商。如美國的Inkto-mi ,它本身並不是直接面向用戶的搜索引擎,但向包括Overture (原GoTo) 、LookSmart 、MSN 、HotBot 等在內的其他搜索引擎提供全文網頁搜集服務。從這個意義上說,它是搜索引擎數據的來源。
    搜索引擎出現雖然隻有20 年左右的歷史,但在Web 上已經有了確定不移的地位。據CNNIC 統計,它已經成為繼電子郵件之後的第二大Web 應用。雖然它的基本工作原理已經相當穩定,但在其質量、性能和服務方式等方面的提高空間依然很大,研究成果層出不窮,是每年WWW 學術年會① 的重要論題之一。
    第三節一些著名的搜索引擎
    為了讓感興趣的讀者有目的地試一試,我們整理了一些當前主流的搜索引擎,包括網址、首頁面圖片及其介紹。這些搜索引擎提供多語言的支持,可以滿足不同母語讀者的需求。


     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部