了得網計算機/網絡_Web數據挖掘：超文本數據的知識發現(英文版)

編輯推薦

本書是Web挖掘與搜索引擎領域的經典著作，自出版以來深受好評，已經被斯坦福、普林斯頓、卡內基梅隆等世界名校采用為教材。書中首先介紹了Web爬行和搜索等許多基礎性的問題，並以此為基礎，深入闡述了解決Web挖掘各種難題所涉及的機器學習技術，提出了機器學習在繫統獲取、存儲和分析數據中的許多應用，並探討了這些應用的優劣和發展前景。全書分析透徹，富於前瞻性，為構建Web挖掘創新性應用奠定了理論和實踐基礎，既適用於信息檢索和機器學習領域的研究人員和高校師生，也是廣大Web開發人員的優秀參考書。
“本書深入揭示了搜索引擎的技術內幕！有了它，你甚至能夠自己開發一個搜索引擎。”
——searchenginewatch.com網站
“本書繫統、全面而且深入，廣大Web技術開發人員都能很好地理解和掌握其中內容。作者是該研究領域的領軍人物之一，在超文本信息挖掘和檢索方面有著淵博的知識和獨到的見解。”
——Joydeep Ghosh，得克薩斯大學奧斯汀分校教授，IEEE會士
“作者將該領域的所有重要工作融合到這部傑作中，並以一種通俗易懂的方式介紹了原本非常
深奧的內容。有了這本書，Web挖掘終於有可能成為大學的一門課程了。”
——Jaideep Srivastava，明尼蘇達大學教授，IEEE會士
本書是Web挖掘與搜索引擎領域的經典著作，自出版以來深受好評，已經被斯坦福、普林斯頓、卡內基梅隆等世界名校采用為教材。書中首先介紹了Web爬行和搜索等許多基礎性的問題，並以此為基礎，深入闡述了解決Web挖掘各種難題所涉及的機器學習技術，提出了機器學習在繫統獲取、存儲和分析數據中的許多應用，並探討了這些應用的優劣和發展前景。
全書分析透徹，富於前瞻性，為構建Web挖掘創新性應用奠定了理論和實踐基礎，既適用於信息檢索和機器學習領域的研究人員和高校師生，也是廣大Web開發人員的優秀參考書。

內容簡介

本書是信息檢索領域的名著，深入講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web信息采集機制、Web標引機制以及基於關鍵字或基於相似性搜索機制)，然後繫統地描述了Web挖掘的基礎知識，著重介紹基於超文本的機器學習和數據挖掘方法，如聚類、協同過濾、監督學習、半監督學習，後講述了這些基本原理在Web挖掘中的應用。本書為讀者提供了堅實的技術背景和*的知識。
本書是從事數據挖掘學術研究和開發的專業人員理想的參考書，同時也適合作為高等院校計算機及相關專業研究生的教材。

作者簡介

Soumen Chakrabarti，Web搜索與挖掘領域的知名專家，ACM Transactions on the Web副主編。加州大學伯克利分校博士，目前是印度理工學院計算機科學與工程繫副教授。曾經供職於IBM Almaden研究中心，從事超文本數據庫和數據挖掘方面的工作。他有豐富的實際項目開發經驗，開

1INTRODUCTION
1.1Crawling and Indexing
1.2 Topic Directories
1.3 Clustering and Classification
1.4 Hyperlink Analysis
1.5 Resource Discovery and Vertical Portals
1.6 Structured vs. Unstructured Data Mining
1.7 Bibliographic Notes
PART Ⅰ INFRASTRUCTURE
2CRAWLING THE WEB
2.1 HTML and HTTP Basics
2.2 Crawling Basics
2.3 Engineering Large-Scale Crawlers
2.3.1 DNS Caching, Prefetching, and Resolution1INTRODUCTION
1.1Crawling and Indexing
1.2 Topic Directories
1.3 Clustering and Classification
1.4 Hyperlink Analysis
1.5 Resource Discovery and Vertical Portals
1.6 Structured vs. Unstructured Data Mining
1.7 Bibliographic Notes
PART Ⅰ INFRASTRUCTURE
2CRAWLING THE WEB
2.1 HTML and HTTP Basics
2.2 Crawling Basics
2.3 Engineering Large-Scale Crawlers
2.3.1 DNS Caching, Prefetching, and Resolution
2.3.2 Multiple Concurrent Fetches
2.3.3 Link Extraction and Normalization
2.3.4 Robot Exclusion
2.3.5 Eliminating Already-Visited URLs
2.3.6 Spider Traps
2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages
2.3.8 Load Monitor and Manager
2.3.9 Per-Server Work-Queues
2.3.10 Text Repository
2.3.11 Refreshing Crawled Pages
2.4 Putting Together a Crawler
2.4.1 Design of the Core Components
2.4.2 Case Study: Using w3c-libwww
2.5 Bibliographic Notes
3 WEB SEARCH AND INFORMATION RETRIEVAL
3.1 Boolean Queries and the Inverted Index
3.1.1 Stopwords and Stemming
3.1.2 Batch Indexing and Updates
3.1.3 Index Compression Techniques
3.2 Relevance Ranking
3.2.1 Recall and Precision
3.2.2The Vector-Space Model
3.2.3Relevance Feedback and Rocchio?s Method
3.2.4Probabilistic Relevance Feedback Models
3.2.5Advanced Issues
3.3Similarity Search
3.3.1Handling òFind-Similaró Queries
3.3.2Eliminating Near Duplicates via Shingling
3.3.3Detecting Locally Similar Subgraphs of the Web
3.4Bibliographic Notes
PART Ⅱ LEARNING
PART Ⅲ APPLICATIONS
References
Index

商品搜索

商品分类

【醫學】

【各大出版社】