●第1章引論1
1.1搜索引擎的過去1
1.2搜索引擎的現在2
1.3搜索引擎的未來4
1.4大數據與搜索引擎6
1.4.1搜索價值提升6
1.4.2用戶價值提升7
1.5大數據與人工智能7
1.5.1人工智能的發展7
1.5.2人工智能技術9
1.6搜索引擎與人工智能11
1.7本章小結13
第2章搜索引擎原理與技術14
2.1基本工作原理14
2.2基本模塊結構15
2.2.1網絡爬蟲服務16
2.2.2索引服務17
2.2.3緩存服務18
2.2.4搜索服務19
2.2.5日志服務21
2.3技術概要22
2.3.1自然語言處理22
2.3.2知識圖譜23
2.3.3海量數據存儲25
2.3.4分布式計算27
2.3.5搜索排序28
2.4開源技術29
2.4.1ApacheLucene29
2.4.2ApacheNutch31
2.4.3Sphinx32
2.4.4ElasticSearch34
2.5本章小結36
第3章自然語言處理框架37
3.1英文分詞37
3.2中文分詞39
3.2.1中文分詞概述39
3.2.2基於詞庫的分詞技術40
3.2.3基於條件隨機場模型的中文分詞42
3.2.4分詞粒度49
3.3詞性標注50
3.3.1隱馬爾科夫模型概要51
3.3.2隱馬爾科夫模型與詞性標注52
3.4語義相似度60
3.5依存句法分析62
3.5.1依存句法分析概要62
3.5.2依存句法分析實現65
3.6情感傾向分析68
3.7文檔關鍵詞提取70
3.7.1文檔關鍵詞提取概述70
3.7.2基於TF-IDF算法71
3.7.3基於TextRank算法73
3.8文檔句子相似度分析76
3.8.1句子相似度77
3.8.2文檔相似度79
3.9文檔核心句提取80
3.10文本的分類與聚類83
3.10.1文本分類84
3.10.2文本聚類89
3.11語種檢測96
3.12本章小結98
第4章構建大數據存儲引擎99
4.1架構體繫100
4.1.1結構概要100
4.1.2服務器上線103
4.1.3服務器下線103
4.1.4數據讀取104
4.2數據存儲模型105
4.3數據壓縮107
4.4負載均衡108
4.5數據存儲邏輯視圖111
4.6本章小結114
第5章構建分布式實時計算115
5.1概述115
5.2設計架構117
5.2.1設計思想117
5.2.2基本框架119
5.3運行模式121
5.4負載均衡122
5.5通信設計123
5.5.1基本方式124
5.5.2分布式遠程服務調用124
5.6容災恢復125
5.7數據容錯原理126
5.8數據處理設計示例128
5.9本章小結129
第6章分布式可擴展爬蟲130
6.1爬蟲體繫架構130
6.1.1主從分布式結構爬蟲131
6.1.2對等分布式結構爬蟲131
6.1.2基於分布式計算平臺爬蟲132
6.2網頁解析133
6.2.1狀態碼處理134
6.2.2鏈接去重134
6.2.3廣告識別136
6.2.4網站地圖139
6.2.5非網頁數據獲取140
6.2.6網頁去重141
6.2.7鏈接提取145
6.2.8爬蟲協議146
6.3網頁結構化148
6.3.1網頁的編碼信息148
6.3.2網頁的正文信息149
6.3.3網頁的關鍵詞信息153
6.3.4網頁的標題153
6.3.5網頁的發布時間155
6.3.6網頁的語言檢測155
6.3.7其他結構化數據156
6.4網頁抓取策略157
6.5爬蟲權限應對158
6.6深網抓取161
6.7抓取更新策略162
6.8本章小結164
第7章大數據構建知識圖譜165
7.1概述165
7.1.1開放知識圖譜165
7.1.2知識圖譜與認知智能167
7.1.3圖數據庫:Neo4j168
7.1.4資源描述框架:RDF172
7.2搜索引擎與知識圖譜174
7.3可靠數據源選擇176
7.4實體抽取177
7.5關繫抽取178
7.5.1關繫抽取概述179
7.5.2隱藏關繫抽取180
7.5.3結構化確定關繫抽取183
7.5.4非結構化確定關繫抽取185
7.6知識圖譜檢測190
7.6.1實體關繫修正190
7.6.2實體對齊191
7.6.3實體歧義分析193
7.7知識推理與知識計算194
7.7.1知識推理194
7.7.2知識計算195
7.8知識聚類198
7.9智能搜索實現200
7.9.1模式匹配200
7.9.2知識拆解201
7.9.3合並求解203
7.10智能搜索擴展205
7.10.1常識性智能搜索205
7.10.2實時信息智能搜索206
7.10.3可交互式智能搜索207
7.11知識圖譜應用208
7.11.1問答繫統208
7.11.2情報分析211
7.11.3智慧醫療214
7.11.4推薦繫統215
7.12本章小結217
第8章索引構建機制218
8.1倒排索引218
8.1.1倒排索引概述219
8.1.2索引結構220
8.1.3構建過程222
8.1.4排序規則223
8.1.5索引壓縮224
8.1.6更新策略230
8.2分布式存儲230
8.2.1存儲劃分方式231
8.2.2存儲平衡策略232
8.3存儲索引237
8.3.1二叉搜索樹238
8.3.2B樹239
8.3.3B+樹241
8.3.4B+樹與文件索引242
8.4字典樹索引244
8.4.1字典樹索引概述245
8.4.2字典樹索引構建247
8.4.3字典樹查詢優化249
8.5本章小結250
第9章搜索服務構建251
9.1概述251
9.1.1體繫結構251
9.1.2七何分析法252
9.1.3搜索語法253
9.1.4相關性排序255
9.1.5不安全信息過濾259
9.2大數據分布式緩存263
9.2.1緩存結構設計263
9.2.2緩存更新策略264
9.3文本糾錯算法265
9.3.1中文文本糾錯265
9.3.2英文文本糾錯269
9.4結果顯示算法270
9.4.1動態摘要271
9.4.2關鍵詞高亮算法274
9.4.3網頁快照278
9.5搜索智能提示278
9.6網頁排序282
9.6.1基於PageRank的網頁重要性評價282
9.6.2基於HITS算法的網頁權威性評價285
9.6.3HillTop算法287
9.6.4網頁作弊評價288
9.6.5網頁排序調試291
9.7個性化搜索292
9.7.1個性化搜索示例292
9.7.2BP神經網絡與個性化搜索293
9.7.3地理位置搜索294
9.8圖片搜索299
9.8.1基於內容的圖片搜索299
9.8.2基於文本的圖片搜索300
9.9搜索與廣告302
9.9.1廣告投放策略303
9.9.2基於User-Based協同過濾的廣告投放303
9.9.3基於Item-Based協同過濾的廣告投放305
9.9.4基於混合模式的廣告投放306
9.9.5廣告投放評價307
9.10搜索引擎評價310
9.10.1搜索引擎評價概述310
9.10.2基於準確率、召回率及F值評價311
9.10.3歸一化累計增益313
9.11本章小結316
第10章基於用戶日志的反饋學習318
10.1基於用戶搜索詞語的分析318
10.1.1發現搜索詞的價值319
10.1.2發現不明意圖下的用戶行為320
10.2基於用戶點擊日志的分析321
10.2.1時間與搜索意圖的關繫321
10.2.2地理位置與搜索意圖的關繫322
10.2.3點擊日志與同義詞324
10.2.4點擊日志與詞語權重325
10.2.5點擊日志與新詞分類326
10.2.6點擊日志與知識圖譜328
10.2.7點擊日志與網頁重排序329
10.2.8點擊日志與網頁評價331
10.3基於用戶的特征分析332
10.3.1用戶跟蹤333
10.3.2用戶群體特征334
10.3.3用戶個體特征336
10.4本章小結337
致謝338