●出版者的話
中文版序
譯者序
前言
第1章 緒論1
1.1 什麼是數據集成1
1.2 數據集成面臨的挑戰5
1.2.1 繫統原因5
1.2.2 邏輯原因5
1.2.3 社會和管理原因6
1.2.4 設定預期7
1.3 數據集成架構7
1.3.1 數據集成繫統的組成部分7
1.3.2 數據集成實例9
1.4 全書概覽12
參考文獻注釋13
第一部分 數據集成技術基礎
第2章 查詢表達式及運算16
2.1 數據庫概念回顧16
2.1.1 數據模型16
2.1.2 完整性約束18
2.1.3 查詢和應答19
2.1.4 合取查詢20
2.1.5 datalog查詢21
2.2 查詢展開22
2.3 查詢包含與等價23
2.3.1 形式化定義23
2.3.2 合取查詢的包含24
2.3.3 合取查詢的並集25
2.3.4 帶有比較謂詞的合取查詢26
2.3.5 帶有否定的合取查詢28
2.3.6 包語義、分組和聚集30
2.4 基於視圖計算查詢32
2.4.1 問題定義33
2.4.2 視圖與查詢計算的相關性34
2.4.3 查詢重寫的可能長度34
2.4.4 桶算法和MiniCon算法35
2.4.5 邏輯方法:逆規則算法41
2.4.6 算法比較42
2.4.7 基於視圖的查詢應答43
參考文獻注釋46
第3章 數據源描述47
3.1 概述和必要條件47
3.2 模式映射語言49
3.2.1 模式映射語言規則49
3.2.2 全局視圖50
3.2.3 局部視圖53
3.2.4 全局-局部視圖55
3.2.5 &nb組生成依賴56
3.3 訪問模式57
3.3.1 構建訪問模式58
3.3.2 生成可執行計劃58
3.4 中介模式上的完整性約束61
3.4.1 帶有完整性約束的LAV61
3.4.2 帶有完整性約束的GAV62
3.5 結果完備性63
3.5.1 局部完備性63
3.5.2 結果完備性檢測64
3.6 數據級的異構性65
3.6.1 標度差異性66
3.6.2 相同實體的多重表示66
參考文獻注釋67
第4章 字符串匹配68
4.1 問題描述68
4.2 相似度度量69
4.2.1 基於序列的相似度度量69
4.2.2 基於集合的相似度度量75
4.2.3 混合相似度度量77
4.2.4 語音相似度度量79
4.3 可擴展的字符串匹配80
4.3.1 字符串上的倒排索引81
4.3.2 大小過濾81
4.3.3 前綴過濾82
4.3.4 位置過濾84
4.3.5 邊界過濾85
4.3.6 其他相似度度量方法的可擴展技術86
參考文獻注釋86
第5章 模式匹配與模式映射88
5.1 問題定義88
5.1.1 語義映射89
5.1.2 語義匹配89
5.1.3 模式匹配與模式映射90
5.2 模式匹配和模式映射的挑戰90
5.3 匹配和映射繫統概述92
5.3.1 模式匹配繫統92
5.3.2 模式映射繫統94
5.4 匹配器94
5.4.1 名字匹配器94
5.4.2 實例匹配器96
5.5 組合匹配預測97
5.6 施加域完整性約束98
5.6.1 域完整性約束99
5.6.2 搜索匹配組合空間100
5.7 匹配選擇器104
5.8 匹配重用105
5.8.1 學習匹配106
5.8.2 學習器107
5.8.3  學習器108
5.9 多對多匹配109
5.10 由匹配到映射111
參考文獻注釋116
第6章 通用模式操作118
6.1 模型管理操作119
6.2 合並操作120
6.3 模型生成操作121
6.4 逆映射操作123
6.5 模型管理繫統124
參考文獻注釋124
第7章 數據匹配126
7.1 問題定義126
7.2 規則匹配127
7.3 學習匹配129
7.4 聚類匹配131
7.5 概率匹配133
7.5.1 貝葉斯網絡133
7.5.2 基於樸素貝葉斯的數據匹配138
7.5.3 特征相關性140
7.5.4 文本中的實體指代匹配141
7.6 協同匹配144
7.6.1 基於聚類的協同匹配146
7.6.2 協同匹配文檔中的實體指代146
7.7 數據匹配的可擴展性148
7.7.1 規則匹配擴展148
7.7.2 其他匹配方法的擴展149
參考文獻注釋150
第8章 查詢處理152
8.1 背景:DBMS查詢處理153
8.1.1 選擇查詢執行計劃154
8.1.2 執行查詢計劃156
8.2 背景:分布式查詢處理157
8.2.1 數據放置和轉移158
8.2.2 兩階段連接158
8.3 數據集成查詢處理160
8.4 生成初始查詢計劃161
8.5 互聯網數據的查詢執行161
8.5.1 多線程、流水線、數據流架構161
8.5.2 有自治數據源的接口162
8.5.3 故障處理163
8.6 自適應查詢處理163
8.7 事件驅動自適應策略164
8.7.1 數據源故障和延遲處理165
8.7.2 處理流水線操作結束時突發的基數問題166
8.8 性能驅動的自適應策略168
8.8.1 Eddy:基於隊列的計劃選擇169
8.8.2 校正查詢處理:基於代價的重新優化171
參考文獻注釋175
第9章 包裝器176
9.1 引言176
9.1.1 包裝器的構建177
9.1.2 包裝器構建面臨的挑戰177
9.1.3 構建方法的分類178
9.2 手動的包裝器構建179
9.3 基於學習的包裝器構建180
9.3.1 HLRT包裝器181
9.3.2 Stalker包裝器182
9.4 無模式的包裝器學習186
9.4.1 建模數據源模式TS和抽取程序EW187
9.4.2 推導數據模式TS和抽取程序EW187
9.5 交互的包裝器構建191
9.5.1 使用Stalker交互標記頁面192
9.5.2 使用Poly識別正確的抽取規則193
9.5.3 用Lixto創建抽取規則195
參考文獻注釋197
第10章 數據倉庫與緩存199
10.1 數據倉庫200
10.1.1 數據倉庫設計201
10.1.2 ETL:抽取/轉換/加載201
10.2 數據交換:描述性倉庫203
10.2.1 數據交換設置203
10.2.2 數據交換解204
10.2.3 通用解204
10.2.4 核心通用解206
10.2.5 查詢物化信息庫207
10.3 緩存及部分物化207
10.4 本地、外部數據的直接分析208
參考文獻注釋210
第二部分 擴展數據表示集成
第11章 XML214
11.1 數據模型215
11.2 XML結構和模式定義217
11.2.1 文檔類型定義218
11.2.2 XML模式219
11.3 查詢語言220
11.3.1 先驅:DOM和SAX221
11.3.2 XPath:XML查詢原語221
11.3.3 XQuery:XML查詢能力225
11.4 XML查詢處理229
11.4.1 XML路徑匹配231
11.4.2 XML輸出232
11.4.3 XML查詢優化233
11.5 XML模式映射233
11.5.1 嵌套映射233
11.5.2 帶嵌套映射的查詢重寫236
參考文獻注釋236
第12章 本體和知識表示238
12.1 數據集成中的知識表示舉例238
12.2 描述邏輯239
12.2.1 描述邏輯的語法240
12.2.2 描述邏輯的語義241
12.2.3 描述邏輯的推理242
12.2.4 描述邏輯和數據庫推理的比較244
12.3 語義Web245
12.3.1 資源描述框架245
12.3.2 RDF模式249
12.3.3 Web本體語言249
12.3.4 RDF查詢:SPARQL語言250
參考文獻注釋251
第13章 不確定性數據集成253
13.1 不確定性表示254
13.1.1 概率數據表示255
13.1.2 從不確定性到概率256
13.2 不確定模式映射建模257
13.2.1 概率映射257
13.2.2 概率映射的語義258
13.2.3 表語義259
13.2.4 &nb組語義260
13.3 不確定性和數據溯源261
參考文獻注釋261
第14章 數據溯源263
14.1 溯源的兩種表示方法263
14.1.1 使用數據標注表示溯源263
14.1.2 使用數據關繫圖表示溯源264
14.1.3 兩種表示方法的可交換性265
14.2 數據溯源的應用265
14.3 溯源半環266
14.3.1 半環形式化模型266
14.3.2 半環模型的應用268
14.4 溯源的存儲270
參考文獻注釋271
第三部分 新型集成繫統
第15章 Web數據集成274
15.1 Web數據的用途276
15.2 深層網絡277
15.2.1 垂直搜索278
15.2.2 深層網絡淺層化280
15.3 主題門戶網站282
15.4 Web數據的輕量級集成284
15.4.1 發現Web中的結構化數據285
15.4.2 導入數據287
15.4.3 合並多個數據集288
15.4.4 重用他人工作成果288
15.5 “即付即用”數據管理289
參考文獻注釋289
第16章 關鍵字搜索:按需集成293
16.1 結構化數據中的關鍵字搜索293
16.1.1 數據圖293
16.1.2 關鍵字匹配和評分模型295
16.2 結果排名計算296
16.2.1 圖擴展算法296
16.2.2 基於閾值的合並297
16.3 數據集成中的關鍵字搜索299
16.3.1 以可擴展的方式自動地構建邊300
16.3.2 可擴展的查詢應答301
16.3.3 通過學習算法調整邊和節點的權重301
參考文獻注釋302
第17章 對等數據集成303
17.1 對等節點和映射303
17.2 映射的語義307
17.3 PDMS查詢應答的復雜性307
17.3.1 有環PDMS308
17.3.2 對等映射中的比較謂詞308
17.4 查詢重寫算法309
17.5 組合映射312
17.6 采用松散映射進行對等數據管理314
17.6.1 基於相似度的映射314
17.6.2 映射表315
參考文獻注釋317
第18章 支持協同的集成318
18.1 協同因何而不同318
18.2 處理校正和反饋319
18.2.1 直接向下傳播的用戶更新319
18.2.2 回溯傳播的反饋或更新319
18.3 協同標注與表達320
18.3.1 映射作為標注:軌跡320
18.3.2 評論和討論作為標注321
18.4 動態數據:協同數據共享322
18.4.1 基本架構324
18.4.2 映射更新與物化實例325
18.4.3 衝突協調328
參考文獻注釋328
第19章 數據集成的未來330
19.1 不確定性、溯源和清理330
19.2 眾包和“人計算”330
19.3 構建大規模結構化Web數據庫331
19.4 輕量級集成331
19.5 集成數據可視化332
19.6 社交媒體集成332
19.7 基於集群和雲的並行處理與緩存332
參考文獻333
索引360