●第1章緒論1
1.1大數據的定義及其應用2
1.2數據質量問題4
1.3大數據的質量問題與挑戰12
1.4數據清洗研究進展13
1.5本書的內容16
本章參考文獻17
第2章大數據處理技術概述21
2.1大數據並行計算平臺22
2.2眾包技術26
本章參考文獻29
第3章實體識別30
3.1實體識別概述31
3.2串行實體識別算法35
3.3並行實體識別算法45
3.4增量實體識別算法77
3.5基於眾包的實體識別94
本章參考文獻100
第4章真值發現107
4.1真值發現算法概述108
4.2並行真值發現算法109
4.3增量真值發現算法127
4.4基於眾包的真值發現140
本章參考文獻144
第5章缺失值填充145
5.1缺失值填充算法概述146
5.2基於貝葉斯網絡的串行缺失值填充算法150
5.3實驗結果及分析175
5.4並行缺失值填充算法182
5.5基於眾包的缺失值填充算法196
本章參考文獻202
第6章不一致數據檢測與修復205
6.1不一致數據檢測與修復概述206
6.2並行不一致數據檢測與修復算法211
6.3基於眾包的不一致數據檢測與修復算法225
6.4掃描數據一次的大數據不一致檢測算法229
本章參考文獻244
第7章多數據質量問題綜合清洗與優化249
7.1數據質量維度的關聯250
7.2基於任務合並的並行數據清洗優化274
7.3綜合大數據清洗繫統293
本章參考文獻303
名詞索引307