第1章 數據倉庫和數據挖掘
概述... 1
基礎... 37
的架構... 69
SPSS Modeler 151
應用... 157
的方法... 163
8.2.2 構建稅務行業數據中心... 164
8.2.3 構建納稅評估監控等級模型... 166
8.3 稅收預測建模示例... 168
8.4 稅務行業納稅人客戶細分探索... 171
8.4.1 客戶細分概述... 171
8.4.2 客戶細分的主要研究方法... 171
8.4.3 構建客戶細分模型... 171
第1章
數據倉庫和數據挖掘
概述... 1
1.1 概述... 1
1.1.1 數據倉庫和數據挖掘的目標... 1
1.1.2 數據倉庫與數據挖掘的發展歷程... 2
1.2 數據中心... 4
1.2.1 關繫型數據中心... 4
1.2.2 非關繫型數據中心... 4
1.2.3 混合型數據中心(大數據平臺)... 6
1.3 混合型數據中心參考架構... 7
1.3.1 基礎設施層... 8
1.3.2 數據源層... 8
1.3.3 交換服務體繫... 8
1.3.4 數據存儲區... 9
1.3.5 基礎服務層... 10
1.3.6 應用層... 12
1.3.7 用戶終端層... 12
1.3.8 數據治理... 12
1.3.9
1.3.10 IT安全運維管理... 13
1.3.11 IT綜合監控... 14
1.3.12 企業資產管理... 14
思考題... 14
第2章 數據... 15
2.1 數據的概念... 15
2.2 數據的內容... 15
2.2.1 實時數據與歷史數據... 15
2.2.2 事務數據與時態數據... 16
2.2.3 圖形數據與圖像數據... 16
2.2.4 主題數據與全局數據... 17
2.2.5 空間數據... 17
2.2.6 序列數據和數據流... 18
2.2.7
2.3 數據屬性及數據集... 20
2.4 數據特征的統計描述... 21
2.4.1 集中趨勢... 21
2.4.2 離散程度... 23
2.4.3 數據的分布形狀... 24
2.5 數據的可視化... 24
2.6 數據相似性與相異性的度量... 27
2.7 數據質量... 30
2.8 數據預處理... 31
2.8.1 被污染的數據... 31
2.8.2 數據清理... 33
2.8.3 數據集成... 34
2.8.4 數據變換... 35
2.8.5 數據規約... 36
思考題... 36
第3章
數據倉庫與數據ETL
基礎... 37
3.1 從數據庫到數據倉庫... 37
3.2 數據倉庫的結構... 38
3.2.1 兩層體繫結構... 39
3.2.2 三層體繫結構... 39
3.2.3
3.3 數據倉庫的數據模型... 41
3.3.1 概念模型... 41
3.3.2 邏輯模型... 41
3.3.3 物理模型... 44
3.4 ETL.. 44
3.4.1 數據抽取... 45
3.4.2 數據轉換... 46
3.4.3 數據加載... 46
3.5 OLAP. 47
3.5.1 維... 47
3.5.2 OLAP與OLTP. 47
3.5.3 OLAP的基本操作... 48
3.6 OLAP的數據模型... 49
3.6.1 ROLAP. 49
3.6.2 MOLAP. 50
3.6.3 HOLAP. 50
思考題... 51
第4章 數據倉庫和ETL工具... 52
4.1 IBM DB2 V10. 52
4.1.1 自適應壓縮... 52
4.1.2 多溫度存儲... 53
4.1.3 時間旅行查詢... 54
4.1.4 DB2兼容性功能... 58
4.1.5 工作負載管理... 58
4.1.6 PureXML.. 60
4.1.7 當前已落實... 61
4.1.8 DB2 PureScale Feature. 61
4.1.9 分區特性... 63
4.1.10 並行技術... 65
4.1.11 SQW... 65
4.1.12 Cubing Services. 65
4.1.13 列式存儲及壓縮技術... 66
4.2 InfoSphere Datastage. 68
4.2.1 基於Information Server
的架構... 69
4.2.2 企業級實施和管理... 72
4.2.3 高擴展的體繫架構... 75
4.2.4 具備線性擴充能力... 77
4.2.5 ETL
4.3 InfoSphere QualityStage. 78
思考題... 80
第5章 數據挖掘基礎... 81
5.1 數據挖掘的起源... 81
5.2 數據挖掘的定義... 82
5.3 數據挖掘的任務... 83
5.3.1 分類... 83
5.3.2 回歸分析... 85
5.3.3 相關分析... 85
5.3.4 聚類分析... 85
5.3.5 關聯規則... 87
5.3.6 異常檢測... 88
5.4 數據挖掘標準流程... 88
5.4.1 商業理解... 89
5.4.2 數據理解... 90
5.4.3 數據準備... 90
5.4.4 建立模型... 90
5.4.5 模型評估... 89
5.4.6 發布... 91
5.5 數據挖掘的十大挑戰性問題... 91
5.5.1 數據挖掘統一理論的探索... 91
5.5.2 高維數據和高速數據流的研究與應用... 92
5.5.3 時序數據的挖掘與降噪... 92
5.5.4 從復雜數據中尋找復雜知識... 92
5.5.5 網絡環境中的數據挖掘... 92
5.5.6 分布式數據挖掘... 93
5.5.7 生物醫學和環境科學數據挖掘... 93
5.5.8 數據挖掘過程自動化與可視化... 93
5.5.9 信息安全與隱私保護... 93
5.5.10 動態、不平衡及成本敏感數據的挖掘 93
思考題... 94
第6章 數據挖掘算法... 95
6.1 算法評估概述... 95
6.1.1 分類算法及評估指標... 95
6.1.2 聚類算法及其評價指標... 97
6.2 C4.5. 99
6.2.1 信息論基礎知識... 100
6.2.2 ID3算法... 102
6.2.3 C4.5算法... 104
6.2.4 C4.5算法的實現... 105
6.2.5 C4.5的軟件實現... 107
6.3 CART算法... 109
6.3.1 算法介紹... 109
6.3.2 算法描述... 112
6.4 K-Means算法... 113
6.4.1 基礎知識... 113
6.4.2 算法描述... 114
6.4.3 算法的軟件實現... 115
6.5 SVM算法... 116
6.5.1 線性可分SVM... 116
6.5.2 線性不可分SVM... 118
6.5.3 參數設置... 121
6.5.4 SVM算法的軟件實現... 123
6.6 Apriori算法... 125
6.6.1 基本概念... 125
6.6.2 Apriori算法... 126
6.6.3 Apriori算法示例... 129
6.6.4 Apriori算法的軟件實現... 131
6.7 EM算法... 131
6.7.1 算法描述
6.7.2 基於EM的混合高斯聚類... 133
6.7.3 算法的軟件實現... 134
6.8 PageRank. 135
6.8.1 PageRank算法發展背景... 135
6.8.2 PageRank算法描述... 135
6.8.3 PageRank算法發展... 138
6.9 Adaboost算法... 139
6.9.1 集成學習... 139
6.9.2 Adaboost算法描述... 140
6.9.3 Adaboost算法實驗... 141
6.10 KNN算法... 142
6.10.1 KNN算法描述... 142
6.10.2 KNN算法的軟件實現... 144
6.11 Naive Bayes. 144
6.11.1 基礎知識... 145
6.11.2 算法描述... 145
6.11.3 Naive
Bayes軟件實現... 147
思考題... 148
第7章 數據挖掘工具與產品... 149
7.1 數據挖掘工具概述... 149
7.1.1 發展過程... 149
7.1.2 基本類型... 149
7.1.3 開發者與使用者... 150
7.2 商業數據挖掘工具IBM
SPSS Modeler 151
7.2.1 產品概述... 151
7.2.2 可視化數據挖掘... 153
7.2.3 SPSS Modeler技術說明... 156
7.2.4 SPSS Modeler的數據挖掘
應用... 157
7.3 開源數據挖掘工具WEKA.. 158
7.3.1 WEKA數據格式... 159
7.3.2 WEKA的使用... 160
思考題... 161
第8章 數據挖掘案例... 162
8.1 概述... 162
8.2 納稅評估示例... 162
8.2.1 納稅評估監控等級預測
的方法... 163
8.2.2 構建稅務行業數據中心... 164
8.2.3 構建納稅評估監控等級模型... 166
8.3 稅收預測建模示例... 168
8.4 稅務行業納稅人客戶細分探索... 171
8.4.1 客戶細分概述... 171
8.4.2 客戶細分的主要研究方法... 171
8.4.3 構建客戶細分模型... 171
8.5 基於Hadoop平臺的數據挖掘... 175
8.5.1 基於IBM SPSS Analytic Server的數據挖掘 175
8.5.2 基於R的數據挖掘... 175
思考題... 176
第9章 大數據管理... 177
9.1 什麼是大數據... 177
9.2 Hadoop介紹... 178
9.3 NoSQL介紹... 180
9.3.1 CAP定理... 181
9.3.2 一致性... 181
9.3.3 ACID模型... 182
9.3.4 BASE模型... 182
9.3.5 MoreSQL/NewSQL.. 182
9.4 InfoSphere BigInsights 3.0介紹... 183
9.4.1 Big SQL 3.0. 184
9.4.2 企業集成... 190
9.4.3 GPFS-FPO.. 192
9.4.4 IBM Adaptive MR.. 192
9.4.5 BigSheets. 193
9.4.6 高級文本分析.... 195
9.4.7 Solr 195
9.4.8 改進工作負載調度... 196
9.4.9 壓縮... 197
思考題... 198
參考文獻