●章數據倉庫和數據挖掘
概述
1.1概述
1.1.1數據倉庫和數據挖掘的目標
1.1.2數據倉庫與數據挖掘的發展歷程
1.2數據中心
1.2.1關繫型數據中心
1.2.2非關繫型數據中心
1.2.3混合型數據中心(大數據平臺)
1.3混合型數據中心參考架構
1.3.1基礎設施層
1.3.2數據源層
1.3.3交換服務體繫
1.3.4數據存儲區
1.3.5基礎服務層
1.3.6應用層
1.3.7用戶終端層
1.3.8數據治理
1.數據管理
1.3.10IT 安全運維管理
1.3.11IT 綜合監控
1.3.12企業資產管理
思考題
第2章數據
2.1數據的概念
2.2數據的內容
2.2.1實時數據與歷史數據
2.2.2事務數據與時態數據
2.2.3圖形數據與圖像數據
2.2.4主題數據與全局數據
2.2.5空間數據
2.2.6序列數據和數據流
2.數據與數據字典
2.3數據屬性及數據集
2.4數據特征的統計描述
2.4.1集中趨勢
2.4.2離散程度
2.4.3數據的分布形狀
2.5數據的可視化
2.6數據相似性與相異性的度量
2.7數據質量
2.8數據預處理
2.8.1被污染的數據
2.8.2數據清理
2.8.3數據集成
2.8.4數據變換
2.8.5數據規約
思考題
第3章數據倉庫與數據 ETL基礎
3.1從數據庫到數據倉庫
3.2數據倉庫的結構
3.2.1兩層體繫結構
3.2.2三層體繫結構
3.2.素
3.3數據倉庫的數據模型
3.3.1概念模型
3.3.2邏輯模型
3.3.3物理模型
3.4ETL
3.4.1數據抽取
3.4.2數據轉換
3.4.3數據加載
3.5OLAP
3.5.1維
3.5.2OLAP 與OLTP
3.5.3OLAP 的基本操作
3.6OLAP 的數據模型
3.6.1ROLAP
3.6.2MOLAP
3.6.3HOLAP
思考題
第4章數據倉庫和 ETL 工具
4.1IBM DB2 V10
4.1.1自適應壓縮
4.1.2多溫度存儲
4.1.3時間旅行查詢
4.1.4DB2兼容性功能
4.1.5工作負載管理
4.1.6 PureXML
4.1.7當前已落實
4.1.8DB2 PureScale Feature
4.1.9分區特性
4.1.10並行技術
4.1.11SQW
4.1.12Cubing Services
4.1.13列式存儲及壓縮技術
4.2 InfoSphere Datastage
4.2.1基於Information Server的架構
4.2.2企業級實施和管理
4.2.3高擴展的體繫架構
4.2.4具備線性擴充能力
4.2.5數據管理
4.3 InfoSphere QualityStage
思考題
第5章數據挖掘基礎
5.1數據挖掘的起源
5.2數據挖掘的定義
5.3數據挖掘的任務
5.3.1分類
5.3.2回歸分析
5.3.3相關分析
5.3.4聚類分析
5.3.5關聯規則
5.3.6異常檢測
5.4數據挖掘標準流程
5.4.1商業理解
5.4.2數據理解
5.4.3數據準備
5.4.4建立模型
5.4.5模型評估
5.4.6發布
5.5數據挖掘的十大挑戰性問題
5.5.1數據挖掘統一理論的探索
5.5.2高維數據和高速數據流的研究與應用
5.5.3時序數據的挖掘與降噪
5.5.4從復雜數據中尋找復雜知識
5.5.5網絡環境中的數據挖掘
5.5.6分布式數據挖掘
5.5.7生物醫學和環境科學數據挖掘
5.5.8數據挖掘過程自動化與可視化
5.5.9信息安全與隱私保護
5.5.10動態、不平衡及成本敏感數據的挖掘
思考題
第6章數據挖掘算法
6.1算法評估概述
6.1.1分類算法及評估指標
6.1.2聚類算法及其評價指標
6.2C4.5
6.2.1信息論基礎知識
6.2.2ID3算法
6.2.3C4.5算法
6.2.4C4.5算法的實現
6.2.5C4.5的軟件實現
6.3CART算法
6.3.1算法介紹
6.3.2算法描述
6.4K—Means算法
6.4.1基礎知識
6.4.2算法描述
6.4.3算法的軟件實現
6.5SVM算法
6.5.1線性可分SVM
6.5.2線性不可分SVM
6.5.3參數設置
6.5.4SVM算法的軟件實現
6.6 AOIjori算法
6.6.1基本概念
6.6.2 Apriori算法
6.6.3 Apriori算法示例
6.6.4 Apriori算法的軟件實現
6.7 EM算法
6.7.1算法描述
6.7.2基於EM的混合高斯聚類
6.7.3算法的軟件實現
6.8PageRank
6.8.1PageRank算法發展背景
6.8.2 PageRank算法描述
6.8.3 PageRank算法發展
6.9 Adaboost算法
6.9.1集成學習
6.9.2 Adaboost算法描述
6.9.3 Adaboost算法實驗
6.10 KNN算法
6.10.1 KNN算法描述
6.10.2 KNN算法的軟件實現
6.11 Naive Bayes
6.11.1基礎知識
6.11.2算法描述
6.11.3 Naive Bayes軟件實現
思考題
第7章數據挖掘工具與產品
7.1數據挖掘工具概述
7.1.1發展過程
7.1.2基本類型
7.1.3開發者與使用者
7.2商業數據挖掘工具IBM SPSS Modeler
7.2.1產品概述
7.2.2可視化數據挖掘
7.2.3 SPSS Modeler技術說明
7.2.4 SPSS Modeler的數據挖掘應用
7.3開源數據挖掘工具WEKA
7.3.1WEKA數據格式
7.3.2WEKA的使用
思考題
第8章數據挖掘案例
8.1概述
8.2納稅評估示例
8.2.1納稅評估監控等級預測的方法
8.2.2構建稅務行業數據中心
8.2.3構建納稅評估監控等級模型
8.3稅收預測建模示例
8A稅務行業納稅人客戶細分探索
8A.1客戶細分概述
8.4.2客戶細分的主要研究方法
8.4.3構建客戶細分模型
8.5基於Hadoop平臺的數據挖掘
8.5.1基於IBM SPSS Analytic Server的數據挖掘
8.5.2基於R的數據挖掘
思考題
第9章大數據管理
9.1什麼是大數據
9.2 Hadoop介紹
9.3 NoSQL介紹
9.3.1CAP定理
9.3.2一致性
9.3.3 ACID模型
9.3.4 BASE模型
9.3.5 MoreSQL/NewSQL
9.4 InfoSphere Biglnsights 3.0介紹
9A.1 Big SQL3.0
9.4.2企業集成
9.4.3 GPFS-FPO
9.4.4 IBM Adaptive MR
9.4.5 BigSheets
9.4.6不錯文本分析
9.4.7 Solr
9.4.8改進工作負載調度
9.4.9壓縮
思考題
參考文獻
內容簡介
本書將數據視為基礎資源,根據軟件工程的思想,總結了數據利用的歷程,講述了數據倉庫的基礎知識和工具,研究了數據挖掘的任務及其挑戰,給出了經典的數據挖掘算法,介紹了數據挖掘的產品,剖析了稅務數據挖掘的案例,探索了大數據的管理和應用問題。
全書深入淺出,強調基礎,注重應用,是軟件工程及相關專業的高年級本科生、研究生的理想教材,亦可作為相關領域的參考用書。