●前言1
第1章數據湖概述7
數據湖的成熟度9
數據水窪11
數據池12
創建成功的數據湖12
適合的平臺13
適合的數據14
適合的界面16
數據沼澤18
成功實施數據湖的路線圖20
建立數據湖20
規劃數據湖21
構建自助服務的數據湖23
構建數據湖28
雲上數據湖29
邏輯數據湖29
小結34
第2章歷史背景35
數據自助服務驅動——數據庫的誕生36
分析必要性驅動——數據倉庫的誕生39
數據倉庫生態繫統40
存儲和查詢數據41
加載數據——數據集成工具47
組織和管理數據51
消費數據57
小結58
第3章大數據和數據科學概述59
Hadoop引領大數據的歷史性轉變60
Hadoop文件繫統60
MapReduce作業中計算和存儲如何交互61
SchemaonRead63
Hadoop項目64
數據科學65
你的分析機構應該關注什麼?67
機器學習71
可解釋性72
變更管理73
小結74
第4章建立數據湖75
為什麼是Hadoop75
防止數據水窪擴散78
利用大數據的優勢79
以數據科學為先導80
策略1:遷移已有功能83
策略2:為新項目建立數據湖85
策略3:建立數據治理中心85
哪種策略你?86
小結88
第5章從數據池/大數據倉庫到數據湖89
數據倉庫的基本功能90
用於分析的維度模型91
整合不同源的數據92
使用緩慢變化維保存歷史記錄93
數據倉庫作為歷史庫的局限性93
遷移至數據池94
數據池中保存歷史數據94
在數據池中使用緩慢變化維96
數據池演化為數據湖——加載數據倉庫中未包含的數據98
原始數據98
外部數據99
IoT與其他流式數據102
實時數據湖103
Lambda架構105
數據轉換106
目標繫統108
數據倉庫109
業務數據存儲109
實時應用和數據產品110
小結111
第6章自助服務優化112
自助服務起源113
業務分析師115
發現和理解數據——企業數據歸檔116
建立信任119
數據預置126
為分析準備數據128
數據湖數據整理129
用Hadoop來準備數據129
數據預處理的常見案例130
分析和可視化133
自助式商業智能的新世界133
新的分析工作流134
門衛向店主的角色轉變136
管理自助服務137
小結137
第7章數據湖架構139
規劃數據湖139
原始區141
產品區142
工作區144
敏感區145
多數據湖146
保持各數據湖獨立的優勢147
合並多數據湖的優勢147
雲上數據湖148
虛擬數據湖151
數據聯邦151
大數據虛擬化152
消除冗餘154
小結156
第8章數據157
組織數據157
打標166
自動編目167
邏輯數據管理169
敏感數據管理和訪問控制169
數據質量170
連接分散的數據172
建立血緣關繫174
數據預置176
創建目錄的工具176
工具對比177
數據洋178
小結179
第9章數據訪問控制180
授權與訪問控制181
基於標簽的控制策略182
數據脫敏186
數據主權與法規189
自助服務訪問管理191
預置數據196
小結204
第10章行業案例205
金融服務大數據206
消費者、數字化和數據正在改變我們所熟知的金融行業206
拯救銀行208
新數據提供新機遇212
使用數據湖的關鍵過程215
數據湖為金融服務領域帶來的價值218
保險行業中的數據湖220
智慧城市222
醫療大數據224
作者介紹227
封面介紹227