【章名目錄】
第 1章大數據概述
第2章Python程序設計
第3章大數據采集
第4章大數據預處理技術
第5章Excel數據獲取與預處理
第6章Python數據預處理
第7章數據可視化技術
【詳細目錄】
第 1章大數據概述
1.1 大數據時代1
1.2 大數據的相關概念及特征2
1.2.1 大數據的概念2
1.2.2 大數據的發展歷程3
1.2.3 大數據的特征5
1.2.4 大數據的作用6
1.2.5 大數據的應用領域7
1.2.6 大數據的關鍵技術8
1.3 大數據繫統簡介9
1.3.1 Hadoop生態繫統9
1.3.2 Spark生態繫統12
1.4 大數據思維15
1.4.1 傳統思維方式15
1.4.2 大數據思維方式16
1.5 大數據倫理17
1.5.1 大數據倫理的由來17
1.5.2 大數據的倫理問題18
1.5.3 大數據的倫理原則21
1.6 大數據安全22
1.6.1 數據全生命周期安全22
1.6.2 大數據安全防護技術23
1.7 本章小結24
1.8 習題24
第2章Python程序設計
2.1 Python的安裝與運行25
2.1.1 Python的特點25
2.1.2 Python的下載與安裝26
2.1.3 Python程序的運行27
2.1.4 第三方軟件包的安裝29
2.1.5 Python編程規範31
2.2 數據類型與運算符33
2.2.1 數字和字符串33
2.2.2 組38
2.2.3 字典和集合42
2.2.4 運算符44
2.3 程序控制結構47
2.3.1 程序流程圖47
2.3.2 順序結構48
2.3.3 選擇結構49
2.3.4 循環結構51
2.4 函數與模塊54
2.4.1 函數的使用54
2.4.2 函數的參數傳遞55
2.4.3 全局變量與局部變量57
2.4.4 匿名函數58
2.4.5 模塊59
2.5 文件60
2.5.1 文件的打開與關閉60
2.5.2 文件的讀取與寫入62
2.5.3 文件的定位63
2.6 本章小結63
2.7 習題64
第3章大數據采集
3.1 大數據采集概述65
3.1.1 大數據采集的概念65
3.1.2 大數據采集的數據源66
3.1.3 大數據采集方法67
3.1.4 大數據采集平臺69
3.2 網絡爬蟲技術71
3.2.1 網絡爬蟲概述72
3.2.2 常用網絡爬蟲方法72
3.2.3 網頁數據采集的實現75
3.2.4 常用網絡爬蟲工具78
3.2.5 電影評論爬取82
3.3 數據抽取技術85
3.3.1 數據抽取概述85
3.3.2 Kettle簡介與其安裝86
3.3.3 文本數據抽取87
3.3.4 網頁數據抽取89
3.4 案例:網絡租房信息采集91
3.4.1 網絡爬蟲采集數據91
3.4.2 抽取租房信息94
3.5 本章小結96
3.6 習題96
第4章大數據預處理技術
4.1 數據預處理概述97
4.1.1 數據質量97
4.1.2 數據預處理的主要任務99
4.2 數據清洗99
4.2.1 缺失值處理方法99
4.2.2 噪聲數據處理方法101
4.2.3 冗餘數據處理方法105
4.2.4 數據格式與內容處理方法106
4.3 數據集成106
4.3.1 實體識別問題106
4.3.2 冗餘問題107
4.3.3 數據值衝突的檢測與處理109
4.4 數據變換110
4.4.1 數據規範化110
4.4.2 通過離散化變換數據112
4.5 數據歸約113
4.5.1 過濾法114
4.5.2 包裝法115
4.5.3 嵌入法116
4.6 數據脫敏117
4.6.1 數據脫敏類型117
4.6.2 數據脫敏方法118
4.7 案例:汽車行駛工況數據預處理119
4.7.1 案例背景119
4.7.2 數據描述119
4.7.3 數據預處理120
4.8 本章小結124
4.9 習題125
第5章Excel數據獲取與預處理
5.1 Excel數據獲取126
5.1.1 獲取文本數據126
5.1.2 獲取網站數據128
5.1.3 獲取數據庫中的數據130
5.2 Excel數據清洗與轉換132
5.2.1 常用數據分析函數132
5.2.2 刪除重復行136
5.2.3 文本查找與替換137
5.2.4 字符串截取139
5.2.5 數據的轉置140
5.2.6 數據的查詢和引用140
5.2.7 字母與數字的轉換142
5.3 Excel數據抽取與合並143
5.3.1 值的抽取144
5.3.2 數據合並146
5.3.3 字段合並147
5.4 案例:房價行情的對比分析148
5.4.1 數據獲取148
5.4.2 數據預處理與分析149
5.5 本章小結151
5.6 習題151
第6章Python數據預處理
6.1 Python數據預處理基礎153
6.1.1 科學計算庫NumPy153
6.1.2 數據分析庫pandas160
6.2 數據的分組、分割、合並和變形168
6.2.1 數據分組168
6.2.2數據分割171
6.2.3數據合並172
6.2.4 數據變形175
6.3 缺失值、異常值和重復值處理177
6.3.1 缺失值處理177
6.3.2 異常值處理181
6.3.3 重復值處理185
6.4 時間序列數據處理185
6.4.1 時間序列的基本操作186
6.4.2 固定頻率的時間序列187
6.4.3 時間周期及其計算188
6.5 文本數據分析189
6.5.1 字符串處理方法189
6.5.2 文本數據分析工具191
6.5.3正則表達式194
6.5.4 文本預處理196
6.6 案例:IMDb5000電影數據預處理199
6.6.1 數據分析及代碼實現199
6.6.2 完整代碼201
6.7 本章小結203
6.8 習題203
第7章數據可視化技術
7.1 數據可視化概述205
7.1.1 數據可視化的定義205
7.1.2 數據可視化的發展歷程206
7.1.3 數據可視化的作用211
7.2 數據可視化的理論基礎212
7.2.1 數據可視化的流程212
7.2.2 數據可視化的設計要素213
7.2.3 數據可視化的基礎圖表216
7.2.4 數據可視化的常見工具219
7.3 Python數據可視化方法221
7.3.1 Matplotlib繪制基礎圖表221
7.3.2 seaborn繪制統計圖229
7.3.3 wordcloud繪制詞雲圖254
7.3.4 NetworkX繪制網絡圖257
7.3.5 案例:重慶公開庭審數據可視化260
7.4 pyecharts數據可視化方法265
7.4.1 pyecharts簡介265
7.4.2 pyecharts應用266
7.4.3 案例:2020年東京奧運會獎牌看板267
7.5 本章小結278
7.6 習題279
參考文獻280