●篇 Python程序設計
章 Python入門 3
1.1 Python概述 4
1.2 搭建Python開發環境 6
1.3 Python開發工具介紹 11
1.4 Python軟件包的管理 13
1.5 實訓:編寫“Hello World” 15
本章小結 16
第2章 Python基礎 17
2.1 變量 18
2.2 標識符 24
2.3 代碼組織 26
2.4 輸入與輸出 28
2.5 運算符與優先級 30
2.6 新手問答 30
2.7 實訓:設計一個簡易計算器 31
本章小結 31
第3章 數據類型與流程控制 32
3.1 數字類型 33
3.2 字符串類型 37
3.3 集合類型 40
3.4 流程控制語句 45
3.5 新手問答 47
3.6 實訓:設計算法,輸出乘法表 49
本章小結 50
第4章 函數、模塊、包 51
4.1 自定義函數 52
4.2 函數參數 55
4.3 函數式編程 58
4.4 模塊與包 63
4.5 新手問答 65
4.6 實訓:設計算法,對列表進行排序 67
本章小結 68
第5章 面向對像的程序設計 69
5.1 面向對像 70
5.2 自定義類 71
5.3 屬性 73
5.4 方法 79
5.5 類的繼承 83
5.6 可調用對像 86
5.7 不可變對像 87
5.8 新手問答 88
5.9 實訓:設計算法,構造一棵二叉樹 90
本章小結 92
第6章 不錯主題 93
6.1 生成器 94
6.2 迭代器 96
6.3 異步處理 97
6.4 錯誤、調試 103
6.5 新手問答 108
6.6 實訓:使用多進程技術統計數據並彙總 109
本章小結 110
第2篇 數據采集與數據清洗
第7章 網絡數據采集 113
7.1 HTTP請求概述 114
7.2 XPath網頁解析 114
7.3 Scrapy數據采集入門 119
7.4 Scrapy應對反爬蟲程序 126
7.5 CrawlSpider類 131
7.6 分布式爬蟲 132
7.7 新手問答 136
7.8 實訓:構建百度雲音樂爬蟲 136
本章小結 139
第8章 數據清洗 140
8.1 數據清洗的意義 141
8.2 數據清洗的內容 141
8.3 數據格式與存儲類型 142
8.4 數據清洗的步驟 145
8.5 數據清洗的工具 147
8.6 新手問答 151
8.7 實訓:清洗百度雲音樂數據並儲存到CSV 151
本章小結 152
第3篇 數據分析與可視化
第9章 NumPy數值計算 155
9.1 NumPy基礎 156
9.2 形狀操作 164
9.3 副本、淺拷貝和深拷貝 166
9.4 不錯索引 168
9.5 排序統計 171
9.6 新手問答 173
9.7 實訓:銷售額統計 174
本章小結 175
0章 Matplotlib可視化 176
10.1 圖形的基本要素 177
10.2 繪圖基礎 177
10.3 設置樣式 186
10.4 圖形樣例 189
10.5 新手問答 198
10.6 實訓:營業數據可視化 199
本章小結 201
1章 Pandas統計分析 202
11.1 Pandas數據結構 203
11.2 基礎功能 210
11.3 統計分析 217
11.4 時間數據 229
11.5 數據整理 231
11.6 不錯功能 234
11.7 讀寫MySQL數據庫 236
11.8 新手問答 237
11.9 實訓:成績分析 237
本章小結 239
2章 Seaborn可視化 240
12.1 Seaborn概述 241
12.2 可視化數據關繫 242
12.3 根據數據分類繪圖 246
12.4 單變量與雙變量 251
12.5 線性關繫 256
12.6 新手問答 258
12.7 實訓:成績分析可視化 258
本章小結 260
第4篇 大數據存儲與快速分析篇
3章 Hadoop數據存儲與基本操作 263
13.1 Hadoop概述 264
13.2 Hadoop數據存儲與任務調度原理 268
13.3 Hadoop基礎環境搭建 273
13.4 Hadoop部署模式 294
13.5 Hadoop常用操作命令 298
13.6 新手問答 300
13.7 實訓:動手搭建Hadoop集群環境 301
本章小結 309
4章 Spark入門 310
14.1 Spark概述 311
14.2 Spark核心原理 312
14.3 Spark基礎環境搭建 315
14.4 Spark運行模式 317
14.5 新手問答 321
14.6 實訓:動手搭建Spark集群 322
本章小結 323
5章 Spark RDD編程 324
15.1 RDD設計原理 325
15.2 RDD編程 328
15.3 鍵值對RDD 335
15.4 文件讀寫 340
15.5 編程進階 342
15.6 新手問答 347
15.7 實訓:統計海鮮銷售情況 348
本章小結 350
6章 Spark SQL編程 351
16.1 Spark SQL概述 352
16.2 創建DataFrame對像 360
16.3 DataFrame常用API 364
16.4 保存DataFrame 370
16.5 新手問答 372
16.6 實訓:統計手機銷售情況 373
本章小結 375
7章 Spark流式計算編程 376
17.1 流計算簡介 377
17.2 Discretized Stream 379
17.3 Structured Streaming 385
17.4 新手問答 397
17.5 實訓:實時統計貸款金額 397
本章小結 398
第5篇 項目實戰篇
8章 分析電商網站銷售數據 401
18.1 目標分析 402
18.2 數據采集 405
18.3 數據分析 411
本章小結 416
9章 分析旅遊網站數據 417
19.1 目標分析 418
19.2 數據采集 420
19.3 數據分析 425
本章小結 429
第20章 分析在售二手房數據 430
20.1 目標分析 431
20.2 數據采集 434
20.3 數據分析 440
本章小結 446
附錄:Python常見面試題精選 447
主要參考文獻 450
內容簡介
《Python數據分析與大數據處理從入門到精通》主要講解數據分析與大數據處理所需的技術、基礎設施、核心概念、實施流程。從編程語言準備、數據采集與清洗、數據分析與可視化,到大型數據的分布式存儲與分布式計算,貫穿了整個大數據項目開發流程。本書輕理論、重實踐,目的是讓讀者快速上手。篇首先介紹了Python的基本語法、面向對像開發、模塊化設計等,掌握Python的編程方式。然後介紹了多線程、多進程及其相互間的通信,讓讀者對分布式程序有個基本的認識。第2篇介紹了網絡數據采集、數據清洗、數據存儲等技術。第3篇介紹了Python常用的數據分析工具,擴展了更多的數據清洗、插值方法,為很終的數據可視化奠定基礎。第4篇是大數據分析的重點。首先介紹了Hadoop的框架原理、調度原理,MapReduce原理與編程模型、環境搭建,接著介紹了Spark框架原理、環境搭建方式,以及如何與Hive等第三方工具進行交互,還......