了得網計算機/網絡_Pandas1.x實例精解

產品特色

編輯推薦

本書以操作秘笈的形式編寫，包含近100個秘笈，從非常簡單的應用到高級操作技巧都有涵蓋。所有秘笈力求以清晰、簡潔、現代的慣用Pandas代碼編寫。“實戰操作”部分詳細介紹各個秘笈的操作步驟，“原理解釋”部分對秘笈的每一步都進行非常詳細的闡釋。絕大多數秘笈還提供“擴展知識”部分，使讀者能夠舉一反三，發展出自己的操作技巧。本書包含大量的Pandas代碼，並提供了配套的源數據文件，以便讀者跟隨操作和對照學習。

內容簡介

本書詳細闡述了與Pandas相關的基本解決方案，主要包括Pandas基礎，DataFrame基本操作，創建和保留DataFrame，開始數據分析，探索性數據分析，選擇數據子集，過濾行，對齊索引，分組以進行聚合、過濾和轉換，將數據重組為規整形式，組合Pandas對像，時間序列分析，使用Matplotlib、Pandas和Seaborn進行可視化，調試和測試等內容。此外，本書還提供了相應的示例、代碼，以幫助讀者進一步理解相關方案的實現過程。本書適合作為高等院校計算機及相關專業的教材和教學參考書，也可作為相關開發人員的自學用書和參考手冊。

第1章 Pandas基礎 1
1.1 導入Pandas 1
1.2 介紹Pandas 1
1.3 關於Pandas DataFrame 2
1.3.1 實戰操作 2
1.3.2 原理解釋 3
1.4 了解DataFrame屬性 4
1.4.1 實戰操作 4
1.4.2 原理解釋 5
1.4.3 擴展知識 6
1.5 了解數據類型 6
1.5.1 實戰操作 7
1.5.2 原理解釋 8
1.5.3 擴展知識 9
1.6 選擇列 9
1.6.1 實戰操作 10
1.6.2 原理解釋 13
1.6.3 擴展知識 13
1.7 調用Series方法 14
1.7.1 實戰操作 14
1.7.2 原理解釋 19
1.7.3 擴展知識 19
1.8 了解Series的操作 20
1.8.1 實戰操作 21
1.8.2 原理解釋 23
1.8.3 擴展知識 23
1.9 使用Series方法鏈 26
1.9.1 實戰操作 26
1.9.2 原理解釋 27
1.9.3 擴展知識 28
1.10 重命名列名 31
1.10.1 實戰操作 31
1.10.2 原理解釋 31
1.10.3 擴展知識 32
1.11 創建和刪除列 34
1.11.1 實戰操作 34
1.11.2 原理解釋 40
1.11.3 擴展知識 40
第2章 DataFrame基本操作 43
2.1 介紹 43
2.2 選擇多個DataFrame列 43
2.2.1 實戰操作 43
2.2.2 原理解釋 44
2.2.3 擴展知識 45
2.3 使用方法選擇列 45
2.3.1 實戰操作 46
2.3.2 原理解釋 48
2.3.3 擴展知識 48
2.4 排序列名稱 49
2.4.1 實戰操作 50
2.4.2 原理解釋 52
2.4.3 擴展知識 52
2.5 統計DataFrame摘要信息 52
2.5.1 實戰操作 53
2.5.2 原理解釋 55
2.5.3 擴展知識 55
2.6 使用DataFrame方法鏈 56
2.6.1 實戰操作 56
2.6.2 原理解釋 57
2.6.3 擴展知識 57
2.7 了解DataFrame的操作 58
2.7.1 實戰操作 59
2.7.2 原理解釋 62
2.7.3 擴展知識 63
2.8 比較缺失值 63
2.8.1 做好準備 63
2.8.2 實戰操作 64
2.8.3 原理解釋 66
2.8.4 擴展知識 66
2.9 轉置DataFrame操作的方向 67
2.9.1 實戰操作 67
2.9.2 原理解釋 69
2.9.3 擴展知識 69
2.10 確定大學校園的多樣性 70
2.10.1 實戰操作 70
2.10.2 原理解釋 74
2.10.3 擴展知識 74
第3章創建和保留DataFrame 77
3.1 介紹 77
3.2 從頭開始創建DataFrame 77
3.2.1 實戰操作 77
3.2.2 原理解釋 78
3.2.3 擴展知識 78
3.3 編寫CSV 80
3.3.1 實戰操作 80
3.3.2 擴展知識 81
3.4 讀取大型CSV文件 82
3.4.1 實戰操作 82
3.4.2 原理解釋 88
3.4.3 擴展知識 89
3.5 使用Excel文件 90
3.5.1 實戰操作 90
3.5.2 原理解釋 91
3.5.3 擴展知識 91
3.6 使用ZIP文件 92
3.6.1 實戰操作 92
3.6.2 原理解釋 95
3.6.3 擴展知識 95
3.7 與數據庫協同工作 95
3.7.1 實戰操作 95
3.7.2 原理解釋 97
3.8 讀取JSON 97
3.8.1 實戰操作 97
3.8.2 原理解釋 100
3.8.3 擴展知識 100
3.9 讀取HTML表格 100
3.9.1 實戰操作 101
3.9.2 原理解釋 105
3.9.3 擴展知識 106
第4章開始數據分析 107
4.1 介紹 107
4.2 開發數據分析例程 107
4.2.1 實戰操作 108
4.2.2 原理解釋 110
4.2.3 擴展知識 110
4.3 數據字典 111
4.4 通過更改數據類型減少內存使用量 112
4.4.1 實戰操作 112
4.4.2 原理解釋 115
4.4.3 擴展知識 116
4.5 從中選擇小 117
4.5.1 實戰操作 118
4.5.2 原理解釋 119
4.5.3 擴展知識 119
4.6 通過排序選擇每組中的值 119
4.6.1 實戰操作 119
4.6.2 原理解釋 121
4.6.3 擴展知識 122
4.7 使用sort_values復制nlargest 123
4.7.1 實戰操作 123
4.7.2 原理解釋 125
4.8 計算追蹤止損單價格 126
4.8.1 實戰操作 126
4.8.2 原理解釋 128
4.8.3 擴展知識 128
第5章探索性數據分析 129
5.1 介紹 129
5.2 摘要統計 129
5.2.1 實戰操作 130
5.2.2 原理解釋 132
5.2.3 擴展知識 132
5.3 查看列類型 132
5.3.1 實戰操作 132
5.3.2 原理解釋 133
5.3.3 擴展知識 134
5.4 分類數據 137
5.4.1 實戰操作 137
5.4.2 原理解釋 140
5.4.3 擴展知識 141
5.5 連續數據 145
5.5.1 實戰操作 145
5.5.2 原理解釋 148
5.5.3 擴展知識 149
5.6 跨越分類比較連續值 151
5.6.1 實戰操作 151
5.6.2 原理解釋 153
5.6.3 擴展知識 153
5.7 比較兩個連續列 157
5.7.1 實戰操作 157
5.7.2 原理解釋 162
5.7.3 擴展知識 163
5.8 使用分類值比較分類值 165
5.8.1 實戰操作 165
5.8.2 原理解釋 171
5.9 使用Pandas分析庫 171
5.9.1 實戰操作 172
5.9.2 原理解釋 173
第6章選擇數據子集 175
6.1 介紹 175
6.2 選擇Series數據 175
6.2.1 實戰操作 176
6.2.2 原理解釋 179
6.2.3 擴展知識 180
6.3 選擇DataFrame行 182
6.3.1 實戰操作 182
6.3.2 原理解釋 184
6.3.3 擴展知識 185
6.4 同時選擇DataFrame行和列 185
6.4.1 實戰操作 185
6.4.2 原理解釋 187
6.4.3 擴展知識 188
6.5 使用整數和標簽選擇數據 188
6.5.1 實戰操作 188
6.5.2 原理解釋 189
6.5.3 擴展知識 189
6.6 按字典序切片 190
6.6.1 實戰操作 190
6.6.2 原理解釋 192
6.6.3 擴展知識 192
第7章過濾行 193
7.1 介紹 193
7.2 計算布爾統計信息 193
7.2.1 實戰操作 194
7.2.2 原理解釋 195
7.2.3 擴展知識 196
7.3 構造多個布爾條件 196
7.3.1 實戰操作 197
7.3.2 原理解釋 197
7.3.3 擴展知識 198
7.4 用布爾數組過濾 199
7.4.1 實戰操作 199
7.4.2 原理解釋 201
7.4.3 擴展知識 202
7.5 比較行過濾和索引過濾 202
7.5.1 實戰操作 203
7.5.2 原理解釋 203
7.5.3 擴展知識 204
7.6 使用索引和排序索引進行選擇 205
7.6.1 實戰操作 205
7.6.2 原理解釋 207
7.6.3 擴展知識 207
7.7 轉換SQL WHERE子句 208
7.7.1 實戰操作 209
7.7.2 原理解釋 210
7.7.3 擴展知識 211
7.8 使用查詢方法提高布爾索引的可讀性 212
7.8.1 實戰操作 212
7.8.2 原理解釋 213
7.8.3 擴展知識 213
7.9 使用.where方法保留Series大小 214
7.9.1 實戰操作 214
7.9.2 原理解釋 218
7.9.3 擴展知識 218
7.10 屏蔽DataFrame行 218
7.10.1 實戰操作 218
7.10.2 原理解釋 220
7.10.3 擴展知識 221
7.11 使用布爾值、整數位置和標簽進行選擇 221
7.11.1 實戰操作 221
7.11.2 原理解釋 224
第8章對齊索引 225
8.1 介紹 225
8.2 檢查Index對像 225
8.2.1 實戰操作 225
8.2.2 原理解釋 227
8.2.3 擴展知識 227
8.3 生成笛卡兒積 228
8.3.1 實戰操作 228
8.3.2 原理解釋 229
8.3.3 擴展知識 229
8.4 了解索引暴增現像 231
8.4.1 實戰操作 231
8.4.2 原理解釋 233
8.4.3 擴展知識 233
8.5 給不相等的索引填充值 234
8.5.1 實戰操作 234
8.5.2 原理解釋 236
8.5.3 擴展知識 237
8.6 添加來自不同DataFrames中的列 239
8.6.1 實戰操作 239
8.6.2 原理解釋 242
8.6.3 擴展知識 242
8.7 突出顯示每列的值 244
8.7.1 實戰操作 245
8.7.2 原理解釋 250
8.7.3 擴展知識 251
8.8 使用方法鏈復制.idxmax 252
8.8.1 實戰操作 252
8.8.2 原理解釋 256
8.8.3 擴展知識 257
8.9 查找常見的列的值 258
8.9.1 實戰操作 258
8.9.2 原理解釋 259
8.9.3 擴展知識 259
第9章分組以進行聚合、過濾和轉換 261
9.1 介紹 261
9.2 定義聚合 262
9.2.1 實戰操作 262
9.2.2 原理解釋 264
9.2.3 擴展知識 265
9.3 使用多個列和函數進行分組和聚合 265
9.3.1 實戰操作 266
9.3.2 原理解釋 268
9.3.3 擴展知識 269
9.4 分組後刪除多重索引 271
9.4.1 實戰操作 271
9.4.2 原理解釋 274
9.4.3 擴展知識 274
9.5 使用自定義聚合函數進行分組 275
9.5.1 實戰操作 275
9.5.2 原理解釋 277
9.5.3 擴展知識 277
9.6 使用*args和**kwargs自定義聚合函數 279
9.6.1 實戰操作 279
9.6.2 原理解釋 281
9.6.3 擴展知識 281
9.7 檢查groupby對像 282
9.7.1 實戰操作 282
9.7.2 原理解釋 285
9.7.3 擴展知識 286
9.8 篩選少數族裔占多數的州 286
9.8.1 實戰操作 287
9.8.2 原理解釋 288
9.8.3 擴展知識 288
9.9 通過減肥賭注做出改變 289
9.9.1 實戰操作 289
9.9.2 原理解釋 294
9.9.3 擴展知識 295
9.10 計算每個州的SAT加權平均成績 296
9.10.1 實戰操作 297
9.10.2 原理解釋 299
9.10.3 擴展知識 300
9.11 按連續變量分組 301
9.11.1 實戰操作 302
9.11.2 原理解釋 303
9.11.3 擴展知識 304
9.12 計算城市之間的航班總數 305
9.12.1 實戰操作 305
9.12.2 原理解釋 308
9.12.3 擴展知識 309
9.13 尋找長的準點航班連續記錄 310
9.13.1 實戰操作 310
9.13.2 原理解釋 314
9.13.3 擴展知識 316
第10章將數據重組為規整形式 319
10.1 介紹 319
10.2 使用stack將變量值規整為列名稱 321
10.2.1 實戰操作 322
10.2.2 原理解釋 324
10.2.3 擴展知識 324
10.3 使用melt將變量值規整為列名稱 326
10.3.1 實戰操作 326
10.3.2 原理解釋 327
10.3.3 擴展知識 327
10.4 同時堆疊多組變量 328
10.4.1 實戰操作 329
10.4.2 原理解釋 330
10.4.3 擴展知識 330
10.5 反轉已堆疊的數據 331
10.5.1 實戰操作 332
10.5.2 原理解釋 335
10.5.3 擴展知識 335
10.6 在groupby聚合之後取消堆疊 336
10.6.1 實戰操作 337
10.6.2 原理解釋 338
10.6.3 擴展知識 339
10.7 使用groupby聚合復制 .pivot_table方法的功能 340
10.7.1 實戰操作 340
10.7.2 原理解釋 342
10.7.3 擴展知識 342
10.8 重命名軸的級別以方便數據的重塑 344
10.8.1 實戰操作 344
10.8.2 原理解釋 348
10.8.3 擴展知識 349
10.9 對多個變量存儲為列名稱的情況進行規整 350
10.9.1 實戰操作 350
10.9.2 原理解釋 354
10.9.3 擴展知識 354
10.10 對多個變量存儲為單個列的情況進行規整 356
10.10.1 實戰操作 356
10.10.2 原理解釋 359
10.10.3 擴展知識 360
10.11 對多個值存儲在格中的情況進行規整 360
10.11.1 實戰操作 361
10.11.2 原理解釋 362
10.11.3 擴展知識 362
10.12 對變量存儲在列名稱和值中的情況進行規整 363
10.12.1 實戰操作 364
10.12.2 原理解釋 365
10.12.3 擴展知識 365
第11章組合Pandas對像 367
11.1 介紹 367
11.2 將新行追加到DataFrame 367
11.2.1 實戰操作 367
11.2.2 原理解釋 372
11.2.3 擴展知識 372
11.3 將多個DataFrame連接在一起 373
11.3.1 實戰操作 374
11.3.2 原理解釋 376
11.3.3 擴展知識 376
11.4 了解concat函數、.join和.merge方法之間的區別 377
11.4.1 實戰操作 378
11.4.2 原理解釋 383
11.4.3 擴展知識 384
11.5 連接到SQL數據庫 385
11.5.1 實戰操作 386
11.5.2 原理解釋 389
11.5.3 擴展知識 390
第12章時間序列分析 393
12.1 介紹 393
12.2 了解Python和Pandas日期工具之間的區別 393
12.2.1 實戰操作 394
12.2.2 原理解釋 398
12.3 智能分割時間序列 399
12.3.1 實戰操作 400
12.3.2 原理解釋 403
12.3.3 擴展知識 404
12.4 用時間數據過濾列 404
12.4.1 實戰操作 404
12.4.2 原理解釋 407
12.4.3 擴展知識 408
12.5 使用僅適用於DatetimeIndex的方法 408
12.5.1 實戰操作 409
12.5.2 原理解釋 414
12.5.3 擴展知識 415
12.6 計算每周犯罪數 415
12.6.1 實戰操作 416
12.6.2 原理解釋 418
12.6.3 擴展知識 418
12.7 分別彙總每周犯罪和交通事故 419
12.7.1 實戰操作 420
12.7.2 原理解釋 422
12.7.3 擴展知識 424
12.8 按星期和年份衡量犯罪情況 425
12.8.1 實戰操作 425
12.8.2 原理解釋 432
12.8.3 擴展知識 434
12.9 使用匿名函數進行分組 435
12.9.1 實戰操作 435
12.9.2 原理解釋 438
12.10 按Timestamp和其他列分組 438
12.10.1 實戰操作 439
12.10.2 原理解釋 442
12.10.3 擴展知識 443
第13章使用Matplotlib、Pandas和Seaborn進行可視化 445
13.1 介紹 445
13.2 Matplotlib入門 446
13.3 Matplotlib的面向對像指南 447
13.3.1 實戰操作 450
13.3.2 原理解釋 454
13.3.3 擴展知識 458
13.4 使用Matplotlib可視化數據 458
13.4.1 實戰操作 458
13.4.2 原理解釋 462
13.4.3 擴展知識 463
13.5 Pandas繪圖基礎 466
13.5.1 實戰操作 467
13.5.2 原理解釋 469
13.5.3 擴展知識 470
13.6 可視化航班數據集 471
13.6.1 實戰操作 471
13.6.2 原理解釋 482
13.7 使用堆積面積圖發現新興趨勢 484
13.7.1 實戰操作 484
13.7.2 原理解釋 488
13.8 了解Seaborn和Pandas之間的區別 489
13.8.1 實戰操作 489
13.8.2 原理解釋 495
13.9 使用Seaborn網格進行多變量分析 496
13.9.1 實戰操作 496
13.9.2 原理解釋 499
13.9.3 擴展知識 500
13.10 使用Seaborn在鑽石數據集中發現辛普森悖論 502
13.10.1 實戰操作 503
13.10.2 原理解釋 507
13.10.3 擴展知識 507
第14章調試和測試 509
14.1 轉換數據 509
14.1.1 實戰操作 509
14.1.2 原理解釋 513
14.2 測試.apply方法的性能 514
14.2.1 實戰操作 514
14.2.2 原理解釋 515
14.2.3 擴展知識 515
14.3 使用Dask、Pandarell和Swifter等提高 .apply 方法的性能 516
14.3.1 實戰操作 517
14.3.2 原理解釋 518
14.4 檢查代碼 519
14.4.1 實戰操作 520
14.4.2 原理解釋 523
14.4.3 擴展知識 523
14.5 在Jupyter中進行調試 523
14.5.1 實戰操作 524
14.5.2 原理解釋 526
14.5.3 擴展知識 526
14.6 管理數據的完整性 527
14.6.1 實戰操作 527
14.6.2 原理解釋 534
14.7 結合使用pytest和Pandas 535
14.7.1 實戰操作 535
14.7.2 原理解釋 539
14.7.3 擴展知識 539
14.8 使用Hypothesis庫生成測試 540
14.8.1 實戰操作 540
14.8.2 原理解釋 545

前言

Pandas是一個使用Python創建和處理結構化數據的庫。什麼是結構化？其實就是按行和列組織的表格數據，就像你在Excel電子表格或SQL數據庫中找到的那樣。數據科學家、分析師、程序員和工程師等都將利用它來提取所需的數據。
Pandas僅限於“小數據”（這裡說的“小”是指數據可以容納在單臺機器的內存中）。但是，其語法和操作已被其他項目采用或啟發了它們的應用，這些項目包括PySpark、Dask、Modin、cuDF、Baloo、Dexplo、Tabel、StaticFrame等。這些項目有不同的目標，但其中一些將擴展到大數據。因此，Pandas的功能使它逐漸成為與結構化數據進行交互的事實上的API，在這種情況下，了解Pandas的工作原理是很有必要也很有價值的。
本書作者之一Matt Harrison經營著一家負責企業培訓的公司，其主營業務是為想要提高Python和數據處理技能水平的大型公司提供人員培訓服務。因此，這些年來，他已經教會了成千上萬的人使用Python和Pandas。編寫本書的目的是幫助許多人更好地理解和應用Pandas，破解他們的迷惑。盡管Pandas優點不少，但也有一些難解或令人困惑的地方。本書將詳細介紹有關Pandas中的各種操作，指導讀者了解可能遇到的一些難點，以便能夠真正掌握和處理它們。
本書讀者
本書以操作秘笈的形式編寫，包含近100個秘笈，從非常簡單的應用到高級操作技巧都有涵蓋。所有秘笈力求以清晰、簡潔、現代的慣用Pandas代碼編寫。“實戰操作”部分詳細介紹各個秘笈的操作步驟，“原理解釋”部分對秘笈的每一步都進行非常詳細的闡釋。絕大多數秘笈還提供“擴展知識”部分，使讀者能夠舉一反三，發展出自己的操作技巧。本書包含大量的Pandas代碼，並提供了配套的源數據文件，以便讀者跟隨操作和對照學習。
概括而言，前7章中的秘笈比後面7章中的Pandas操作更簡單，並更著重於Pandas的基礎應用，而後7章的重點則是更高級的操作技巧，並且更多地以項目為導向。由於本書涵蓋的範圍和難度都較廣，因此對新手和日常用戶都有用。根據我們的經驗，即使是經常使用Pandas的人也可能並未掌握其很多編碼技巧。這也和Pandas本身的特性有關，因為幾乎總是有多種方法可以完成相同的操作。但是，如果讀者不熟悉Pandas的話，那麼采用的方法可能是效率的。對於同一個問題，兩個Pandas解決方案之間在性能上相差一個數量級，這種情況並不罕見。
閱讀本書需要掌握一定的Python基礎知識。我們假定讀者熟悉Python中所有常見的內置數據容器，如列表、集合、組。
內容介紹
本書共包含14章，具體內容如下。
第1章“Pandas基礎”，詳細介紹Pandas的兩個數據結構，即Series和DataFrame。此外，還解釋它們的組成部分和相關術語。數據的每一列必須僅具有一種數據類型，並且每種數據類型都被涵蓋。對此，本章詳細討論每種數據類型，並介紹如何使用方法鏈等操作。
第2章“DataFrame基本操作”，重點介紹數據分析人員在數據分析期間執行的關鍵和典型的操作。
第3章“創建和保留DataFrame”，討論提取數據和創建DataFrame的各種方法，包括讀取CSV文件、Excel電子表格、JSON格式數據和HTML表格等。
第4章“開始數據分析”，介紹在讀入數據之後應該開始執行的操作，例如通過更改數據類型減少內存使用量、從中選擇小、通過排序選擇每個組中的值和計算追蹤止損單價格等，這些都是比較實用的技巧。
第5章“探索性數據分析”，介紹用於比較數字數據和分類數據的基本分析技術。本章還演示常見的可視化技術。
第6章“選擇數據子集”，介紹選擇數據的不同子集的多種方法，包括選擇Series數據、選擇DataFrame行、同時選擇DataFrame行和列、使用整數和標簽選擇數據、按字典序切片等，這些操作包含一定的技巧，粗心的用戶可能會感到困惑。
第7章“過濾行”，介紹查詢數據以基於布爾條件選擇數據子集的過程，包括構造多個布爾條件、用布爾數組過濾、使用查詢方法提高布爾索引的可讀性，以及使用布爾值、整數位置和標簽進行選擇等。
第8章“對齊索引”，主要討論非常重要但卻經常被誤解的索引對像。錯誤使用索引會導致許多錯誤的結果，本章中的秘笈演示如何正確使用索引來提供有力的結果。
第9章“分組以進行聚合、過濾和轉換”介紹強大的分組功能，這些功能在數據分析期間總是必需的。你可以構建自定義函數以應用於分組。
第10章“將數據重組為規整形式”，闡釋規整數據的定義及其重要性，並演示如何將許多不同形式的雜亂數據集轉換為規整數據集。
第11章“組合Pandas對像”，介紹許多可用於垂直或水平組合DataFrame和Series的方法，包括將新行追加到DataFrame、將多個DataFrame連接在一起以及連接到SQL數據庫等操作。此外，還詳細闡釋concat、join和merge方法之間的區別。
第12章“時間序列分析”，討論時間序列的強大功能，它使得分析人員可以按任何時間維度進行數據剖析。
第13章“使用Matplotlib、Pandas和Seaborn進行可視化”，本章主要介紹Matplotlib庫，該庫負責Pandas中的所有可視化繪圖。此外，還介紹Pandas繪圖方法以及Seaborn庫，Seaborn庫能夠產生Pandas中無法直接獲得的美觀的可視化效果。
第14章“調試和測試”，探討測試DataFrame和Pandas代碼的機制。如果你打算在生產環境中部署Pandas，那麼本章將幫助你建立對代碼的信心。本章介紹的具體操作包括轉換數據、測試.apply方法的性能、使用Dask、Pandarell和Swifter等提高.apply方法的性能、檢查代碼、在Jupyter中進行調試、管理數據的完整性、結合使用pytest和Pandas以及使用Hypothesis庫生成測試等。
充分利用本書
要充分利用本書，你也許需要執行以下操作。
首先，也是重要的，你應該下載本書所有代碼，這些代碼都被存儲在Jupyter Notebook中。閱讀每個秘笈時，請在Notebook中運行代碼的每個步驟。在運行代碼時，請確保自己進行更多的探索。
其次，在瀏覽器中打開Pandas官方說明文檔，其網址如下。

http://pandas.pydata.org/pandas-docs/stable/

Pandas說明文檔是一個很好的資源，其中包含超過1000頁的材料。在文檔中有大多數操作Pandas的示例，通常可以從See also（另請參閱）部分中直接鏈接它們。當然，它的缺陷是，雖然涵蓋了大多數基礎操作，但示例采用的卻是虛擬數據，這些虛擬數據並不能反映你在分析現實世界中的數據集時可能遇到的情況。
本書需要的軟件包
Pandas是用於Python編程語言的第三方程序包，在出版本書時，它的版本為1.0.1（目前，Python的版本為3.8）。本書中的示例在Python 3.6及更高版本中都應該可以正常工作。
你可以通過多種方式在計算機上安裝Pandas和本書提到的其餘庫，但是簡單的方法是安裝Anaconda發行版。該版本由Anaconda創建，將所有流行的用於科學計算的庫打包到一個可下載的文件中，該文件可在Windows、macOS和Linux上使用。你可以訪問以下頁面以獲取Anaconda發行版。

https://www.anaconda.com/distribution

除了所有科學計算庫外，Anaconda發行版還附帶Jupyter Notebook，這是一個基於瀏覽器的程序，可使用Python和其他多種語言進行開發。本書的所有秘笈都是在Jupyter Notebook內部開發的，所有代碼都已提供。
當然，不使用Anaconda發行版也可以安裝本書所需的所有庫。感興趣的讀者可訪問Pandas安裝頁面，其網址如下。

http://pandas.pydata.org/pandas-docs/stable/install.html
下載示例代碼文件
讀者可以從www.packtpub.com中下載本書的示例代碼文件。具體步驟如下。
（1）登錄或注冊www.packtpub.com。
（2）在Search（搜索）框中輸入本書名稱Pandas 1.x Cookbook的一部分（不分區大小寫，並且不必輸入完全），即可看到本書出現在推薦下拉菜單中，如圖P-1所示。

圖P-1 搜索書名
（3）選擇Pandas 1.x Cookbook一書，並在其詳細信息頁面中單擊Download code from GitHub（從GitHub上下載代碼）按鈕，如圖P-2所示。需要說明的是，你需要登錄此網站纔能看到該下載按鈕（注冊賬號是免費的）。

圖P-2 選擇本書書名
本書代碼包在GitHub上的托管地址如下。

https://github.com/PacktPublishing/Pandas-Cookbook-Second-Edition

在下載頁面上，單擊Code（代碼）按鈕，然後選擇Download ZIP即可下載本書代碼包，如圖P-3所示。
如果代碼有更新，則也會在現有GitHub存儲庫上更新。
下載文件後，請確保使用版本軟件解壓或析取文件夾。
? WinRAR/7-Zip（Windows繫統）。
? Zipeg/iZip/UnRarX（Mac繫統）。
? 7-Zip/PeaZip（Linux繫統）。

圖P-3 下載本書代碼包
運行Jupyter Notebook
要跟隨本書秘笈進行操作，建議啟動並運行Jupyter Notebook，以便讀者可以在閱讀秘笈的同時運行代碼。與僅閱讀本書相比，在計算機上練習操作可以使讀者自己進行探索並能夠更深入地了解與本書秘笈相關的更多內容。
假設你已經在計算機上安裝了Anaconda發行版，則可以從Anaconda圖形用戶界面或命令行中啟動Jupyter Notebook。兩個選項任選其一，我們強烈建議你使用命令行。如果你打算使用Python做很多事情，那麼需要從這一刻就開始適應命令行。
安裝Anaconda之後，打開命令提示符（在Windows的搜索欄中輸入cmd，或在Mac或Linux上打開終端），然後輸入以下命令。

$ jupyter-notebook

你不必從主目錄而是可以從任何位置處運行上述命令，瀏覽器中的內容將反映該位置。
盡管現在已經啟動了Jupyter Notebook程序，但是實際上我們還沒有啟動可以在 Python中進行開發的單個Notebook。對此，你可以單擊頁面右側的New（新建）按鈕，這將下拉列出所有可能使用的內核的列表。如果你剛剛下載了Anaconda，則隻有一個可用的內核（Python 3）。選擇Python 3內核後，將在瀏覽器中打開一個新選項卡，你可以在其中開始編寫Python代碼。
當然，你也可以打開以前創建的Notebook，而不用開始一個新的。為此，可在Jupyter Notebook瀏覽器主頁提供的文件繫統中導航，然後選擇要打開的Notebook。所有Jupyter Notebook文件均以.ipynb作為擴展名。
或者，你也可以使用雲提供商的Notebook環境。Google和Microsoft都提供了已預裝Pandas的免費Notebook環境。
下載彩色圖像
我們還提供了一個PDF文件，其中包含本書中使用的屏幕截圖/圖表的彩色圖像。你可以通過以下網址下載。

https://static.packt-cdn.com/downloads/9781839213106_ColorImages.pdf
本書約定
本書中使用了許多文本約定。
（1）有關代碼塊的設置形式如下。

import pandas as pd
import numpy as np
movies = pd.read_csv("data/movie.csv")
movies

（2）當要強調代碼塊的特定部分時，相關行或項目以粗體顯示。示例如下。

import pandas as pd
import numpy as np
movies = pd.read_csv("data/movie.csv")
movies

（3）任何命令行輸入或輸出都采用如下所示的粗體代碼形式。

>>> employee = pd.read_csv('data/employee.csv')
>>> max_dept_salary = employee.groupby('DEPARTMENT')['BASE_SALARY'].max()

（4）術語或重要單詞采用中英文對照形式，在括號內保留其英文原文。示例如下。

可以在單個Figure中繪制折線圖（line plot）、散點圖（scatter plot）和條形圖（bar plot）。散點圖是需要為x和y值指定列的圖形。

（5）對於界面詞彙則保留其英文原文，在後面使用括號添加其中文翻譯。示例如下。

可以看到，前兩個目的地機場都在夏威夷，即HNL（火奴魯魯國際機場）和OGG（卡胡魯伊機場），考慮到美國的地理情況，這一點不足為奇。

（6）本書使用了以下兩個圖標。
表示警告或重要的注意事項。
表示提示或小技巧。
每個秘笈的假設
應該假定在每個秘笈的開頭，將NumPy、Matplotlib和Pandas都導入了名稱空間。為了將繪圖直接嵌入Notebook中，還必須運行魔術命令%matplotlib inline。
此外，所有數據都被存儲在data目錄中，並且通常被存儲為CSV文件，以便可以使用read_csv函數直接讀取。

>>> %matplotlib inline
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> import pandas as pd
>>> my_dataframe = pd.read_csv('data/dataset_name.csv')

數據集說明
本書共使用了大約20個數據集。在完成秘笈中的操作步驟時，了解每個數據集的背景信息可能會非常有幫助。有關每個數據集的詳細說明，請訪問以下網址中提供的dataset_description Jupyter Notebook。

https://github.com/PacktPublishing/Pandas-Cookbook-Second-Edition

每個數據集都有一個列的列表，並提供了每一列的信息以及如何獲取數據的注釋。
編寫體例
本書大多數章節是采用秘笈形式編寫的，每節就是一個秘笈，每個秘笈中又分別包括“實戰操作”“原理解釋”“擴展知識”小節，使你既能學習Pandas實用操作，又能了解其相關的知識和原理，從而真正掌握和領會Pandas應用技巧。

商品搜索

商品分类

【醫學】

【各大出版社】