[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

  •  文化

  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

     保健/养生
     体育/运动
     手工/DIY
     休闲/爱好
     英文原版书
     港台图书
     研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学
  • Pandas1.x實例精解
    該商品所屬分類:計算機/網絡 -> 數據庫
    【市場價】
    1755-2544
    【優惠價】
    1097-1590
    【作者】 美馬特·哈裡森 
    【所屬類別】 圖書  計算機/網絡  數據庫  數據庫理論 
    【出版社】清華大學出版社 
    【ISBN】9787302609605
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302609605
    作者:[美]馬特·哈裡森

    出版社:清華大學出版社
    出版時間:2022年06月 

        
        
    "

    產品特色

    編輯推薦

    本書以操作秘笈的形式編寫,包含近100個秘笈,從非常簡單的應用到高級操作技巧都有涵蓋。所有秘笈力求以清晰、簡潔、現代的慣用Pandas代碼編寫。“實戰操作”部分詳細介紹各個秘笈的操作步驟,“原理解釋”部分對秘笈的每一步都進行非常詳細的闡釋。絕大多數秘笈還提供“擴展知識”部分,使讀者能夠舉一反三,發展出自己的操作技巧。本書包含大量的Pandas代碼,並提供了配套的源數據文件,以便讀者跟隨操作和對照學習。

     
    內容簡介

    本書詳細闡述了與Pandas相關的基本解決方案,主要包括Pandas基礎,DataFrame基本操作,創建和保留DataFrame,開始數據分析,探索性數據分析,選擇數據子集,過濾行,對齊索引,分組以進行聚合、過濾和轉換,將數據重組為規整形式,組合Pandas對像,時間序列分析,使用Matplotlib、Pandas和Seaborn進行可視化,調試和測試等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學用書和參考手冊。

    目錄
    第1章 Pandas基礎 1
    1.1 導入Pandas 1
    1.2 介紹Pandas 1
    1.3 關於Pandas DataFrame 2
    1.3.1 實戰操作 2
    1.3.2 原理解釋 3
    1.4 了解DataFrame屬性 4
    1.4.1 實戰操作 4
    1.4.2 原理解釋 5
    1.4.3 擴展知識 6
    1.5 了解數據類型 6
    1.5.1 實戰操作 7
    1.5.2 原理解釋 8
    1.5.3 擴展知識 9

    第1章  Pandas基礎 1
    1.1  導入Pandas 1
    1.2  介紹Pandas 1
    1.3  關於Pandas DataFrame 2
    1.3.1  實戰操作 2
    1.3.2  原理解釋 3
    1.4  了解DataFrame屬性 4
    1.4.1  實戰操作 4
    1.4.2  原理解釋 5
    1.4.3  擴展知識 6
    1.5  了解數據類型 6
    1.5.1  實戰操作 7
    1.5.2  原理解釋 8
    1.5.3  擴展知識 9
    1.6  選擇列 9
    1.6.1  實戰操作 10
    1.6.2  原理解釋 13
    1.6.3  擴展知識 13
    1.7  調用Series方法 14
    1.7.1  實戰操作 14
    1.7.2  原理解釋 19
    1.7.3  擴展知識 19
    1.8  了解Series的操作 20
    1.8.1  實戰操作 21
    1.8.2  原理解釋 23
    1.8.3  擴展知識 23
    1.9  使用Series方法鏈 26
    1.9.1  實戰操作 26
    1.9.2  原理解釋 27
    1.9.3  擴展知識 28
    1.10  重命名列名 31
    1.10.1  實戰操作 31
    1.10.2  原理解釋 31
    1.10.3  擴展知識 32
    1.11  創建和刪除列 34
    1.11.1  實戰操作 34
    1.11.2  原理解釋 40
    1.11.3  擴展知識 40
    第2章  DataFrame基本操作 43
    2.1  介紹 43
    2.2  選擇多個DataFrame列 43
    2.2.1  實戰操作 43
    2.2.2  原理解釋 44
    2.2.3  擴展知識 45
    2.3  使用方法選擇列 45
    2.3.1  實戰操作 46
    2.3.2  原理解釋 48
    2.3.3  擴展知識 48
    2.4  排序列名稱 49
    2.4.1  實戰操作 50
    2.4.2  原理解釋 52
    2.4.3  擴展知識 52
    2.5  統計DataFrame摘要信息 52
    2.5.1  實戰操作 53
    2.5.2  原理解釋 55
    2.5.3  擴展知識 55
    2.6  使用DataFrame方法鏈 56
    2.6.1  實戰操作 56
    2.6.2  原理解釋 57
    2.6.3  擴展知識 57
    2.7  了解DataFrame的操作 58
    2.7.1  實戰操作 59
    2.7.2  原理解釋 62
    2.7.3  擴展知識 63
    2.8  比較缺失值 63
    2.8.1  做好準備 63
    2.8.2  實戰操作 64
    2.8.3  原理解釋 66
    2.8.4  擴展知識 66
    2.9  轉置DataFrame操作的方向 67
    2.9.1  實戰操作 67
    2.9.2  原理解釋 69
    2.9.3  擴展知識 69
    2.10  確定大學校園的多樣性 70
    2.10.1  實戰操作 70
    2.10.2  原理解釋 74
    2.10.3  擴展知識 74
    第3章  創建和保留DataFrame 77
    3.1  介紹 77
    3.2  從頭開始創建DataFrame 77
    3.2.1  實戰操作 77
    3.2.2  原理解釋 78
    3.2.3  擴展知識 78
    3.3  編寫CSV 80
    3.3.1  實戰操作 80
    3.3.2  擴展知識 81
    3.4  讀取大型CSV文件 82
    3.4.1  實戰操作 82
    3.4.2  原理解釋 88
    3.4.3  擴展知識 89
    3.5  使用Excel文件 90
    3.5.1  實戰操作 90
    3.5.2  原理解釋 91
    3.5.3  擴展知識 91
    3.6  使用ZIP文件 92
    3.6.1  實戰操作 92
    3.6.2  原理解釋 95
    3.6.3  擴展知識 95
    3.7  與數據庫協同工作 95
    3.7.1  實戰操作 95
    3.7.2  原理解釋 97
    3.8  讀取JSON 97
    3.8.1  實戰操作 97
    3.8.2  原理解釋 100
    3.8.3  擴展知識 100
    3.9  讀取HTML表格 100
    3.9.1  實戰操作 101
    3.9.2  原理解釋 105
    3.9.3  擴展知識 106
    第4章  開始數據分析 107
    4.1  介紹 107
    4.2  開發數據分析例程 107
    4.2.1  實戰操作 108
    4.2.2  原理解釋 110
    4.2.3  擴展知識 110
    4.3  數據字典 111
    4.4  通過更改數據類型減少內存使用量 112
    4.4.1  實戰操作 112
    4.4.2  原理解釋 115
    4.4.3  擴展知識 116
    4.5  從中選擇小 117
    4.5.1  實戰操作 118
    4.5.2  原理解釋 119
    4.5.3  擴展知識 119
    4.6  通過排序選擇每組中的值 119
    4.6.1  實戰操作 119
    4.6.2  原理解釋 121
    4.6.3  擴展知識 122
    4.7  使用sort_values復制nlargest 123
    4.7.1  實戰操作 123
    4.7.2  原理解釋 125
    4.8  計算追蹤止損單價格 126
    4.8.1  實戰操作 126
    4.8.2  原理解釋 128
    4.8.3  擴展知識 128
    第5章  探索性數據分析 129
    5.1  介紹 129
    5.2  摘要統計 129
    5.2.1  實戰操作 130
    5.2.2  原理解釋 132
    5.2.3  擴展知識 132
    5.3  查看列類型 132
    5.3.1  實戰操作 132
    5.3.2  原理解釋 133
    5.3.3  擴展知識 134
    5.4  分類數據 137
    5.4.1  實戰操作 137
    5.4.2  原理解釋 140
    5.4.3  擴展知識 141
    5.5  連續數據 145
    5.5.1  實戰操作 145
    5.5.2  原理解釋 148
    5.5.3  擴展知識 149
    5.6  跨越分類比較連續值 151
    5.6.1  實戰操作 151
    5.6.2  原理解釋 153
    5.6.3  擴展知識 153
    5.7  比較兩個連續列 157
    5.7.1  實戰操作 157
    5.7.2  原理解釋 162
    5.7.3  擴展知識 163
    5.8  使用分類值比較分類值 165
    5.8.1  實戰操作 165
    5.8.2  原理解釋 171
    5.9  使用Pandas分析庫 171
    5.9.1  實戰操作 172
    5.9.2  原理解釋 173
    第6章  選擇數據子集 175
    6.1  介紹 175
    6.2  選擇Series數據 175
    6.2.1  實戰操作 176
    6.2.2  原理解釋 179
    6.2.3  擴展知識 180
    6.3  選擇DataFrame行 182
    6.3.1  實戰操作 182
    6.3.2  原理解釋 184
    6.3.3  擴展知識 185
    6.4  同時選擇DataFrame行和列 185
    6.4.1  實戰操作 185
    6.4.2  原理解釋 187
    6.4.3  擴展知識 188
    6.5  使用整數和標簽選擇數據 188
    6.5.1  實戰操作 188
    6.5.2  原理解釋 189
    6.5.3  擴展知識 189
    6.6  按字典序切片 190
    6.6.1  實戰操作 190
    6.6.2  原理解釋 192
    6.6.3  擴展知識 192
    第7章  過濾行 193
    7.1  介紹 193
    7.2  計算布爾統計信息 193
    7.2.1  實戰操作 194
    7.2.2  原理解釋 195
    7.2.3  擴展知識 196
    7.3  構造多個布爾條件 196
    7.3.1  實戰操作 197
    7.3.2  原理解釋 197
    7.3.3  擴展知識 198
    7.4  用布爾數組過濾 199
    7.4.1  實戰操作 199
    7.4.2  原理解釋 201
    7.4.3  擴展知識 202
    7.5  比較行過濾和索引過濾 202
    7.5.1  實戰操作 203
    7.5.2  原理解釋 203
    7.5.3  擴展知識 204
    7.6  使用索引和排序索引進行選擇 205
    7.6.1  實戰操作 205
    7.6.2  原理解釋 207
    7.6.3  擴展知識 207
    7.7  轉換SQL WHERE子句 208
    7.7.1  實戰操作 209
    7.7.2  原理解釋 210
    7.7.3  擴展知識 211
    7.8  使用查詢方法提高布爾索引的可讀性 212
    7.8.1  實戰操作 212
    7.8.2  原理解釋 213
    7.8.3  擴展知識 213
    7.9  使用.where方法保留Series大小 214
    7.9.1  實戰操作 214
    7.9.2  原理解釋 218
    7.9.3  擴展知識 218
    7.10  屏蔽DataFrame行 218
    7.10.1  實戰操作 218
    7.10.2  原理解釋 220
    7.10.3  擴展知識 221
    7.11  使用布爾值、整數位置和標簽進行選擇 221
    7.11.1  實戰操作 221
    7.11.2  原理解釋 224
    第8章  對齊索引 225
    8.1  介紹 225
    8.2  檢查Index對像 225
    8.2.1  實戰操作 225
    8.2.2  原理解釋 227
    8.2.3  擴展知識 227
    8.3  生成笛卡兒積 228
    8.3.1  實戰操作 228
    8.3.2  原理解釋 229
    8.3.3  擴展知識 229
    8.4  了解索引暴增現像 231
    8.4.1  實戰操作 231
    8.4.2  原理解釋 233
    8.4.3  擴展知識 233
    8.5  給不相等的索引填充值 234
    8.5.1  實戰操作 234
    8.5.2  原理解釋 236
    8.5.3  擴展知識 237
    8.6  添加來自不同DataFrames中的列 239
    8.6.1  實戰操作 239
    8.6.2  原理解釋 242
    8.6.3  擴展知識 242
    8.7  突出顯示每列的值 244
    8.7.1  實戰操作 245
    8.7.2  原理解釋 250
    8.7.3  擴展知識 251
    8.8  使用方法鏈復制.idxmax 252
    8.8.1  實戰操作 252
    8.8.2  原理解釋 256
    8.8.3  擴展知識 257
    8.9  查找常見的列的值 258
    8.9.1  實戰操作 258
    8.9.2  原理解釋 259
    8.9.3  擴展知識 259
    第9章  分組以進行聚合、過濾和轉換 261
    9.1  介紹 261
    9.2  定義聚合 262
    9.2.1  實戰操作 262
    9.2.2  原理解釋 264
    9.2.3  擴展知識 265
    9.3  使用多個列和函數進行分組和聚合 265
    9.3.1  實戰操作 266
    9.3.2  原理解釋 268
    9.3.3  擴展知識 269
    9.4  分組後刪除多重索引 271
    9.4.1  實戰操作 271
    9.4.2  原理解釋 274
    9.4.3  擴展知識 274
    9.5  使用自定義聚合函數進行分組 275
    9.5.1  實戰操作 275
    9.5.2  原理解釋 277
    9.5.3  擴展知識 277
    9.6  使用*args和**kwargs自定義聚合函數 279
    9.6.1  實戰操作 279
    9.6.2  原理解釋 281
    9.6.3  擴展知識 281
    9.7  檢查groupby對像 282
    9.7.1  實戰操作 282
    9.7.2  原理解釋 285
    9.7.3  擴展知識 286
    9.8  篩選少數族裔占多數的州 286
    9.8.1  實戰操作 287
    9.8.2  原理解釋 288
    9.8.3  擴展知識 288
    9.9  通過減肥賭注做出改變 289
    9.9.1  實戰操作 289
    9.9.2  原理解釋 294
    9.9.3  擴展知識 295
    9.10  計算每個州的SAT加權平均成績 296
    9.10.1  實戰操作 297
    9.10.2  原理解釋 299
    9.10.3  擴展知識 300
    9.11  按連續變量分組 301
    9.11.1  實戰操作 302
    9.11.2  原理解釋 303
    9.11.3  擴展知識 304
    9.12  計算城市之間的航班總數 305
    9.12.1  實戰操作 305
    9.12.2  原理解釋 308
    9.12.3  擴展知識 309
    9.13  尋找長的準點航班連續記錄 310
    9.13.1  實戰操作 310
    9.13.2  原理解釋 314
    9.13.3  擴展知識 316
    第10章  將數據重組為規整形式 319
    10.1  介紹 319
    10.2  使用stack將變量值規整為列名稱 321
    10.2.1  實戰操作 322
    10.2.2  原理解釋 324
    10.2.3  擴展知識 324
    10.3  使用melt將變量值規整為列名稱 326
    10.3.1  實戰操作 326
    10.3.2  原理解釋 327
    10.3.3  擴展知識 327
    10.4  同時堆疊多組變量 328
    10.4.1  實戰操作 329
    10.4.2  原理解釋 330
    10.4.3  擴展知識 330
    10.5  反轉已堆疊的數據 331
    10.5.1  實戰操作 332
    10.5.2  原理解釋 335
    10.5.3  擴展知識 335
    10.6  在groupby聚合之後取消堆疊 336
    10.6.1  實戰操作 337
    10.6.2  原理解釋 338
    10.6.3  擴展知識 339
    10.7  使用groupby聚合復制 .pivot_table方法的功能 340
    10.7.1  實戰操作 340
    10.7.2  原理解釋 342
    10.7.3  擴展知識 342
    10.8  重命名軸的級別以方便數據的重塑 344
    10.8.1  實戰操作 344
    10.8.2  原理解釋 348
    10.8.3  擴展知識 349
    10.9  對多個變量存儲為列名稱的情況進行規整 350
    10.9.1  實戰操作 350
    10.9.2  原理解釋 354
    10.9.3  擴展知識 354
    10.10  對多個變量存儲為單個列的情況進行規整 356
    10.10.1  實戰操作 356
    10.10.2  原理解釋 359
    10.10.3  擴展知識 360
    10.11  對多個值存儲在格中的情況進行規整 360
    10.11.1  實戰操作 361
    10.11.2  原理解釋 362
    10.11.3  擴展知識 362
    10.12  對變量存儲在列名稱和值中的情況進行規整 363
    10.12.1  實戰操作 364
    10.12.2  原理解釋 365
    10.12.3  擴展知識 365
    第11章  組合Pandas對像 367
    11.1  介紹 367
    11.2  將新行追加到DataFrame 367
    11.2.1  實戰操作 367
    11.2.2  原理解釋 372
    11.2.3  擴展知識 372
    11.3  將多個DataFrame連接在一起 373
    11.3.1  實戰操作 374
    11.3.2  原理解釋 376
    11.3.3  擴展知識 376
    11.4  了解concat函數、.join和.merge方法之間的區別 377
    11.4.1  實戰操作 378
    11.4.2  原理解釋 383
    11.4.3  擴展知識 384
    11.5  連接到SQL數據庫 385
    11.5.1  實戰操作 386
    11.5.2  原理解釋 389
    11.5.3  擴展知識 390
    第12章  時間序列分析 393
    12.1  介紹 393
    12.2  了解Python和Pandas日期工具之間的區別 393
    12.2.1  實戰操作 394
    12.2.2  原理解釋 398
    12.3  智能分割時間序列 399
    12.3.1  實戰操作 400
    12.3.2  原理解釋 403
    12.3.3  擴展知識 404
    12.4  用時間數據過濾列 404
    12.4.1  實戰操作 404
    12.4.2  原理解釋 407
    12.4.3  擴展知識 408
    12.5  使用僅適用於DatetimeIndex的方法 408
    12.5.1  實戰操作 409
    12.5.2  原理解釋 414
    12.5.3  擴展知識 415
    12.6  計算每周犯罪數 415
    12.6.1  實戰操作 416
    12.6.2  原理解釋 418
    12.6.3  擴展知識 418
    12.7  分別彙總每周犯罪和交通事故 419
    12.7.1  實戰操作 420
    12.7.2  原理解釋 422
    12.7.3  擴展知識 424
    12.8  按星期和年份衡量犯罪情況 425
    12.8.1  實戰操作 425
    12.8.2  原理解釋 432
    12.8.3  擴展知識 434
    12.9  使用匿名函數進行分組 435
    12.9.1  實戰操作 435
    12.9.2  原理解釋 438
    12.10  按Timestamp和其他列分組 438
    12.10.1  實戰操作 439
    12.10.2  原理解釋 442
    12.10.3  擴展知識 443
    第13章  使用Matplotlib、Pandas和Seaborn進行可視化 445
    13.1  介紹 445
    13.2  Matplotlib入門 446
    13.3  Matplotlib的面向對像指南 447
    13.3.1  實戰操作 450
    13.3.2  原理解釋 454
    13.3.3  擴展知識 458
    13.4  使用Matplotlib可視化數據 458
    13.4.1  實戰操作 458
    13.4.2  原理解釋 462
    13.4.3  擴展知識 463
    13.5  Pandas繪圖基礎 466
    13.5.1  實戰操作 467
    13.5.2  原理解釋 469
    13.5.3  擴展知識 470
    13.6  可視化航班數據集 471
    13.6.1  實戰操作 471
    13.6.2  原理解釋 482
    13.7  使用堆積面積圖發現新興趨勢 484
    13.7.1  實戰操作 484
    13.7.2  原理解釋 488
    13.8  了解Seaborn和Pandas之間的區別 489
    13.8.1  實戰操作 489
    13.8.2  原理解釋 495
    13.9  使用Seaborn網格進行多變量分析 496
    13.9.1  實戰操作 496
    13.9.2  原理解釋 499
    13.9.3  擴展知識 500
    13.10  使用Seaborn在鑽石數據集中發現辛普森悖論 502
    13.10.1  實戰操作 503
    13.10.2  原理解釋 507
    13.10.3  擴展知識 507
    第14章  調試和測試 509
    14.1  轉換數據 509
    14.1.1  實戰操作 509
    14.1.2  原理解釋 513
    14.2  測試.apply方法的性能 514
    14.2.1  實戰操作 514
    14.2.2  原理解釋 515
    14.2.3  擴展知識 515
    14.3  使用Dask、Pandarell和Swifter等提高 .apply 方法的性能 516
    14.3.1  實戰操作 517
    14.3.2  原理解釋 518
    14.4  檢查代碼 519
    14.4.1  實戰操作 520
    14.4.2  原理解釋 523
    14.4.3  擴展知識 523
    14.5  在Jupyter中進行調試 523
    14.5.1  實戰操作 524
    14.5.2  原理解釋 526
    14.5.3  擴展知識 526
    14.6  管理數據的完整性 527
    14.6.1  實戰操作 527
    14.6.2  原理解釋 534
    14.7  結合使用pytest和Pandas 535
    14.7.1  實戰操作 535
    14.7.2  原理解釋 539
    14.7.3  擴展知識 539
    14.8  使用Hypothesis庫生成測試 540
    14.8.1  實戰操作 540
    14.8.2  原理解釋 545

    前言
    Pandas是一個使用Python創建和處理結構化數據的庫。什麼是結構化?其實就是按行和列組織的表格數據,就像你在Excel電子表格或SQL數據庫中找到的那樣。數據科學家、分析師、程序員和工程師等都將利用它來提取所需的數據。
    Pandas僅限於“小數據”(這裡說的“小”是指數據可以容納在單臺機器的內存中)。但是,其語法和操作已被其他項目采用或啟發了它們的應用,這些項目包括PySpark、Dask、Modin、cuDF、Baloo、Dexplo、Tabel、StaticFrame等。這些項目有不同的目標,但其中一些將擴展到大數據。因此,Pandas的功能使它逐漸成為與結構化數據進行交互的事實上的API,在這種情況下,了解Pandas的工作原理是很有必要也很有價值的。
    本書作者之一Matt Harrison經營著一家負責企業培訓的公司,其主營業務是為想要提高Python和數據處理技能水平的大型公司提供人員培訓服務。因此,這些年來,他已經教會了成千上萬的人使用Python和Pandas。編寫本書的目的是幫助許多人更好地理解和應 用Pandas,破解他們的迷惑。盡管Pandas優點不少,但也有一些難解或令人困惑的地方。本書將詳細介紹有關Pandas中的各種操作,指導讀者了解可能遇到的一些難點,以便能夠真正掌握和處理它們。
    本書讀者

    Pandas是一個使用Python創建和處理結構化數據的庫。什麼是結構化?其實就是按行和列組織的表格數據,就像你在Excel電子表格或SQL數據庫中找到的那樣。數據科學家、分析師、程序員和工程師等都將利用它來提取所需的數據。
    Pandas僅限於“小數據”(這裡說的“小”是指數據可以容納在單臺機器的內存中)。但是,其語法和操作已被其他項目采用或啟發了它們的應用,這些項目包括PySpark、Dask、Modin、cuDF、Baloo、Dexplo、Tabel、StaticFrame等。這些項目有不同的目標,但其中一些將擴展到大數據。因此,Pandas的功能使它逐漸成為與結構化數據進行交互的事實上的API,在這種情況下,了解Pandas的工作原理是很有必要也很有價值的。
    本書作者之一Matt Harrison經營著一家負責企業培訓的公司,其主營業務是為想要提高Python和數據處理技能水平的大型公司提供人員培訓服務。因此,這些年來,他已經教會了成千上萬的人使用Python和Pandas。編寫本書的目的是幫助許多人更好地理解和應 用Pandas,破解他們的迷惑。盡管Pandas優點不少,但也有一些難解或令人困惑的地方。本書將詳細介紹有關Pandas中的各種操作,指導讀者了解可能遇到的一些難點,以便能夠真正掌握和處理它們。
    本書讀者
    本書以操作秘笈的形式編寫,包含近100個秘笈,從非常簡單的應用到高級操作技巧都有涵蓋。所有秘笈力求以清晰、簡潔、現代的慣用Pandas代碼編寫。“實戰操作”部分詳細介紹各個秘笈的操作步驟,“原理解釋”部分對秘笈的每一步都進行非常詳細的闡釋。絕大多數秘笈還提供“擴展知識”部分,使讀者能夠舉一反三,發展出自己的操作技巧。本書包含大量的Pandas代碼,並提供了配套的源數據文件,以便讀者跟隨操作和對照學習。
    概括而言,前7章中的秘笈比後面7章中的Pandas操作更簡單,並更著重於Pandas的基礎應用,而後7章的重點則是更高級的操作技巧,並且更多地以項目為導向。由於本書涵蓋的範圍和難度都較廣,因此對新手和日常用戶都有用。根據我們的經驗,即使是經常使用Pandas的人也可能並未掌握其很多編碼技巧。這也和Pandas本身的特性有關,因為幾乎總是有多種方法可以完成相同的操作。但是,如果讀者不熟悉Pandas的話,那麼采用的方法可能是效率的。對於同一個問題,兩個Pandas解決方案之間在性能上相差一個數量級,這種情況並不罕見。
    閱讀本書需要掌握一定的Python基礎知識。我們假定讀者熟悉Python中所有常見的內置數據容器,如列表、集合、組。
    內容介紹
    本書共包含14章,具體內容如下。
    第1章“Pandas基礎”,詳細介紹Pandas的兩個數據結構,即Series和DataFrame。此外,還解釋它們的組成部分和相關術語。數據的每一列必須僅具有一種數據類型,並且每種數據類型都被涵蓋。對此,本章詳細討論每種數據類型,並介紹如何使用方法鏈等操作。
    第2章“DataFrame基本操作”,重點介紹數據分析人員在數據分析期間執行的關鍵和典型的操作。
    第3章“創建和保留DataFrame”,討論提取數據和創建DataFrame的各種方法,包括讀取CSV文件、Excel電子表格、JSON格式數據和HTML表格等。
    第4章“開始數據分析”,介紹在讀入數據之後應該開始執行的操作,例如通過更改數據類型減少內存使用量、從中選擇小、通過排序選擇每個組中的值和計算追蹤止損單價格等,這些都是比較實用的技巧。
    第5章“探索性數據分析”,介紹用於比較數字數據和分類數據的基本分析技術。本章還演示常見的可視化技術。
    第6章“選擇數據子集”,介紹選擇數據的不同子集的多種方法,包括選擇Series數據、選擇DataFrame行、同時選擇DataFrame行和列、使用整數和標簽選擇數據、按字典序切片等,這些操作包含一定的技巧,粗心的用戶可能會感到困惑。
    第7章“過濾行”,介紹查詢數據以基於布爾條件選擇數據子集的過程,包括構造多個布爾條件、用布爾數組過濾、使用查詢方法提高布爾索引的可讀性,以及使用布爾值、整數位置和標簽進行選擇等。
    第8章“對齊索引”,主要討論非常重要但卻經常被誤解的索引對像。錯誤使用索引會導致許多錯誤的結果,本章中的秘笈演示如何正確使用索引來提供有力的結果。
    第9章“分組以進行聚合、過濾和轉換”介紹強大的分組功能,這些功能在數據分析期間總是必需的。你可以構建自定義函數以應用於分組。
    第10章“將數據重組為規整形式”,闡釋規整數據的定義及其重要性,並演示如何將許多不同形式的雜亂數據集轉換為規整數據集。
    第11章“組合Pandas對像”,介紹許多可用於垂直或水平組合DataFrame和Series的方法,包括將新行追加到DataFrame、將多個DataFrame連接在一起以及連接到SQL數據庫等操作。此外,還詳細闡釋concat、join和merge方法之間的區別。
    第12章“時間序列分析”,討論時間序列的強大功能,它使得分析人員可以按任何時間維度進行數據剖析。
    第13章“使用Matplotlib、Pandas和Seaborn進行可視化”,本章主要介紹Matplotlib庫,該庫負責Pandas中的所有可視化繪圖。此外,還介紹Pandas繪圖方法以及Seaborn庫,Seaborn庫能夠產生Pandas中無法直接獲得的美觀的可視化效果。
    第14章“調試和測試”,探討測試DataFrame和Pandas代碼的機制。如果你打算在生產環境中部署Pandas,那麼本章將幫助你建立對代碼的信心。本章介紹的具體操作包括轉換數據、測試.apply方法的性能、使用Dask、Pandarell和Swifter等提高.apply方法的性能、檢查代碼、在Jupyter中進行調試、管理數據的完整性、結合使用pytest和Pandas以及使用Hypothesis庫生成測試等。
    充分利用本書
    要充分利用本書,你也許需要執行以下操作。
    首先,也是重要的,你應該下載本書所有代碼,這些代碼都被存儲在Jupyter Notebook中。閱讀每個秘笈時,請在Notebook中運行代碼的每個步驟。在運行代碼時,請確保自己進行更多的探索。
    其次,在瀏覽器中打開Pandas官方說明文檔,其網址如下。


    http://pandas.pydata.org/pandas-docs/stable/


    Pandas說明文檔是一個很好的資源,其中包含超過1000頁的材料。在文檔中有大多數操作Pandas的示例,通常可以從See also(另請參閱)部分中直接鏈接它們。當然,它的缺陷是,雖然涵蓋了大多數基礎操作,但示例采用的卻是虛擬數據,這些虛擬數據並不能反映你在分析現實世界中的數據集時可能遇到的情況。
    本書需要的軟件包
    Pandas是用於Python編程語言的第三方程序包,在出版本書時,它的版本為1.0.1(目前,Python的版本為3.8)。本書中的示例在Python 3.6及更高版本中都應該可以正常工作。
    你可以通過多種方式在計算機上安裝Pandas和本書提到的其餘庫,但是簡單的方法是安裝Anaconda發行版。該版本由Anaconda創建,將所有流行的用於科學計算的庫打包到一個可下載的文件中,該文件可在Windows、macOS和Linux上使用。你可以訪問以下頁面以獲取Anaconda發行版。


    https://www.anaconda.com/distribution


    除了所有科學計算庫外,Anaconda發行版還附帶Jupyter Notebook,這是一個基於瀏覽器的程序,可使用Python和其他多種語言進行開發。本書的所有秘笈都是在Jupyter Notebook內部開發的,所有代碼都已提供。
    當然,不使用Anaconda發行版也可以安裝本書所需的所有庫。感興趣的讀者可訪問Pandas安裝頁面,其網址如下。


    http://pandas.pydata.org/pandas-docs/stable/install.html
    下載示例代碼文件
    讀者可以從www.packtpub.com中下載本書的示例代碼文件。具體步驟如下。
    (1)登錄或注冊www.packtpub.com。
    (2)在Search(搜索)框中輸入本書名稱Pandas 1.x Cookbook的一部分(不分區大小寫,並且不必輸入完全),即可看到本書出現在推薦下拉菜單中,如圖P-1所示。
     
    圖P-1  搜索書名
    (3)選擇Pandas 1.x Cookbook一書,並在其詳細信息頁面中單擊Download code from GitHub(從GitHub上下載代碼)按鈕,如圖P-2所示。需要說明的是,你需要登錄此網站纔能看到該下載按鈕(注冊賬號是免費的)。
     
    圖P-2  選擇本書書名
    本書代碼包在GitHub上的托管地址如下。


    https://github.com/PacktPublishing/Pandas-Cookbook-Second-Edition


    在下載頁面上,單擊Code(代碼)按鈕,然後選擇Download ZIP即可下載本書代碼包,如圖P-3所示。
    如果代碼有更新,則也會在現有GitHub存儲庫上更新。
    下載文件後,請確保使用版本軟件解壓或析取文件夾。
    ? WinRAR/7-Zip(Windows繫統)。
    ? Zipeg/iZip/UnRarX(Mac繫統)。
    ? 7-Zip/PeaZip(Linux繫統)。
     
    圖P-3  下載本書代碼包
    運行Jupyter Notebook
    要跟隨本書秘笈進行操作,建議啟動並運行Jupyter Notebook,以便讀者可以在閱讀秘笈的同時運行代碼。與僅閱讀本書相比,在計算機上練習操作可以使讀者自己進行探索並能夠更深入地了解與本書秘笈相關的更多內容。
    假設你已經在計算機上安裝了Anaconda發行版,則可以從Anaconda圖形用戶界面或命令行中啟動Jupyter Notebook。兩個選項任選其一,我們強烈建議你使用命令行。如果你打算使用Python做很多事情,那麼需要從這一刻就開始適應命令行。
    安裝Anaconda之後,打開命令提示符(在Windows的搜索欄中輸入cmd,或在Mac或Linux上打開終端),然後輸入以下命令。


    $ jupyter-notebook


    你不必從主目錄而是可以從任何位置處運行上述命令,瀏覽器中的內容將反映該位置。
    盡管現在已經啟動了Jupyter Notebook程序,但是實際上我們還沒有啟動可以在 Python中進行開發的單個Notebook。對此,你可以單擊頁面右側的New(新建)按鈕,這將下拉列出所有可能使用的內核的列表。如果你剛剛下載了Anaconda,則隻有一個可用的內核(Python 3)。選擇Python 3內核後,將在瀏覽器中打開一個新選項卡,你可以在其中開始編寫Python代碼。
    當然,你也可以打開以前創建的Notebook,而不用開始一個新的。為此,可在Jupyter Notebook瀏覽器主頁提供的文件繫統中導航,然後選擇要打開的Notebook。所有Jupyter Notebook文件均以.ipynb作為擴展名。
    或者,你也可以使用雲提供商的Notebook環境。Google和Microsoft都提供了已預裝Pandas的免費Notebook環境。
    下載彩色圖像
    我們還提供了一個PDF文件,其中包含本書中使用的屏幕截圖/圖表的彩色圖像。你可以通過以下網址下載。


    https://static.packt-cdn.com/downloads/9781839213106_ColorImages.pdf
    本書約定
    本書中使用了許多文本約定。
    (1)有關代碼塊的設置形式如下。


    import pandas as pd 
    import numpy as np
    movies = pd.read_csv("data/movie.csv") 
    movies


    (2)當要強調代碼塊的特定部分時,相關行或項目以粗體顯示。示例如下。


    import pandas as pd 
    import numpy as np
    movies = pd.read_csv("data/movie.csv")
    movies


    (3)任何命令行輸入或輸出都采用如下所示的粗體代碼形式。


    >>> employee = pd.read_csv('data/employee.csv')
    >>> max_dept_salary = employee.groupby('DEPARTMENT')['BASE_SALARY'].max()


    (4)術語或重要單詞采用中英文對照形式,在括號內保留其英文原文。示例如下。


    可以在單個Figure中繪制折線圖(line plot)、散點圖(scatter plot)和條形圖(bar plot)。散點圖是需要為x和y值指定列的圖形。


    (5)對於界面詞彙則保留其英文原文,在後面使用括號添加其中文翻譯。示例如下。


    可以看到,前兩個目的地機場都在夏威夷,即HNL(火奴魯魯國際機場)和OGG(卡胡魯伊機場),考慮到美國的地理情況,這一點不足為奇。


    (6)本書使用了以下兩個圖標。
     表示警告或重要的注意事項。
     表示提示或小技巧。
    每個秘笈的假設
    應該假定在每個秘笈的開頭,將NumPy、Matplotlib和Pandas都導入了名稱空間。為了將繪圖直接嵌入Notebook中,還必須運行魔術命令%matplotlib inline。
    此外,所有數據都被存儲在data目錄中,並且通常被存儲為CSV文件,以便可以使用read_csv函數直接讀取。


    >>> %matplotlib inline
    >>> import numpy as np
    >>> import matplotlib.pyplot as plt
    >>> import pandas as pd
    >>> my_dataframe = pd.read_csv('data/dataset_name.csv')
     
    數據集說明
    本書共使用了大約20個數據集。在完成秘笈中的操作步驟時,了解每個數據集的背景信息可能會非常有幫助。有關每個數據集的詳細說明,請訪問以下網址中提供的dataset_description Jupyter Notebook。


    https://github.com/PacktPublishing/Pandas-Cookbook-Second-Edition


    每個數據集都有一個列的列表,並提供了每一列的信息以及如何獲取數據的注釋。
    編寫體例
    本書大多數章節是采用秘笈形式編寫的,每節就是一個秘笈,每個秘笈中又分別包括“實戰操作”“原理解釋”“擴展知識”小節,使你既能學習Pandas實用操作,又能了解其相關的知識和原理,從而真正掌握和領會Pandas應用技巧。

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部