![](/c3/13747650997.jpg)
出版社:人民郵電出版社 ISBN:9787115459190 商品編碼:13747650997 品牌:文軒 出版時間:2017-07-01 代碼:99 作者:傑奎琳·凱澤爾(JacquelineKazi
"![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg) 作 者:[美] 傑奎琳·凱澤爾(Jacqueline Kazil)凱瑟琳?賈繆爾(Katharine Jarmul) 著 張亮 呂家明 譯 定 價:99 出 版 社:人民郵電出版社 出版日期:2017年07月01日 頁 數:378 裝 幀:簡裝 ISBN:9787115459190 用傳統的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對於混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕松處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。* 快速了解Python基本語法、數據類型和語言概念* 概述數據的獲取與存儲方式* 清洗等 ●前言 xiii第1 章 Python 簡介 11.1 為什麼選擇Python 41.2 開始使用Python 41.2.1 Python 版本選擇 51.2.2 安裝Python 61.2.3 測試Python 91.2.4 安裝pip 111.2.5 安裝代碼編輯器 121.2.6 安裝IPython(可選) 131.3 小結 13第2 章 Python 基礎 142.1 基本數據類型 152.1.1 字符串 152.1.2 整數和浮點數 152.2 數據容器 182.2.1 變量 182.2.2 列表 212.2.3 字典 222.3 各種數據類型的用途 232.3.1 字符串方法:字符串能做什麼 242.3.2 數值方法:數字能做什麼 252.3.3 列表方法:列表能做什麼 262.3.4 字典方法:字典能做什麼 272.4 有用的工具:type、dir 和help 282.4.1 type 282.4.2 dir 282.4.3 help 302.5 綜合運用 312.6 代碼的含義 322.7 小結 33第3 章 供機器讀取的數據 343.1 CSV 數據 353.1.1 如何導入CSV 數據 363.1.2 將代碼保存到文件中並在命令行中運行 393.2 JSON 數據 413.3 XML 數據 443.4 小結 56第4 章 處理Excel 文件 584.1 安裝Python 包 584.2 解析Excel 文件 594.3 開始解析 604.4 小結 71第5 章 處理PDF 文件,以及用Python 解決問題 735.1 盡量不要用PDF 735.2 解析PDF 的編程方法 745.2.1 利用slate 庫打開並讀取PDF 755.2.2 將PDF 轉換成文本 775.3 利用pdfminer 解析PDF 785.4 學習解決問題的方法 925.4.1 練習:使用表格提取,換用另一個庫 945.4.2 練習:手動清洗數據 985.4.3 練習:試用另一種工具 985.5 不常見的文件類型 1015.6 小結 101第6 章 數據獲取與存儲 1036.1 並非所有數據生而平等 1036.2 真實性核查 1046.3 數據可讀性、數據清潔度和數據壽命 1056.4 尋找數據 1056.4.1 打電話 1056.4.2 美國政府數據 1066.4.3 全球政府和城市開放數據 1076.4.4 組織數據和非政府組織數據 1096.4.5 教育數據和大學數據 1096.4.6 醫學數據和科學數據 1096.4.7 眾包數據和API 1106.5 案例研究:數據調查實例 1116.5.1 埃博拉病毒危機 1116.5.2 列車安全 1116.5.3 足球運動員的薪水 1126.5.4 童工 1126.6 數據存儲 1136.7 數據庫簡介 1136.7.1 關繫型數據庫:MySQL 和 tgreSQL 1146.7.2 非關繫型數據庫:NoSQL 1166.7.3 用Python 創建本地數據庫 1176.8 使用簡單文件 1186.8.1 雲存儲和Python 1186.8.2 本地存儲和Python 1196.9 其他數據存儲方式 1196.10 小結 119第7 章 數據清洗:研究、匹配與格式化 1217.1 為什麼要清洗數據 1217.2 數據清洗基礎知識 1227.2.1 找出需要清洗的數據 1237.2.2 數據格式化 1317.2.3 找出離群值和不良數據 1357.2.4 找出重復值 1407.2.5 模糊匹配 1437.2.6 正則表達式匹配 1467.2.7 如何處理重復記錄 1507.3 小結 151第8 章 數據清洗:標準化和腳本化 1538.1 數據歸一化和標準化 1538.2 數據存儲 1548.3 找到適合項目的數據清洗方法 1568.4 數據清洗腳本化 1578.5 用新數據測試 1708.6 小結 172第9 章 數據探索和分析 1739.1 探索數據 1739.1.1 導入數據 1749.1.2 探索表函數 1799.1.3 聯結多個數據集 1829.1.4 識別相關性 1869.1.5 找出離群值 1879.1.6 創建分組 1899.1.7 深入探索 1929.2 分析數據 1939.2.1 分離和聚焦數據 1949.2.2 你的數據在講什麼 1969.2.3 描述結論 1969.2.4 將結論寫成文檔 1979.3 小結 197第10 章 展示數據 19910.1 避免講故事陷阱 19910.1.1 怎樣講故事 20010.1.2 了解聽眾 20010.2 可視化數據 20110.2.1 圖表 20110.2.2 時間相關數據 20710.2.3 地圖 20810.2.4 素 21110.2.5 文字 21210.2.6 圖片、視頻和插畫 21210.3 展示工具 21310.4 發布數據 21310.4.1 使用可用站點 21310.4.2 開源平臺:創建一個新網站 21510.4.3 Jupyter(曾名IPython notebook) 21610.5 小結 219第11 章 網頁抓取:獲取並存儲網絡數據 22111.1 抓取什麼和如何抓取 22111.2 分析網頁 22311.2.1 檢視:標記結構 22411.2.2 網絡/ 時間線:頁面是如何加載的 23011.2.3 控制臺:同JavaScript 交互 23211.2.4 頁面的深入分析 23611.3 得到頁面:如何通過互聯網發出請求 23711.4 使用Beautiful Soup 讀取網頁 23811.5 使用lxml 讀取網頁 24111.6 小結 249第12 章 高級網頁抓取:屏幕抓取器與爬蟲 25112.1 基於瀏覽器的解析 25112.1.1 使用Selenium 進行屏幕讀取 25212.1.2 使用Ghost.py 進行屏幕讀取 26012.2 爬取網頁 26612.2.1 使用Scrapy 創建一個爬蟲 26612.2.2 使用Scrapy 爬取整個網站 27312.3 網絡:互聯網的工作原理,以及為什麼它會讓腳本崩潰 28112.4 變化的互聯網(或腳本為什麼崩潰) 28312.5 幾句忠告 28412.6 小結 284第13 章 應用編程接口 28613.1 API 特性 28713.1.1 REST API 與流式API 28713.1.2 頻率 28713.1.3 分級數據卷 28813.1.4 API key 和token 28913.2 一次簡單的Twitter REST API 數據拉取 29013.3 使用Twitter REST API 進行高級數據收集 29213.4 使用Twitter 流式API 進行高級數據收集 29513.5 小結 297第14 章 自動化和規模化 29814.1 為什麼要自動化 29814.2 自動化步驟 29914.3 什麼會出錯 30114.4 在哪裡自動化 30214.5 自動化的特殊工具 30314.5.1 使用本地文件、參數及配置文件 30314.5.2 在數據處理中使用雲 30814.5.3 使用並行處理 31014.5.4 使用分布式處理 31214.6 簡單的自動化 31314.6.1 CronJobs 31414.6.2 Web 接口 31614.6.3 Jupyter notebook 31614.7 大規模自動化 31714.7.1 Celery:基於隊列的自動化 31714.7.2 Ansible:操作自動化 31814.8 監控自動化程序 31914.8.1 Python 日志 32014.8.2 添加自動化信息 32214.8.3 上傳和其他報告 32614.8.4 日志和監控服務 32714.9 沒有萬無一失的繫統 32814.10 小結 328第15 章 結論 33015.1 數據處理者的職責 33015.2 數據處理之上 33115.2.1 成為一名更優秀的數據分析師 33115.2.2 成為一名更優秀的開發者 33115.2.3 成為一名更優秀的視覺化講故事者 33215.2.4 成為一名更優秀的繫統架構師 33215.3 下一步做什麼 332附錄A 編程語言對比 334附錄B 初學者的Python 學習資源 336附錄C 學習命令行 338附錄D 高級Python 設置 349附錄E Python 陷阱 361附錄F IPython 指南 370附錄G 使用亞馬遜網絡服務 374關於作者 378關於封面 378 本書采用基於項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規模化和自動化的過程。主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據。 [美] 傑奎琳·凱澤爾(Jacqueline Kazil)凱瑟琳?賈繆爾(Katharine Jarmul) 著 張亮 呂家明 譯 Jacqueline Kazil,數據科學家,zi深軟件開發者。活躍於Python軟件基金會、PyLadies等社區。曾參與美國總統創新伙伴項目,是美國政府技術組織18F的聯合創始人。曾擔任《華盛頓郵報》數據記者。Katharine Jarmul,zi深Python開發者,PyLadies聯合創始人。喜歡數據分析和獲取、網頁抓取、教人學習Python以及Unix,期望通過教育和培訓來促進Python和其他開源語化。 ![](https://img10.360buyimg.com/imgzone/jfs/t1/147514/7/5440/73116/5f34a3beE3ba58783/f5b2391383f5625c.jpg)
" |