了得網計算機/網絡_Python數據分析

產品特色

編輯推薦

本書涉及的主題如下：
數據分析；
數據清洗；
數據可視化；
探索性數據分析；
概率分布與假設檢驗；
群組分析；
購物籃分析；
時間序列分析。
本書突出的特點如下：
繫統討論基於Python的數據分析環境構建與數據分析流程；
將數據分析理論與實踐結合，基於真實的案例介紹數據分析。

內容簡介

本繫統討論Python數據分析基礎與案例實戰的教程。全書共分為上下兩篇：上篇Pandas數據分析基礎（第1章～第10章），首先介紹了什麼是數據分析、數據分析的基本流程、如何構建基於Python的數據分析開發環境，之後上篇深入討論了如何利用Python中的Pandas庫進行基本的數據操作、數據清洗、數據整理，以及如何對數據進行可視化，*後第10章用一個電商銷售數據的分析案例對上篇的知識進行了總結。下篇Python數據分析實戰（第11章～第21章）目的是讓讀者體會到數據分析能干什麼，目標是盡可能多的為讀者展示各種數據分析應用。下篇中將討論數據分析在企業中的應用案例，例如客戶群組分析、客戶細分、A/B測試，客戶購物籃分析等；同時下篇也介紹了數據分析在生活中的應用，例如利用數據分析找工作、進行房價分析、進行股票投資的案例。此外下篇也對時間序列數據，大規模數據分析等進行了討論。通過這些案例希望讀者能夠理解數據分析是沒有邊界的，隻要能提出問題，就能找到它的用武之地。隨著人類正從信息時代走向數據時代，大數據可視化應用的火爆發展，地理信息數據可視化也受到了越來越多的重視。作為地理數據應用的*後一步，地理信息數據的可視化，不僅是為了酷炫好看，還是為了將空間分布上的規律更加簡潔直觀的展示出來，同時挖掘更深層次的信息，因此本書也額外提供了如何利用Basemap庫和Folium庫完成地理信息數據的可視化教程供讀者單獨下載。

作者簡介

江雪松 2001年獲工學碩士學位，曾服務於華為、諾基亞等公司，有豐富的產品團隊與研發團隊管理經驗。先後擔任項目經理、研發經理、產品研發負責人，管理多個產品全球支持與交付團隊，軟件維護業務。

上篇Pandas數據分析基礎
2.2.9NetworkX
2.2.10PyMC3
第6章數據整理
14.2.1均勻分布
14.2.2正態分布
14.2.3二項分布
14.2.4泊松分布
14.2.5幾何分布與指數分布
14.3點估計與置信區間
14.3.1點估計
14.3.2抽樣分布與中心極限定理
14.3.3置信區間
14.4留給讀者的思考

上篇Pandas數據分析基礎

第1章數據分析初探

1.1“數據 ”時代的到來

1.2什麼是數據分析

1.2.1數據分析的目標

1.2.2數據分析分類

1.2.3典型的數據分析方法

1.3數據分析的基本流程

1.3.1問題定義

1.3.2收集數據

1.3.3數據處理

1.3.4數據分析

1.3.5結果解讀與應用

1.4硝煙中的數據分析

1.4.1數據分析的產生

1.4.2驗證問題

1.4.3尋找原因

1.4.4數據怎麼說

1.4.5數據分析中應該避免的典型問題

第2章搭建數據科學開發環境

2.1為什麼選擇Python

2.1.1人生苦短，我用Python

2.1.2為何Python是數據科學家的選擇

2.2Python數據科學開發棧

2.2.1Cython

2.2.2NumPy

2.2.3IPython

2.2.4Jupyter

2.2.5SciPy

2.2.6Matplotlib

2.2.7Pandas

2.2.8Scikitlearn

2.2.9NetworkX

2.2.10PyMC3

2.2.11數據科學領域中的一些Python包

2.3Anaconda的安裝與使用

2.3.1安裝Anaconda

2.3.2利用Conda管理Python環境

2.3.3利用Conda管理Python包

2.3.4安裝本書所需的包

2.4使用Jupyter Notebook進行可重復數據分析

2.4.1Jupyter Notebook的配置

2.4.2Jupyter Notebook格

2.4.3Jupyter Notebook中的命令模式與編輯模式鍵

2.4.4使用Jupyter Notebook進行數據分析

第3章Pandas基礎

3.1什麼是DataFrame

3.1.1DataFrame的基本要素

3.1.2數據類型

3.1.3了解Series

3.1.4鏈式方法

3.2索引與列

3.2.1修改索引與列

3.2.2添加、修改或刪除列

3.3選擇多列

第4章數據篩選

4.1使用.loc和.iloc篩選行與列數據

4.1.1選擇Series和DataFrame中的行

4.1.2同時選擇行與列

4.2布爾選擇

4.2.1計算布爾值

4.2.2多條件篩選數據

第5章開始利用Pandas進行數據分析

5.數據

5.2數據類型轉換

5.3缺失數據與異常數據處理

5.3.1缺失值與重復值

5.3.2處理缺失數據

5.3.3NumPy與Pandas對缺失數據的不同處理方式

5.3.4填充缺失值

5.4處理重復數據

5.5異常值

5.6描述性統計

第6章數據整理

6.1什麼是數據整理

6.1.1數據的語義

6.1.2整齊的數據

6.2數據整理實戰

6.2.1列標題是值，而非變量名

6.2.2多個變量存儲在一列中

6.2.3變量既在列中存儲，又在行中存儲

6.2.4多個存儲在同一表中

6.2.5一個存儲在多個表中

6.2.6思考

第7章分組統計

7.1分組、應用和聚合

7.2Pandas中的GroupBy操作

7.2.1單列數據分組統計

7.2.2多列數據分組統計

7.2.3使用自定義函數進行分組統計

7.2.4數據過濾與變換

第8章數據整合

8.1數據讀入

8.1.1基本數據讀入方法

8.1.2文件讀取進階

8.1.3讀取其他格式文件

8.2數據合並

8.2.1認識merge操作

8.2.2merge進階

8.2.3join與concat

第9章數據可視化

9.1Matplotlib

9.1.1繪制個散點圖

9.1.2理解figure與axes

9.1.3Matplotlib中面向對像與類Matlab語法的區別

9.1.4修改坐標軸屬性

9.1.5修改圖形屬性

9.1.6定制圖例，添加標注

9.1.7子圖

9.1.8利用Matplotlib繪制各種圖形

9.2Pandas繪圖

9.2.1Pandas基礎繪圖

9.2.2整合Pandas繪圖與Matplotlib繪圖

9.3Seaborn

9.3.1Seaborn中的樣式

9.3.2Seaborn繪制統計圖形

9.4可視化進階

9.4.1其他可視化工具

9.4.2推薦讀物

第10章探索性數據分析——某電商銷售數據分析

10.1數據清洗

10.1.1分析準備

10.1.2了解數據

10.2數據清洗與整理

10.2.1數據類型轉換與錯誤數據刪除

10.2.2添加新數據

10.3探索性數據分析

10.3.1客戶分析

10.3.2訂單趨勢分析

10.3.3客戶國家分析

10.3.4留給讀者的問題

下篇Python數據分析實戰

第11章群組分析

11.1群組分析概述

11.1.1從AARRR到RARRA的轉變

11.1.2什麼是群組分析

11.2群組分析實戰

11.2.1定義群組以及周期

11.2.2群組分析具體過程

11.2.3思考

第12章利用RFM分析對用戶進行分類

12.1RFM分析簡介

12.1.1RFM模型概述

12.1.2理解RFM

12.2RFM實戰

12.2.1R、F、M值的計算

12.2.2利用RFM模型對客戶進行細分

12.2.3思考

第13章購物籃分析

13.1購物籃分析概述

13.1.1什麼是購物籃分析

13.1.2購物籃分析在超市中的應用

13.1.3購物籃分析實現

13.2購物籃分析案例

13.2.1Mlxtend庫中Apriori算法使用介紹

13.2.2在線銷售數據購物籃分析

13.3留給讀者的思考

第14章概率分布

14.1隨機數

14.2常見的概率分布

14.2.1均勻分布

14.2.2正態分布

14.2.3二項分布

14.2.4泊松分布

14.2.5幾何分布與指數分布

14.3點估計與置信區間

14.3.1點估計

14.3.2抽樣分布與中心極限定理

14.3.3置信區間

14.4留給讀者的思考

第15章假設檢驗

15.1假設檢驗概述

15.1.1初識假設檢驗

15.1.2假設檢驗的步驟

15.1.3假設檢驗中的Ⅰ類錯誤與Ⅱ類錯誤

15.2Python中的假設檢驗

15.2.1單樣本ttest

15.2.2雙樣本ttest

15.2.3配對ttest

15.2.4卡方檢驗

15.3留給讀者的思考

第16章一名數據分析師的遊戲上線之旅

16.1遊戲啟動時間是否超過目標

16.1.1啟動時間是否超過3秒

16.1.2構造啟動時間監測圖

16.2次日留存率是否大於30%

16.3應該在遊戲第幾關加入關聯微信提示

16.3.1A/B測試

16.3.2貝葉斯解決方案

16.4如何定價

16.5留給讀者的思考

第17章利用數據分析找工作

17.1設定分析目標

17.1.1問題定義

17.1.2獲取數據

17.2準備分析數據

17.2.1數據準備

17.2.2數據清洗

17.3開始數據分析

17.3.1職位來自哪裡

17.3.2職位薪酬如何

17.3.3崗位要求

17.3.4思考

第18章用數據解讀成都房價

18.1設定分析目標

18.1.1問題定義

18.1.2獲取數據

18.2解讀成都二手房

18.2.1數據準備

18.2.2列名調整

18.2.3數據類型轉換

18.2.4數據解讀

18.2.5思考

第19章時間序列分析

19.1認識時間序列數據

19.1.1讀入時間序列數據

19.1.2時間序列數據的可視化

19.2時間序列數據的分解

19.2.1認識時間序列數據中的模式

19.2.2Python中進行時間序列數據的分解

19.3時間序列的平穩性

19.3.1認識平穩與非平穩時間序列

19.3.2如何讓時間序列平穩

19.4利用ARIMA模型分析家具銷售

19.4.1ARIMA模型簡介

19.4.2數據準備

19.4.3ARIMA模型中的參數

19.5留給讀者的思考

第20章股票數據分析

20.1股票收益分析

20.1.1獲取股票數據

20.1.2計算每日收益

20.1.3多隻股票收益比較

20.1.4股價相關性分析

20.2CAPM資產定價模型選股

20.2.1CAPM公式

20.2.2在Python中實現CAPM

20.3留給讀者的思考

第21章大規模數據處理

21.1不同規模數據處理工具的選擇

21.2利用Pandas處理大規模數據

21.2.1文件分塊讀入

21.2.2使用數據庫

21.2.3使用DASK

21.3其他可選方法

21.4留給讀者的思考

前言

根據Cummulus Media 2018年的數據，全球每分鐘向谷歌發起370萬次搜索，發送1800萬條短信，YouTube上有430萬條視頻被觀看，Facebook登錄超過97萬次，等等。人們刷微博、聊微信、用滴滴打車、用淘寶購物、用美團點外賣，每一條信息，每一次出行，每一次消費，每一次互動都成為其數字足跡！未來已來，我們進入了數據時代！
使用數據分析的方法，幫助我們從龐雜的數據中提取有價值的信息，做出更好的決策，本書正是圍繞此目標而編寫。全書分上下兩篇。上篇（第1章~第10章）介紹了什麼是數據分析，如何利用Python中的Pandas庫進行基本的數據操作、數據清洗、數據整理，如何對數據進行可視化。下篇（第11章~第21章）著重於數據分析實戰，
盡可能多地為讀者展示各種數據分析應用，目的是讓讀者體會到數據分析的作用
。其中既有數據分析在企業中的應用，如客戶群組分析、客戶細分、A/B測試等，又有數據分析在我們生活中的應用，
如找工作、買房、投資等。通過這些案例，希望讀者能夠理解數據分析是沒有邊界的，隻要能提出問題，就能找到它的用武之地。
物聯網、人工智能伴隨5G而來，用數據定義問題、用數據講故事、用數據支持決策的能力也越來越重要，本書是作者對過去學習與工作的總結，希望能成為讀者邁入數據世界的本書。

本人與數據正式結緣還要追溯到2003年擔任軟件項目經理時，當時分析項目團隊的軟件問題成為我的個數據分析任務。2009年，我開始管理多個產品的全球支持團隊，與數據的關繫更進了一步。作為通信設備商，我們的客戶支持有本地技術支持、歐洲及美洲等區域技術支持以及全球技術支持。每層的技術人員解決的問題類型、難度、時間以及成本都不同，電信運營商的設備故障每分每秒都將給客戶帶來巨大影響。面對成千上萬的客戶問題，如何快速、高效、低成本地處理各種問題，需要用數據來幫助我們做出決策。2013年後，我開始轉向負責軟件維護業務，此時我關心的是：如何從軟件維護中獲取更多收入；如何更好地提高客戶服務質量；針對全球的客戶，如何對客戶進行細分；哪些客戶的維護業務對公司更有價值；面對客戶時如何說服他們維護業務帶來的價值遠遠超過了成本。這一切更需要數據來支持！

不僅工作中需要數據思維，我們的生活也需要數據思維，它可以幫我們找工作、買房、從投資中獲利，等等。那麼什麼是數據思維？數據思維核心的思想是利用數據解決問題，而利用數據解決問題則需要深度了解需求，了解真正要解決什麼樣的問題，解決問題背後的真實目的是什麼。在解決問題的過程中，
使用數據分析的方法，幫助我們從龐雜的數據中提取有價值的信息，做出更好的決策，本書正是圍繞此目標而編寫。全書分上下兩篇。上篇（第1章~第10章）介紹了什麼是數據分析，如何利用Python中的Pandas庫進行基本的數據操作、數據清洗、數據整理，如何對數據進行可視化。下篇（第11章~第21章）著重於數據分析實戰，
盡可能多地為讀者展示各種數據分析應用，目的是讓讀者體會到數據分析的作用
。其中既有數據分析在企業中的應用，如客戶群組分析、客戶細分、A/B測試等，又有數據分析在我們生活中的應用，
如找工作、買房、投資等。通過這些案例，希望讀者能夠理解數據分析是沒有邊界的，隻要能提出問題，就能找到它的用武之地。

隨著可穿戴設備的興起，
物聯網、人工智能伴隨5G而來，用數據定義問題、用數據講故事、用數據支持決策的能力也越來越重要，本書是作者對過去學習與工作的總結，希望能成為讀者邁入數據世界的本書。

本書第7章、第14章和第15章由鄒靜完成，其餘章節由江雪松完成。由於作者水平有限，書中難免有不足之處，還望讀者
不吝指正！
感謝清華大學出版社的盛東亮老師為出版本書提供的幫助！同時也要感謝本書編輯
團隊付出的辛勤勞動！將近一年時間的寫作，意味著無法陪伴家人，在此也要感謝他們的理解與支持。

江雪松

2020年4月

說明
1. 寫作風格
本書上篇為Pandas數據分析基礎，因此作者對於代碼的講解相對詳細。下篇為案例實戰，經過上篇的學習，
讀者應該已經具備了自學Pandas中新函數的能力，因此在講解時以案例為主，對部分代碼不再逐行解讀，希望讀者能自己動手實踐，加深理解。
2. 英文術語的翻譯
本書中的英文術語在兩種情況不進行翻譯，采取保留英文原文的方式。種情況是專有術語，無中文翻譯，
如Pandas、Jupyter Notebook等。第二種情況是Pandas中的專有數據結構DataFrame和Series，采取不翻譯的方式，另外對於DataFrame中的Index，如果可能在上下文產生歧義，我們會采取保留英文原文的方式。
3. 代碼格式
本書中的代碼均在Jupyter Notebook中編寫完成，Jupyter Notebook的一大優勢是提供了良好的用戶交互輸出。為了更好地區分代碼與輸出，全書中的代碼采用如下格式。

retail_data.dtypes

InvoiceNo object

StockCodeobject

Countryobject

Total_pricefloat64

dtype: object

其中，前面帶有“”的代表Jupyter Notebook中的一段代碼。例如，上面代碼段中的“retail_data.dtypes”代表的是一行代碼，前面沒有“”的部分則代表了代碼對應的輸出。類似地，如下內容中“”後面代表的是一段代碼。

def rad_to_degrees(x, pos):

'角度幅度轉換'

#兩個參數分別是值與tick位置

return round(x * 57.2985, 2)

4. 全書代碼與數據下載
由於本書是一本數據分析實戰的書，因此書中大量使用了各種不同真實場景的數據和代碼，為了方便讀者學習，我們也提供了數據和代碼下載。讀者可以關注微信公眾號“見數知理”獲得代碼與數據的下載方式。

讀者完成代碼與數據下載後，如果按照本書第2章的方式設置了Jupyter Notebook，那麼請將數據放到data目錄，該目錄應該與代碼目錄平級。
5. 勘誤表
全書的勘誤將通過公眾號發布，讀者閱讀本書若發現任何問題，也歡迎通過公眾號與我們交流。
學習說明：請關注“人智能科學與技術”公眾號，了解本書及後續可能更新的學習資源。

作者 2020年8月

媒體評論

當今是一個數據的時代！對於企業，數據分析可以幫助我們優化業務；發現新業務機會；創造新的商業價值。對於個人，通過傳感設備把日常生活及身體鍛煉的各項指標進行數據化處理，*終完成個人的量化分析，協助我們養成生活規律，更高質量地生活。《Python數據分析》將理論與實戰結合，向讀者展示了大量基於Python的數據分析及其應用，是數據分析人員不可多得的一本入門與進階書籍。
——黃彥成浙江大學杭州州力數據科技有限公司副總經理
《Python數據分析》內容精練、重點突出、實例豐富，是廣大數據分析工作者的入門參考書，也適合作為從事Pyhton程序設計者的參考讀物。書中很多案例，可以舉一反三，二次開發應用。
——黃海美國Amazon公司研發經理
《Python數據分析》繫統介紹了數據分析的基本理論與方法，並結合Pandas工具庫由淺入深地對數據分析的實踐進行了論述。全書知識全面、案例豐富，對數據分析的入門者和提高者都具有很大參考價值。
——繆敬 OPPO公司通信架構師
在繫統測試工作中，每天都會產生大量的數據——包括測試計劃、測試用例、測試配置、測試執行、日志、缺陷報告，等等。如果沒有數據分析與處理的思想與方法，即使有海量的數據，我們可能也無不能發它們的價值。《Python數據分析》可以幫助測試工程師建立據思維，對日常工作中產生的數據進行整理和分析，並利用分析結果去提高測試工作的有效性，提高自動化水平。
——楊劍飛美國EMC公司高級主任工程師

商品搜索

商品分类

【醫學】

【各大出版社】