作 者:鄧立國 著
定 價:69
出 版 社:清華大學出版社
出版日期:2020年05月01日
頁 數:332
裝 幀:平裝
ISBN:9787302551065
本書基於Python 3大數據分析方法中的核心算法與實例,重點介紹數據特征算法分析及第三方開源庫的場景應用,包括NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等在大數據分析中的算法與實例。
●第1章大數據分析概述1
1.1大數據分析背景1
1.2大數據分析的應用2
1.3大數據分析算法3
1.4大數據分析工具6
1.5本章小結9
第2章數據特征算法分析10
2.1數據分布性分析10
2.1.1數據分布特征集中趨勢的測定10
2.1.2數據分布特征離散程度的測定15
2.1.3數據分布特征偏態與峰度的測定19
2.2數據相關性分析21
2.2.1數據相關關繫21
2.2.2數據相關分析的主要內容24
2.2.3相關關繫的測定24
2.3數據聚類性分析26
2.3.1聚類分析定義26
2.3.2聚類類型27
2.3.3聚類應用29
2.4數據主成分分析29
2.4.1主成分分析的原理及模型30
2.4.2數據主成分分析的幾何解釋31
2.4.3數據主成分的導出32
2.4.4證明主成分的方差是依次遞減的34
2.4.5數據主成分分析的計算35
2.5數據動態性分析36
2.6數據可視化40
2.7本章小結42
第3章大數據分析工具:NumPy43
3.1NumPy簡介43
3.2NumPy環境安裝配置44
3.3ndarray對像45
3.4數據類型47
3.5數組屬性49
3.6數組創建例程52
3.7切片和索引57
3.8廣播60
3.9數組操作與迭代61
3.10位操作與字符串函數87
3.11數學運算函數91
3.12算數運算93
3.13統計函數97
3.14排序、搜索和計數函數101
3.15字節交換104
3.16副本和視圖105
3.17矩陣庫107
3.18線性代數模塊109
3.19Matplotlib庫112
3.20Matplotlib繪制直方圖114
3.21IO文件操作116
3.22NumPy實例:GPS定位117
3.23本章小結120
第4章大數據分析工具:SciPy121
4.1SciPy簡介121
4.2文件輸入和輸出:SciPy.io122
4.3特殊函數:SciPy.special123
4.4線性代數操作:SciPy.linalg124
4.5快速傅裡葉變換:sipy.fftpack124
4.6優化器:SciPy.optimize125
4.7統計工具:SciPy.stats126
4.8SciPy實例127
4.8.1最小二乘擬合127
4.8.2函數最小值128
4.9本章小結130
第5章大數據分析工具:Matplotlib131
5.1初級繪制131
5.2圖像、子區、子圖、刻度137
5.3其他種類的繪圖140
5.4本章小結147
第6章大數據分析工具:Pandas148
6.1Pandas繫列148
6.2Pandas數據幀151
6.3Pandas面板155
6.4Pandas快速入門158
6.5本章小結172
第7章大數據分析工具:Statsmodels與Gensim173
7.1Statsmodels173
7.1.1Statsmodels統計數據庫173
7.1.2Statsmodels典型的擬合模型概述175
7.1.3Statsmodels舉例176
7.2Gensim178
7.2.1基本概念178
7.2.2訓練語料的預處理179
7.2.3主題向量的變換180
7.2.4文檔相似度的計算181
7.3本章小結182
第8章大數據分析算法與實例183
8.1描述統計183
8.2假設檢驗188
8.3信度分析192
8.4列聯表分析195
8.5相關分析196
8.6方差分析198
8.6.1單因素方差分析199
8.6.2多因素方差分析201
8.7回歸分析203
8.8聚類分析207
8.9判別分析212
8.10主成分分析216
8.11因子分析218
8.12時間序列分析221
8.13生存分析224
8.14典型相關分析245
8.15RoC分析250
8.16距離分析255
8.17對應分析264
8.18決策樹分析265
8.19神經網絡-深度學習271
8.19.1深度學習的基本模型271
8.19.2新聞分類實例275
8.20蒙特·卡羅模擬280
8.20.1蒙特·卡羅模擬基本模型281
8.20.2蒙特·卡羅模擬計算看漲期權實例281
8.21關聯規則287
8.21.1關聯規則的概念288
8.21.2Apriori算法及實例289
8.21.3FP樹頻集算法292
8.22UpliftModeling301
8.23集成方法306
8.24異常檢測311
8.25文本挖掘315
8.26Boosting算法(提升法和GradientBoosting)322
8.27本章小結325
參考文獻326
大數據時代,大數據分析是關鍵技術。Python是一款優秀的大數據分析軟件,《Python大數據分析算法與實例》以Python3結合第三方開源工具進行大數據分析,以小的代價編程實現數據的提取、處理、分析和可視化。
全書分為8章,首先介紹大數據分析的背景和行業應用,給出了數據特征算法分析;然後基於Python3介紹常用典型第三方大數據分析工具的場景應用;最後比較翔實地闡述大數據分析算法與經典實例應用。
《Python大數據分析算法與實例》適合從事大數據分析的研究人員、計算機或數學等相關專業的從業者參考學習,也可以作為計算機或數學等專業本科高年級或研究生的專業用書。
鄧立國 著
鄧立國,東北大學計算機應用博士畢業。2005年開始在瀋陽師範大學軟件學院、教育技術學院任教,主要研究方向:數據挖掘、知識工程、大數據處理、雲計算、分布式計算等。以第一作者發表學術論文30多篇(26篇EI),主編教材 1 部,主持科研課題6項,經費1,多次獲得校級科研優秀獎,作為九三社員提出的智慧城市提案被市政府采納,研究成果被教育廳等單位采用。