![](/c49/99/10027971695087.jpg)
店鋪:遼寧音像出版社圖書專營店 出版社:電子工業出版社 ISBN:9787121339158 商品編碼:10027971695087 包裝:平裝 出版時間:2018-07-01 作者:薛薇
"基本信息 書名:R語言:大數據分析中的統計方法及應用 定價 作者:薛薇 出版社:電子工業出版社 出版日期:2018-07-01 ISBN:9787121339158 字數:384000 頁碼:240 版次:1 裝幀:平裝 開本:16開 商品重量: 編輯推薦
內容提要
大數據分析,其學習起點應是大數據的統計分析;大數據分析,其學習特點應是案例化、工具化和業務導向化。本書面向大數據分析實踐,基於大數據案例,以問題為線索,以解決問題為導向講解統計方法及R語言實現;突出大數據應用特色,兼顧統計方法的經典性和普適性、理論講解的通俗性和嚴謹性、R語言代碼的實操性和示範性。本書提供配套案例數據及各章節R語言程序代碼,可登錄華信教育資源網免費下載。 目錄
章 R語言與統計分析概述 1 1.1 寫在前面的話 1 1.1.1 大數據的廣義概念 1 1.1.2 目標定位 2 1.1.3 初識R 3 1.2 R語言入門 3 1.2.1 R中的基本概念 3 1.2.2 R的下載安裝 5 1.2.3 R程序的運行 6 1.2.4 R使用的其他方面 10 1.3 Rstudio簡介 12 1.4 從大數據分析案例看統計分析的基本框架 13 1.4.1 數據集 14 1.4.2 分析目標和數據預處理 16 1.4.3 數據的基本分析 17 1.4.4 總體特征的推斷 17 1.4.5 推斷多個變量間的總體相關性 18 1.4.6 數據的聚類 19 1.5 本章涉及的R函數 19 第2章 R的數據組織 20 2.1 R的數據對像 20 2.1.1 R對像的類型劃分 20 2.1.2 創建和管理R對像 21 2.2 R數據組織的基本方式 22 2.2.1 R向量及其創建與訪問 22 2.2.2 R矩陣和數組及其創建與訪問 27 2.2.3 R數據框及其創建與訪問 32 2.2.4 R列表及其創建與訪問 36 2.3 R數據組織的其他問題 37 2.3.1 R對像數據的保存 37 2.3.2 通過鍵盤讀入數據 38 2.3.3 共享R自帶的數據包 39 2.4 大數據案例的數據結構和R組織 39 2.4.1 讀文本文件數據到R數據框 39 2.4.2 大數據分析案例:北京市空氣質量監測數據 40 2.4.3 大數據分析案例:美食餐館食客點評數據 41 2.4.3 大數據分析案例:超市顧客購買行為數據 42 2.5 本章涉及的R函數 43 第3章 R的數據整理和編程基礎 45 3.1 從大數據分析案例看數據整理 45 3.1.1 美食餐館食客點評數據的整理問題 45 3.1.2 超市顧客購買行為數據的整理問題 45 3.1.3 北京市空氣質量監測數據的整理問題 46 3.2 數據的初步整理 46 3.2.1 數據整合 46 3.2.2 數據篩選 46 3.2.3 大數據分析案例:美食餐館食客點評數據的初步整理 47 3.3 數據質量評估 49 3.3.1 缺失數據報告 49 3.3.2 異常值排查 50 3.3.3 大數據分析案例:美食餐館食客點評數據的質量評估 50 3.4 數據加工 52 3.4.1 數據加工管理中的常用函數 53 3.4.2 數據分組和重編碼 59 3.4.3 大數據分析案例:利用數據加工尋找“人氣”餐館 60 3.5 數據管理中的R編程基礎 61 3.5.1 分支結構的流程控制及示例――促銷的計算 61 3.5.2 循環結構的流程控制及示例:等差數列的求和 63 3.5.3 用戶自定義函數及示例:彙總數據還原為原始數據 65 3.5.4 R編程大數據分析案例:超市顧客購買行為數據的RFM計算 67 3.5.5 R編程大數據分析案例:北京市空氣質量監測數據的整理 68 3.6 本章涉及的R函數 70 第4章 R的基本分析和統計圖形 71 4.1 從大數據分析案例看數據基本分析 71 4.1.1 美食餐館食客點評數據的基本分析 71 4.1.2 北京市空氣質量監測數據的基本分析 72 4.2 R的繪圖基礎 73 4.2.1 圖形設備和圖形文件 73 4.2.2 圖形組成和圖形參數 74 4.3 分類型單變量的基本分析 78 4.3.1 計算頻數分布表 78 4.3.2 分類型變量的基本統計圖形 78 4.3.3 大數據分析案例:主打菜的餐館分布有怎樣的特點 79 4.4 數值型單變量的基本分析 80 4.4.1 計算基本描述統計量 80 4.4.2 數值型變量的基本統計圖形 81 4.4.3 大數據分析案例:餐館評分的分布有怎樣的特點 83 4.5 大數據分析案例綜合:北京市空氣質量監測數據的基本分析 85 4.6 本章涉及的R函數 88 第5章 R的變量相關性分析和統計圖形 89 5.1 分類型變量相關性的分析 89 5.1.1 分類型變量相關性的描述 89 5.1.2 分類型變量相關性的統計圖形 93 5.1.3 大數據分析案例:餐館的區域分布與主打菜分布是否具有相關性 93 5.2 數值型變量相關性的分析 94 5.2.1 數值型變量相關性的描述 94 5.2.2 數值型變量相關性的統計圖形 95 5.2.3 大數據分析案例:餐館各打分之間、打分與人均消費之間是否具有相關性 96 5.3 大數據分析案例綜合:北京市空氣質量監測數據的相關性分析 100 5.4 本章涉及的R函數 102 第6章 R的均值檢驗:單個總體的均值推斷及兩個總體均值的對比 104 6.1 從大數據分析案例看推斷統計 104 6.1.1 美食餐館食客點評數據分析中的推斷統計問題 104 6.1.2 北京市空氣質量監測數據分析中的推斷統計問題 105 6.2 單個總體的均值推斷 106 6.2.1 以PM2.5總體均值推斷為例看假設檢驗基本原理 106 6.2.2 大數據案例分析:估計供暖季北京市PM2.5濃度的總體均值 110 6.3 兩個總體均值的對比:基於獨立樣本的常規t檢驗 111 6.3.1 兩個獨立樣本均值t檢驗的原理和R實現 111 6.3.2 深入問題:方差齊性檢驗和R實現 114 6.3.3 大數據分析案例:兩個區域美食餐館人均消費金額是否存在差異 115 6.4 兩個總體均值的對比:置換檢驗 117 6.4.1 兩個獨立樣本均值差的置換檢驗原理和R實現 117 6.4.2 大數據分析案例:利用置換檢驗對比兩個區域美食餐館人均消費金額的總體均值 118 6.5 兩個總體的均值對比:自舉法檢驗 118 6.5.1 兩個獨立樣本均值差的自舉法檢驗原理和R實現 118 6.5.2 大數據分析案例:利用自舉法對比兩個區域美食餐館人均消費金額的總體均值 120 6.6 兩個總體的均值對比:基於配對樣本的常規t檢驗 121 6.6.1 兩個配對樣本均值t檢驗的原理和R實現 121 6.6.2 大數據分析案例:兩個區域美食餐館口味評分與就餐環境評分的均值是否存在差異 122 6.7 大數據分析案例綜合:北京市空氣質量監測數據的均值研究 123 6.8 本章涉及的R函數 125 第7章 R的方差分析:多個總體均值的對比 127 7.1 從大數據分析案例看方差分析 127 7.1.1 美食餐館食客點評數據分析中的方差分析問題 127 7.1.2 北京市空氣質量監測數據分析中的方差分析問題 128 7.2 多個總體均值的對比:單因素方差分析 128 7.2.1 單因素方差分析原理和R實現 128 7.2.2 深入問題:方差齊性檢驗和多重比較檢驗 131 7.2.3 大數據分析案例:利用單因素方差分析對比不同主打菜餐館人均消費金額的 總體均值 131 7.3 多個總體均值的對比:多因素方差分析 135 7.3.1 多因素方差分析原理和R實現 135 7.3.2 大數據分析案例:利用多因素方差分析對比不同主打菜餐館人均消費金額的 總體均值 137 7.4 大數據分析案例綜合:北京市空氣質量監測數據的均值研究 140 7.5 本章涉及的R函數 142 第8章 R的線性回歸分析:對數值變量影響程度的度量和預測 143 8.1 從數據分析案例看線性回歸分析 143 8.1.1 美食餐館食客點評數據分析中的回歸分析問題 143 8.1.2 北京市空氣質量監測數據分析中的回歸分析問題 143 8.1.3 線性回歸分析的一般步驟 143 8.2 建立回歸方程 145 8.2.1 線性回歸模型和線性回歸方程 145 8.2.2 線性回歸方程的參數估計和R實現 145 8.2.3 大數據分析案例:建立美食餐館食客評分的線性回歸模型 146 8.3 回歸方程的檢驗 147 8.3.1 回歸方程的顯著性檢驗 148 8.3.2 回歸繫數的顯著性檢驗 149 8.3.3 大數據分析案例:美食餐館食客評分回歸方程的檢驗 149 8.4 回歸方程的應用 152 8.4.1 回歸方程擬合效果的度量 152 8.4.2 預測和預測誤差 153 8.4.3 大數據分析案例:美食餐館食客評分回歸方程的評價和預測 153 8.5 回歸模型的驗證 154 8.5.1 回歸模型的N折交叉驗證法和R實現 155 8.5.2 回歸模型的自舉法驗證和R實現 155 8.5.3 大數據分析案例:美食餐館食客評分回歸模型的驗證 156 8.6 虛擬自變量回歸和協方差分析 157 8.6.1 虛擬自變量回歸 157 8.6.2 協方差分析 159 8.6.3 大數據分析案例:就餐環境對不同區域美食餐館人均消費的影響 159 8.7 大數據分析案例綜合:北京市空氣質量監測數據的回歸分析研究 162 8.8 本章涉及的R函數 168 第9章 R的Logistic回歸分析:對分類變量影響程度的度量和預測 169 9.1 從大數據分析案例看Logistic回歸分析 169 9.1.1 人力資源調查數據分析中的Logistic回歸分析問題 169 9.1.2 Logistic回歸分析的基本建模思路 172 9.2 Logistic回歸方程的解讀 173 9.2.1 Logistic回歸方程的繫數 173 9.2.2 Logistic回歸方程的檢驗 174 9.2.3 大數據分析案例:基於人力資源調查數據探討技術人員離職的原因 176 9.3 Logistic回歸方程的應用 179 9.3.1 Logistic回歸方程擬合效果的評價 179 9.3.2 大數據分析案例:基於人力資源調查數據預測技術人員離職的可能性 180 9.4 本章涉及的R函數 181 0章 R的聚類分析:數據分組 182 10.1 從大數據分析案例看聚類分析 182 10.1.1 超市顧客購買行為數據分析中的聚類分析問題 182 10.1.2 北京市空氣質量監測數據分析中的聚類分析問題 183 10.1.3 聚類分析的基本思路 183 10.2 K-Means聚類 185 10.2.1 K-Means聚類原理和R實現 185 10.2.2 大數據分析案例:超市顧客購買行為數據分析中的K-Means聚類 187 10.3 分層聚類 191 10.3.1 分層聚類原理和R實現 191 10.3.2 大數據分析案例:超市顧客購買行為數據分析中的分層聚類 192 10.4 大數據分析案例綜合:北京市空氣質量監測數據的聚類分析研究 195 10.5 本章涉及的R函數 197 1章 R的線性判別分析:分類預測 198 11.1 從大數據分析案例看判別分析 198 11.1.1 人力資源調查數據分析中的判別分析問題 198 11.1.2 判別分析的數據和基本出發點 199 11.2 距離判別法 199 11.2.1 距離判別的基本思路 199 11.2.2 判別函數的計算和R實現 201 11.2.3 大數據分析案例:利用距離判別預測技術人員離職的可能性 203 11.3 Fisher判別法 205 11.3.1 Fisher判別的基本原理 205 11.3.2 Fisher判別繫數的求解和R實現 207 11.3.3 大數據分析案例:利用Fisher判別預測技術人員離職的可能性 209 11.4 本章涉及的R函數 210 2章 R的因子分析:特征提取 211 12.1 從大數據分析案例看因子分析 211 12.1.1 植物物種分類中的因子分析問題 211 12.1.2 北京市空氣質量監測數據分析中的因子分析問題 213 12.2 因子分析基礎 213 12.2.1 因子分析的數學模型 213 12.2.2 因子分析的特點和基本步驟 215 12.2.3 因子分析的模型評價 216 12.3 確定因子變量 217 12.3.1 主成分分析法的基本原理 217 12.3.2 基於主成分分析法的因子載荷矩陣求解和R實現 219 12.3.3 計算因子得分和R實現 220 12.3.4 大數據分析案例:利用因子分析實現植物物種分類中的特征提取 221 12.4 因子變量命名 223 12.4.1 從大數據分析案例看因子變量命名的必要性 223 12.4.2 因子旋轉的原理和R實現 226 12.4.3 大數據分析案例:利用因子分析實現北京市空氣質量的區域綜合評價 227 12.5 本章涉及的R函數 229 作者介紹
薛薇,中國人民大學統計學院副教授,應用統計科學研究中心副主任,主要著作:SPSS統計分析方法及應用(第4版),北京市高等教育精品教材,電子工業出版社,2017.R語言數據挖掘方法及應用,電子工業出版社,2016.SPSS Modoler數據挖掘方法及應用(第2版),電子工業出版社,2014.SPSS統計分析方法及應用(第4版),北京市高等教育精品教材,電子工業出版社,2017.1 序言
" |