作 者:(美)尼娜·祖梅爾,(美)約翰·蒙特 著 張駿溫,許向東,張博遠 譯
定 價:139
出 版 社:清華大學出版社
出版日期:2022年01月01日
頁 數:1176
裝 幀:平裝
ISBN:9787302595441
"在《R數據科學實戰》(第2版)這本書中,作者用了一些篇幅描述了什麼是數據科學、數據科學家是如何解決問題的,以及對他們工作的描述。其中,包括對經典監督學習方法(如線性回歸和邏輯回歸)的詳細描述。我們喜歡本書的調研式風格,以及使用的大量的競賽獲獎方法和程序包的示例(如隨機森林和xgboost)。本書涵蓋了非常有用的、可共享的經驗和實踐建議。我們注意到,在本書中甚至包括了我們自己使用過的一-些技巧,例如使用隨機森林變量重要性進行初始變量的篩選。"
●第Ⅰ部分 數據科學引論
第1章 數據科學處理過程
1.1 數據科學項目中的角色
1.2 數據科學項目的階段
1.2.1 制定目標
1.2.2 收集和管理數據
1.2.3 建立模型
1.2.4 評價和評判模型
1.2.5 展現結果和編制文檔
1.2.6 部署模型
1.3 設定預期
1.4 小結
第2章 從R和數據入門
2.1 R入門
2.1.1 安裝R、工具和示例
2.1.2 R編程
2.2 處理文件中的數據
2.2.1 使用來自文件或URL的結構良好的數據
2.2.2 使用R處理非結構化的數據
2.3 使用關繫數據庫
2.4 小結
第3章 探索數據
3.1 使用概要統計方法發現問題
3.2 使用圖形和可視化方法發現問題
3.2.1 采用可視化的方法檢查單變量的分布
3.2.2 采用可視化的方法檢查兩個變量之間的關繫
3.3 小結
第4章 管理數據
4.1 清洗數據
4.1.1 特定領域的數據清洗
4.1.2 處理缺失值
4.1.3 自動處理缺失值變量的vtreat程序包
4.2 數據轉換
4.2.1 歸一化處理
4.2.2 中心化和定標
4.2.3 針對偏態分布和廣泛分布的對數轉換
4.3 用於建模和驗證的抽樣處理
4.3.1 用於測試和訓練的分組數據集
4.3.2 創建一個樣本分組列
4.3.3 記錄分組
4.3.4 數據來源
4.4 小結
第5章 數據工程與數據整理
5.1 數據選取
5.1.1 設置行子集和列子集
……
第Ⅱ部分 建模方法
第6章 選擇和評價模型
第7章 線性和邏輯回歸
第8章 高級數據準備
第9章 無監督方法
第10章 高級方法探索
第Ⅲ部分 結果交付
第11章 文檔編制和部署
第12章 有效的結果展現
附錄A 使用R和其他工具
附錄B 重要的統計學概念
附錄C 參考文獻
有依據的決策對於成功至關重要。將正確的數據分析技術應用到精心籌備的業務數據中有助於做出準確預測、確定趨勢,以及提前發現問題。R數據分析平臺提供了許多高效率的工具,可用來處理日常的數據分析和機器學習任務。 《R數據科學實戰》(第2版)是一本基於任務的教程,引導讀者使用R語言參與幾十個實用的數據分析實踐。本書重點介紹讀者在工作中將面臨的最重要任務,對於商業分析師和數據科學家來說都非常實用。因為數據隻有在可理解的情況下纔有用,所以讀者也可以在表格中找到組織和展示數據的妙招,以及快速生動的可視化效果。