了得網計算機/網絡_R語言機器學習（原書第2版）

產品特色

width="750"

編輯推薦

（1）從頭到尾了解機器學習模型構建過程的全面指南

（2）演示了R語言中各種概念的實踐

（3）含基於R語言的Keras和TensorFlow深度學習模型介紹

（4）講授如何用 R 語言在 TensorFlow 框架中進行編程，從而讓隻擅長 R 語言的讀者不必費力去學習 Python

內容簡介

本書是介紹機器學習技術的綜合指南，從基礎的統計學原理和R語言編程知識，到核心的機器學習理論和算法分析，以及機器學習模型的評估和改進方法，再到機器學習技術在大數據平臺上的應用，書中都有詳細介紹。

本書主要在第1版的基礎上增加了兩個部分：*個是關於時間序列模型的新章節（第 9 章），這是一個源於統計學的傳統主題。第二個新增的章節是深度學習（第 11 章），它是機器學習的一個迅速崛起的子領域。除了增加這兩個章節之外，本書中的文本和代碼會以一種讀者友好的新格式來整體呈現。新版會繼續專注於使用流行的統計編程語言 R 來構建用例。對於深度學習這樣的主題，我們建議采用 Python 語言來配合 TensorFlow 這樣的框架。但是，在第2版中，我們會向讀者展示如何在 TensorFlow 中使用 R 語言編程，因此如果讀者隻熟悉 R，可以暫時無須學習 Python。與第1版一樣，我們通過各種實際用例保持了機器學習理論與應用的良好平衡，為讀者提供了一個真正全面的機器學習主題集合。

作者簡介

曼卡西克·拉瑪蘇布蘭馬尼安（Karthik Ramasubramanian）

就職於印度創業技術公司 Hike Messenger。他一直為零售、電子商務和技術行業解決跨行業的數據科學問題，開發數據驅動的解決方案並進行原型構建。Karthik 對整個數據科學生命周期（從探索數據問題，到創建數據科學模型，以及開發各行業相關產品）都具有豐富的經驗。

阿布舍克·辛格（Abhishek Singh）

他領導的數據科學專業團隊正在解決糧食安全、網絡安全、自然災害、醫療保健以及更多領域的緊迫問題。他對美國銀行的資產進行了壓力測試，開發了保險定價模型，並優化了客戶的電信體驗。他積極參與數據科學分析相關的思想交流、創作、公開演講、會議和培訓。他堅定地支持負責任地使用人工智能來消除偏見，並堅信合理使用AI將使生活更美好。

譯者序
前言
第1章機器學習和R語言入門1
1.1了解發展歷程1
1.1.1統計學習2
1.1.2機器學習2
1.1.3人工智能3
1.1.4數據挖掘3
1.1.5數據科學4
1.2概率與統計5
1.2.1計數和概率的定義5
1.2.2事件和關繫7
1.2.3隨機性、概率和分布9
1.2.4置信區間和假設檢驗9

譯者序
前言
第1章機器學習和R語言入門1
1.1了解發展歷程1
1.1.1統計學習2
1.1.2機器學習2
1.1.3人工智能3
1.1.4數據挖掘3
1.1.5數據科學4
1.2概率與統計5
1.2.1計數和概率的定義5
1.2.2事件和關繫7
1.2.3隨機性、概率和分布9
1.2.4置信區間和假設檢驗9
1.3R語言入門13
1.3.1基本組成部分13
1.3.2R語言的數據結構14
1.3.3子集處理15
1.3.4函數和Apply繫列17
1.4機器學習過程工作流19
1.4.1計劃20
1.4.2探索20
1.4.3構建20
1.4.4評估20
1.5其他技術21
1.6小結21
第2章數據準備和探索22
2.1規劃數據收集23
2.1.1變量類型23
2.1.2數據格式24
2.1.3數據源的類型29
2.2初始數據分析30
2.2.1初步印像30
2.2.2把多個數據源組織到一起32
2.2.3整理數據34
2.2.4補充更多信息37
2.2.5重塑38
2.3探索性數據分析38
2.3.1摘要統計量39
2.3.2矩42
2.4案例研究：信用卡欺詐46
2.4.1數據導入46
2.4.2數據變換47
2.4.3數據探索48
2.5小結50
第3章抽樣與重抽樣技術51
3.1介紹抽樣技術51
3.2抽樣的術語52
3.2.1樣本52
3.2.2抽樣分布52
3.2.3總群體的均值和方差53
3.2.4樣本均值和方差53
3.2.5彙總的均值和方差53
3.2.6抽樣點53
3.2.7抽樣誤差54
3.2.8抽樣率54
3.2.9抽樣偏誤54
3.2.10無放回的抽樣54
3.2.11有放回的抽樣55
3.3信用卡欺詐：總群體的統計量55
3.3.1數據描述55
3.3.2總群體的均值56
3.3.3總群體的方差56
3.3.4彙總的均值和方差56
3.4抽樣在業務上的意義59
3.5概率和非概率抽樣60
3.6關於抽樣分布的統計理論61
3.6.1大數定律62
3.6.2中心極限定理64
3.7概率抽樣技術67
3.7.1總群體的統計量67
3.7.2簡單隨機抽樣70
3.7.3繫統性隨機抽樣75
3.7.4分層隨機抽樣78
3.7.5聚類抽樣83
3.7.6自助抽樣88
3.8蒙特卡羅方法：接受-拒絕93
3.9小結95
第4章R語言裡的數據可視化96
4.1ggplot2組件包簡介97
4.2世界經濟發展指標97
4.3折線圖97
4.4堆疊柱狀圖102
4.5散點圖106
4.6箱形圖107
4.7直方圖和密度圖109
4.8餅圖113
4.9相關圖114
4.10熱點圖116
4.11氣泡圖117
4.12瀑布圖120
4.13繫統樹圖122
4.14關鍵字雲124
4.15桑基圖126
4.16時間序列圖127
4.17隊列圖129
4.18空間圖130
4.19小結133
第5章特征工程135
5.1特征工程簡介135
5.2了解工作數據136
5.2.1數據摘要137
5.2.2因變量的屬性137
5.2.3特征的可用性：連續型或
分類型140
5.2.4設置數據的假設141
5.3特征排名141
5.4變量子集的選擇144
5.4.1過濾器方法145
5.4.2包裝器方法148
5.4.3嵌入式方法154
5.5主成分分析158
5.6小結161
第6章機器學習理論和實踐162
6.1機器學習的類型163
6.1.1有監督學習164
6.1.2無監督學習164
6.1.3半監督學習165
6.1.4強化學習165
6.2機器學習算法的類別165
6.3實際環境的數據集168
6.3.1房產售價168
6.3.2購買偏好169
6.3.3Twitter訂閱和文章169
6.3.4乳腺癌170
6.3.5購物籃170
6.3.6亞馬遜美食評論170
6.4回歸分析171
6.5相關分析172
6.5.1線性回歸174
6.5.2簡單線性回歸175
6.5.線性回歸177
6.5.4模型診斷：線性回歸180
6.5.5多項回歸190
6.5.6邏輯回歸193
6.5.7logit變換194
6.5.8幾率比194
6.5.9模型診斷：邏輯回歸200
6.5.10多項邏輯回歸208
6.5.11廣義線性模型211
6.5.12結論212
6.6支持向量機213
6.6.1線性SVM214
6.6.SVM分類模型214
6.6.3多類別SVM216
6.6.4結論217
6.7決策樹217
6.7.1決策樹的類型218
6.7.2決策指標219
6.7.3決策樹學習方法221
6.7.4集成樹235
6.7.5結論241
6.8樸素貝葉斯方法241
6.8.1條件概率241
6.8.2貝葉斯定理241
6.8.3先驗概率242
6.8.4後驗概率242
6.8.5似然和邊際似然242
6.8.6樸素貝葉斯方法243
6.8.7結論247
6.9聚類分析247
6.9.1聚類方法簡介248
6.9.2聚類算法248
6.9.3內部評估256
6.9.4外部評估257
6.9.5結論259
6.10關聯規則挖掘259
6.10.1關聯概念簡介259
6.10.2規則挖掘算法261
6.10.3推薦算法267
6.10.4結論273
6.11人工神經網絡273
6.11.1人類認知學習273
6.11.2感知器275
6.11.3Sigmoi276
6.11.4神經網絡的體繫架構277
6.11.5有監督與無監督的神經網絡278
6.11.6神經網絡的學習算法279
6.11.7前饋反向傳播281
6.11.8結論286
6.12文本挖掘方法286
6.12.1文本挖掘簡介287
6.12.2文本摘要288
6.12.3TF-IDF289
6.12.4詞性標注291
6.12.5關鍵字雲295
6.12.6文本分析：Microsoft Cognitive Services295
6.12.7結論304
6.13在線機器學習算法304
6.13.1模糊C均值聚類305
6.13.2結論308
6.14構建模型的核對清單308
6.15小結308
第7章機器學習模型的評估309
7.1數據集309
7.1.1房產售價309
7.1.2購買偏好311
7.2模型性能和評估入門312
7.3模型性能評估的目標313
7.4總群體的穩定性指數314
7.5連續型輸出的模型評估318
7.5.1平均誤差320
7.5.2均方根誤差321
7.5.3R2322
7.6離散型輸出的模型評估325
7.6.1分類矩陣325
7.6.2靈敏度和特異性329
7.6.3ROC曲線下的面積330
7.7概率技術333
7.7.1K折交叉驗證333
7.7.2自助抽樣335
7.8Kappa誤差指標336
7.9小結339
第8章模型性能改進340
8.1Caret組件包概述341
8.2超參數簡介343
8.3超參數優化345
8.3.1人工搜索346
8.3.2人工網格搜索348
8.3.3自動網格搜索349
8.3.4搜索351
8.3.5隨機搜索353
8.3.6自定義搜索354
8.4偏誤和方差權衡357
8.5集成學習簡介360
8.5.1投票集成360
8.5.2集成學習中的高級方法361
8.6在R語言裡演示集成技術364
8.6.1裝袋樹364
8.6.2決策樹的梯度增強366
8.6.3混合knn和rpart369
8.6.4利用caretEnsemble進行堆疊370
8.7高級主題：機器學習模型的貝葉斯優化374
8.8小結379
第9章時間序列模型380
9.1時間序列的組成部分380
9.2平穩性檢驗383
9.3ACF和AR模型386
9.4PACF和MA模型388
9.5ARIMA模型391
9.6具有AR誤差的線性回歸397
9.7小結400
第10章可擴展機器學習和相關技術402
10.1分布式處理和存儲402
10.1.1GFS403
10.1.2MapReduce404
10.1.3R語言裡的並行執行404
10.2Hadoop生態繫統407
10.2.1MapReduce408
10.2.2Hive411
10.2.3Apache Pig414
10.2.4HBase417
10.2.5Spark418
10.3在R語言環境下用Spark進行機器學習419
10.3.1設置環境變量419
10.3.2初始化Spark會話420
10.3.3加載數據並運行預處理420
10.3.4創建SparkDataFrame421
10.3.5構建機器學習模型421
10.3.6對測試數據進行預測422
10.3.7終止SparkR會話423
10.4在R語言裡利用H2O進行機器學習423
10.4.1安裝組件包424
10.4.2H2O集群的初始化424
10.5小結425
第11章用Keras和TensorFlow進行深度學習427
11.1深度學習簡介427
11.2深度學習架構428
11.2.1卷積神經網絡428
11.2.2遞歸神經網絡429
11.2.3生成對抗網絡430
11.3深度學習的工具集431
11.3.1高級庫431
11.3.2後端引擎或框架431
11.3.3硬件能力432
11.3.4編程語言的選擇432
11.3.5雲基礎架構432
11.4用例：識別Quora中的重復問題432
11.4.1環境設置432
11.4.2數據預處理433
11.4.3基準模型434
11.4.4Siamese遞歸架構435
11.4.5Keras模型437
11.4.6模型的摘要437
11.4.7驗證樣本438
11.4.8訓練模型438
11.4.9保存模型439
11.4.10模型性能439
11.4.11進行預測440
11.4.12預測示例440
11.5小結441

前言

譯者序
本書的特點就是它的全面性。從基礎的統計學原理和R語言編程知識，到核心的機器學習理論和算法分析，以及機器學習模型的評估和改進方法，再到機器學習技術在大數據平臺上的應用，書中都用了一定的篇幅進行講述。此外，對於一些比較前沿和高級的主題，作者也給出了相應的參考資料，供有興趣的讀者進一步提高。
第2版還增加了時間序列模型，並把深度學習部分從原先的一個小節擴大為一章，從而大大提高了本書的實用性。
這樣的寫作思路給讀者展示了當今機器學習技術發展的全貌，有利於讀者理解各種機器學習技術的適用範圍及其相互聯繫，也有利於讀者先從全局和整體入手，再逐步深入到每個細節中，這樣比較容易把握適合自己的方向。至於不足之處，也許是因為範圍太廣，導致有些部分的講解不夠深入，有些代碼和實例的講解也略顯簡單。
因此，這本書比較適合機器學習技術的初學者，以及僅僅在某個領域有一定經驗、希望從更廣的角度來認識機器學習的專業人士。如果讀者希望更深入鑽研某些技術，可以將本書給出的參考資料作為起點。雖然這些參考資料基本都是英文版的，不過要掌握的技術，閱讀原版資料也是一個必要的途徑。本書還引入了很多 R 語言平臺的組件包，它們也適用於實際環境下的分析工作，是應用領域必不可少的得力工具。限於篇幅，本書很難逐個對它們進行詳細介紹，而且開源組件包的版本變化很快，在實際應用時，也需要認真閱讀它們的官方文檔。
看過我前幾本譯作的讀者都知道我有在 GitHub 上開闢討論區的習慣，這樣可以針對書中的理論、應用、代碼等問題與讀者進行交流。本書也不例外，它的討論區鏈接是 https://github.com/coderLMN/machineLearningUsingR/issues ，歡迎讀者去提出問題並參與討論。我之所以願意花時間參與這樣的討論，是因為這樣不僅能夠幫助讀者答疑，及時糾正書中可能存在的錯誤，同時我自己在這個過程中也經常可以開闊思路、得到啟發。
我不知道其他譯者會不會這麼做，但我為此感到自豪。
其實我還有一個更大的心願，就是希望讀者在實際運用這些技術時寫出自己的理解和體會，用自己的經驗來幫助其他的讀者。我希望能把這樣的實踐經驗總結放在討論區裡，其中高水平的總結還可以在書籍再印的時候作為附錄添加進去，從而幫助到更多的讀者。
真心希望這個心願在本書出版時能夠實現。
此外，我在書中加入了一些譯者注，標注了我在翻譯過程中覺得有必要說明的一些問題，例如某些代碼的變動、某些概念的通俗化解釋、提醒讀者注意的細節,等等。由於本人水平有限，雖然已盡全力查閱資料並自行驗證，但翻譯內容和譯者注裡難免會有不嚴謹或者不正確的地方，還望讀者不吝指正。
本書的代碼和數據可從官方GitHub下載：https://github.com/Apress/machine-lea-rning-r-2e。（第1版的下載鏈接是：https://github.com/Apress/machine-learning-using-r )
後，真誠感謝我的家人。這本書覆蓋的主題較多，翻譯的周期較長，有他們的支持和激勵，我纔能保質保量地完成這個工作。

吳今朝
2019年9月

前言

第2版添加了兩個新章節，一個介紹時間序列模型（第9章），這是一個源於統計學的傳統主題；第二個介紹深度學習（第11章），它是機器學習的一個迅速崛起的子領域。除了增加這兩個章節之外，本書中的文本和代碼會以一種讀者友好的新格式來整體呈現。
新版會繼續專注於使用流行的統計編程語言R來構建用例。對於深度學習這樣的主題，我們建議采用Python語言配合TensorFlow這樣的框架來學習。但是，本書會向讀者展示如何在TensorFlow中使用R語言編程，因此如果讀者隻熟悉R語言，暫時無須學習Python。
與第1版一樣，書中通過各種實際用例保持了機器學習理論與應用的良好平衡，為讀者提供了一個真正全面的機器學習主題集合。
讀者將學到的內容：
利用R語言學習機器學習算法。
掌握構建過程流的機器學習模型。
機器學習算法的理論基礎。
專注於行業的實際用例。
R語言中的時間序列建模。
在R語言中使用Keras和TensorFlow進行深度學習。
目標讀者
本書適用於希望了解機器學習方法和算法在R語言中的實踐的數據科學家、數據科學專業人員和學術界研究人員。對於那些想用Apache Hadoop、Hive、Pig和Spark實現可擴展機器學習模型相關技術的讀者，本書也能使之受益。
本書是一本全面的教程，適合想要從頭到尾了解機器學習模型構建過程的任何人，內容包括：
相關概念在R語言中的實際演示。
使用Apache Hadoop和Spark的機器學習模型。
時間序列分析。
在R語言中利用Keras和TensorFlow介紹深度學習模型。

商品搜索

商品分类

【醫學】

【各大出版社】

曼卡西克·拉瑪蘇布蘭馬尼安（Karthik Ramasubramanian）

阿布舍克·辛格（Abhishek Singh）