了得網計算機/網絡_機器學習與R語言（原書第3版）

產品特色

編輯推薦

機器學習的核心是將數據轉換為可操作的知識。R提供了一組強大的機器學習方法，可以幫助你快速輕松地發現數據背後隱藏的信息。本書通過清晰和實用的案例來探索機器學習在現實世界中的應用。無論你是經驗豐富的R用戶還是R初學者，都會從本書中學到如何發現關鍵信息、做出新的預測並進行可視化。本書的第3版包含更新和更好的庫、有關機器學習中的道德和偏差問題的建議，以及深度學習的簡介。通過閱讀本書，你將學到：• 通過示例發現機器學習的起源以及計算機的學習方式。• 使用R語言為機器學習準備數據。• 使用近鄰和貝葉斯方法對重要結果進行分類。• 使用決策樹、關聯規則和支持向量機預測未來事件。• 使用回歸方法預測數值型數據和估計金融數據。• 使用人工神經網絡為復雜過程建模——深度學習的基礎。• 避免機器學習模型中的偏差。• 評估模型並改善其性能。• 將R連接到SQL數據庫和新興的大數據技術，例如Spark、H2O和TensorFlow。

內容簡介

本書共12章：第1章介紹機器學習的基本概念和理論，並介紹用於機器學習的R軟件環境的準備；第2章介紹如何應用R來管理數據，進行數據的探索分析和數據可視化；第3～9章介紹典型的機器學習算法，包括k近鄰分類算法、樸素貝葉斯算法、決策樹和規則樹、回歸預測、黑盒算法——神經網絡和支持向量機、關聯分析、k均值聚類，並給出大量的實際案例和詳細的分析步驟，例如乳腺癌的判斷、垃圾短信的過濾、貸款違約的預測、毒蘑菇的判別、醫療費用的預測、建築用混凝土強度的預測、光學字符的識別、超市購物籃關聯分析以及市場細分等；第10章介紹模型性能評價的原理和方法；第11章給出提高模型性能的幾種常用方法；第12章討論用R進行機器學習時可能遇到的一些高級專題，如特殊形式的數據、大數據集的處理、並行計算和GPU計算等技術。

作者簡介

布雷特·蘭茨（Brett Lantz）

在應用創新的數據方法來理解人類的行為方面有十餘年經驗。他是一位DataCamp講師，經常在世界各地的機器學習會議和研討會上進行演講。他致力於研究數據科學在體育、自動駕駛汽車、外語學習和時尚等領域的應用，並維護dataspelunking.com這個網站，該網站致力於分享有關探尋數據中所蘊含的洞察的知識。

譯者簡介：

許金煒

2016年上海大學統計學碩士畢業，參與翻譯《機器學習與R語言》第1版和第2版、《R語言數據挖掘》及《高級R語言編程指南》第2版，曾於各類數學建模競賽中斬獲佳績。目前主要於金融行業從事風控領域及量化方面的工作。

譯者序
前言
第1章機器學習簡介 1
1.1機器學習的起源 1
1.2機器學習的使用與濫用 2
1.2.1機器學習的成功應用 3
1.2.2機器學習的限制 4
1.2.3機器學習的倫理方面 5
1.3機器如何學習 7
1.3.1數據存儲 8
1.3.2抽像化 8
1.3.3一般化 10
1.3.4評估 11
1.4實踐中的機器學習 12

譯者序
前言
第1章機器學習簡介 1
1.1機器學習的起源 1
1.2機器學習的使用與濫用 2
1.2.1機器學習的成功應用 3
1.2.2機器學習的限制 4
1.2.3機器學習的倫理方面 5
1.3機器如何學習 7
1.3.1數據存儲 8
1.3.2抽像化 8
1.3.3一般化 10
1.3.4評估 11
1.4實踐中的機器學習 12
1.4.1輸入數據的類型 13
1.4.2機器學習算法的類型 14
1.4.3為輸入數據匹配算法 15
1.5使用R進行機器學習 16
1.5.1安裝R添加包 17
1.5.2載入和卸載R添加包 18
1.5.3安裝RStudio 18
1.6總結 19
第2章管理和理解數據 20
2.1R數據結構 20
2.1.1向量 20
2.1.2因子 22
2.1.3列表 23
2.1.4數據框 25
2.1.5矩陣和數組 27
2.2用R管理數據 28
2.2.1保存、載入和移除R數據結構 29
2.2.2從CSV文件導入數據和將數據保存為CSV文件 29
2.3探索和理解數據 31
2.3.1探索數據的結構 31
2.3.2探索數值變量 32
2.3.3探索分類變量 40
2.3.4探索變量之間的關繫 41
2.4總結 44
第3章懶惰學習——使用近鄰分類 46
3.1理解近鄰分類 46
3.1.1k近鄰算法 47
3.1.2為什麼k-NN算法是懶惰的 52
3.2例子—用k-NN算法診斷乳腺癌 53
3.2.1第1步—收集數據 53
3.2.2第2步—探索和準備數據 54
3.2.3第3步—基於數據訓練模型 57
3.2.4第4步—評估模型的性能 58
3.2.5第5步—提高模型的性能 59
3.3總結 61
第4章概率學習——樸素貝葉斯分類 62
4.1理解樸素貝葉斯 62
4.1.1貝葉斯方法的基本概念 63
4.1.2樸素貝葉斯算法 67
4.2例子—基於貝葉斯算法的手機垃圾短信過濾 72
4.2.1第1步—收集數據 72
4.2.2第2步—探索和準備數據 73
4.2.3第3步—基於數據訓練模型 84
4.2.4第4步—評估模型的性能 85
4.2.5第5步—提高模型的性能 86
4.3總結 87
第5章分而治之——應用決策樹和規則進行分類 88
5.1理解決策樹 88
5.1.1分而治之 89
5.1.2C5.0決策樹算法 92
5.2例子—使用C5.0決策樹識別高風險銀行貸款 95
5.2.1第1步—收集數據 95
5.2.2第2步—探索和準備數據 95
5.2.3第3步—基於數據訓練模型 98
5.2.4第4步—評估模型的性能 100
5.2.5第5步—提高模型的性能 100
5.3理解分類規則 104
5.3.1獨立而治之 104
5.3.21R算法 106
5.3.3RIPPER算法 108
5.3.4來自決策樹的規則 109
5.3.5什麼使決策樹和規則貪婪 110
5.4例子—應用規則學習算法識別有毒的蘑菇 111
5.4.1第1步—收集數據 111
5.4.2第2步—探索和準備數據 112
5.4.3第3步—基於數據訓練模型 112
5.4.4第4步—評估模型的性能 114
5.4.5第5步—提高模型的性能 115
5.5總結 117
第6章預測數值型數據——回歸方法 118
6.1理解回歸 118
6.1.1簡單線性回歸 120
6.1.2普通小二乘估計 122
6.1.3相關性 123
6.1.線性回歸 124
6.2例子—應用線性回歸預測醫療費用 127
6.2.1第1步—收集數據 128
6.2.2第2步—探索和準備數據 128
6.2.3第3步—基於數據訓練模型 132
6.2.4第4步—評估模型的性能 134
6.2.5第5步—提高模型的性能 135
6.2.6第6步—用回歸模型進行預測 138
6.3理解回歸樹和模型樹 140
6.4例子—用回歸樹和模型樹估計葡萄酒的質量 142
6.4.1第1步—收集數據 142
6.4.2第2步—探索和準備數據 143
6.4.3第3步—基於數據訓練模型 144
6.4.4第4步—評估模型的性能 147
6.4.5第5步—提高模型的性能 149
6.5總結 151
第7章黑箱方法—神經網絡和支持向量機 152
7.1理解神經網絡 152
7.1.1從生到人 153
7.1.2激活函數 154
7.1.3網絡拓撲 156
7.1.4用後向傳播訓練神經網絡 159
7.2例子—用人工神經網絡對混凝土的強度進行建模 160
7.2.1第1步—收集數據 161
7.2.2第2步—探索和準備數據 161
7.2.3第3步—基於數據訓練模型 162
7.2.4第4步—評估模型的性能 164
7.2.5第5步—提高模型的性能 165
7.3理解支持向量機 169
7.3.1用超平面分類 169
7.3.2對非線性空間使用核函數 173
7.4例子—用支持向量機進行光學字符識別 175
7.4.1第1步—收集數據 175
7.4.2第2步—探索和準備數據 176
7.4.3第3步—基於數據訓練模型 177
7.4.4第4步—評估模型的性能 179
7.4.5第5步—提高模型的性能 180
7.5總結 182
第8章探尋模式——基於關聯規則的購物籃分析 183
8.1理解關聯規則 183
8.1.1用於關聯規則學習的Apriori算法 184
8.1.2度量規則興趣度—支持度和置信度 185
8.1.3用Apriori原則建立規則 186
8.2例子—用關聯規則確定經常一起購買的食品雜貨 187
8.2.1第1步—收集數據 187
8.2.2第2步—探索和準備數據 188
8.2.3第3步—基於數據訓練模型 193
8.2.4第4步—評估模型的性能 195
8.2.5第5步—提高模型的性能 197
8.3總結 200
第9章尋找數據的分組——k均值聚類 201
9.1理解聚類 201
9.1.1聚類—一種機器學習任務 202
9.1.2k均值聚類算法 203
9.2例子—用k均值聚類探尋青少年市場細分 209
9.2.1第1步—收集數據 209
9.2.2第2步—探索和準備數據 210
9.2.3第3步—基於數據訓練模型 213
9.2.4第4步—評估模型的性能 215
9.2.5第5步—提高模型的性能 217
9.3總結 219
第10章模型性能的評估 220
10.1度量分類方法的性能 220
10.1.1理解分類器的預測 221
10.1.2深入探討混淆矩陣 224
10.1.3使用混淆矩陣度量性能 225
10.1.4準確率之外的其他性能度量指標 226
10.1.5使用ROC曲線可視化性能權衡 233
10.2評估未來的性能 237
10.3總結 242
第11章提高模型的性能 243
11.1調整多個模型來提高性能 243
11.2學習來提高模型的性能 251
11.2.1理解集成學習 251
11.2.2bagging 253
11.2.3boosting 254
11.2.4隨機森林 256
11.3總結 261
第12章其他機器學習主題 262
12.1管理和準備真實數據 262
12.1.1使用tidyverse添加包使數據變得“整潔” 263
12.1.2讀取和寫入外部數據文件 265
12.1.3查詢SQL數據庫中的數據 266
12.2處理在線數據和服務 270
12.2.1下載網頁的所有文本 270
12.2.2解析網頁中的數據 271
12.3處理特定領域的數據 277
12.3.1分析生物信息學數據 277
12.3.2分析和可視化網絡數據 277
12.4提高R語言的性能 280
12.4.1處理非常大的數據集 281
12.4.2使用並行計算來加快學習過程 283
12.4.3部署優化的學習算法 290
12.4.4GPU計算 292
12.5總結 294

前言

譯者序
隨著大數據的概念變得越來越流行，對數據的探索、分析和預測逐漸成為大數據分析領域的基本技能。作為探索和分析數據的基本理論和工具，機器學習和數據挖掘成為時下熱門的技術。R作為功能強大且免費的數據分析工具，在數據分析領域獲得了越來越多用戶的青睞。本書介紹了如何使用R來進行現實世界中的機器學習，如何從數據中獲取可以付諸行動的見解。
本書的作者Brett Lantz在機器學習領域擁有十餘年的實踐經驗，他在本書中介紹了多種機器學習算法。在給出相應的機器學習算法的核心理論之後，都會給出一個實際的案例，從對案例數據的探索、整理，到模型的建立和評估，每一步都給出了詳盡的步驟和R代碼。

譯者序
隨著大數據的概念變得越來越流行，對數據的探索、分析和預測逐漸成為大數據分析領域的基本技能。作為探索和分析數據的基本理論和工具，機器學習和數據挖掘成為時下熱門的技術。R作為功能強大且免費的數據分析工具，在數據分析領域獲得了越來越多用戶的青睞。本書介紹了如何使用R來進行現實世界中的機器學習，如何從數據中獲取可以付諸行動的見解。
本書的作者Brett Lantz在機器學習領域擁有十餘年的實踐經驗，他在本書中介紹了多種機器學習算法。在給出相應的機器學習算法的核心理論之後，都會給出一個實際的案例，從對案例數據的探索、整理，到模型的建立和評估，每一步都給出了詳盡的步驟和R代碼。
本書共分12章。第1章介紹了機器學習的基本概念和理論，並介紹了用於機器學習的R軟件環境的準備。第2章介紹了如何應用R來管理數據，進行數據的探索分析和可視化。第3～9章介紹了典型的機器學習算法和案例，它們分別是：k近鄰分類算法、樸素貝葉斯算法、決策樹和規則樹、回歸預測、黑盒算法—神經網絡和支持向量機、關聯分析、k均值聚類。伴隨著對這些算法的介紹，書中給出了大量的實際案例，並給出了詳細的分析步驟，案例包括乳腺癌的判斷、垃圾短信的過濾、貸款違約的預測、毒蘑菇的判別、醫療費用的預測、建築用混凝土強度的預測、光學字符的識別、購物籃關聯分析以及市場細分等。第10章介紹了模型性能評估的原理和方法。第11章給出了提高模型性能的幾種常用方法。第12章討論了用R進行機器學習時可能遇到的一些高級主題，例如特殊形式的數據、大數據集的處理、並行計算和GPU計算等技術。
R本身是一款十分優秀的數據分析和可視化軟件，現在R中有大量用於機器學習的添加包。本書以機器學習算法為主線，通過案例學習的形式來組織內容，脈絡清晰，並且各章自成體繫。讀者可以從頭開始逐章學習，也可以找到自己所需要的內容來學習。讀者隻需要具有R的一些基本知識即可，不需要具備機器學習的深厚基礎。不管是R初學者，還是熟練的R用戶，都能從書中找到對自己有用的內容。
譯者曾經應用本書的部分內容進行教學，學生都反映這些內容具有極強的實用價值，許多內容直接或者略加修改就可以應用到他們的實際工作中。我們有幸受機械工業出版社委托將本書譯成中文，希望中文版的出版能夠給國內讀者學習R與機器學習帶來方便。
本書的翻譯工作由李洪成、許金煒和潘文捷共同完成，全書由李洪成統一定稿。由於時間和水平所限，書中難免會有不當之處，希望同行和讀者多加指正。

李洪成
2020年12月

在線試讀

前言
機器學習的核心是將信息轉化為具有可行性知識的算法。這一事實使得機器學習非常適用於當今的大數據時代。如果沒有機器學習，要跟上海量的信息數據流幾乎是不可能的。
鋻於R的地位不斷提高（R是一個跨平臺、零成本的統計編程環境），現在是開始使用機器學習的好時機。R提供了一套功能強大且易於學習的工具，這些工具可以幫助我們發現數據背後隱藏的信息。
通過把實踐案例研究與基本理論（你需要理解這些理論在後臺是如何運行的）相結合，本書提供了在工作中使用機器學習所需要的全部知識。
本書讀者對像
本書適用於任何希望使用數據來采取行動的人。或許你已經對機器學習有些了解但從來沒有使用過R，或許你已經對R有些了解,但機器學習對你來說是全新的。無論是哪種情況，本書都將讓你快速上手。稍微熟悉一些基本的數學和編程概念將會有幫助，但並不需要先前有經驗，你隻需要有好奇心就行。
本書涵蓋的內容
第1章介紹用來定義和區分機器學習算法的術語和概念，並給出將學習任務與適當算法相匹配的方法。
第2章提供一個在R中自己實際動手操作數據的機會，並討論基本的數據結構以及用於載入、探索和理解數據的程序。
第3章教你如何將一個簡單且功能強大的機器學習算法應用於你的個學習任務：識別癌癥的惡性樣本。
第4章揭示用於先進的垃圾郵件過濾繫統的基本概率知識。在建立你自己的垃圾郵件過濾器的過程中，你將學習文本挖掘的基本知識。
第5章探索兩種學習算法，它們的預測結果不僅精確而且容易解釋。我們將把這兩種算法應用於對透明度要求很高的任務中。
第6章介紹用於數值預測的機器學習算法。由於這些技術在很大程度上來源於統計領域，所以你還將通過學習必要的基本指標來理解數值之間的關繫。
第7章包括兩個極其復雜但功能強大的機器學習算法。盡管數學可能會讓人望而生畏，但是我們將以簡單的術語結合實際例子來說明它們內部的運作原理。
第8章揭示許多零售商使用的推薦繫統的算法。如果你想知道零售商是如何比你自己更了解你的購物習慣的，本章將揭示他們的秘密。
第9章介紹k均值聚類。該算法用來查找相關個體的聚類。我們將使用該算法來確定一個網絡社區內的分布。
第10章提供一些信息來度量機器學習項目是否成功，並得到學習器針對未來數據的性能的可靠估計。

前言
機器學習的核心是將信息轉化為具有可行性知識的算法。這一事實使得機器學習非常適用於當今的大數據時代。如果沒有機器學習，要跟上海量的信息數據流幾乎是不可能的。
鋻於R的地位不斷提高（R是一個跨平臺、零成本的統計編程環境），現在是開始使用機器學習的好時機。R提供了一套功能強大且易於學習的工具，這些工具可以幫助我們發現數據背後隱藏的信息。
通過把實踐案例研究與基本理論（你需要理解這些理論在後臺是如何運行的）相結合，本書提供了在工作中使用機器學習所需要的全部知識。
本書讀者對像
本書適用於任何希望使用數據來采取行動的人。或許你已經對機器學習有些了解但從來沒有使用過R，或許你已經對R有些了解,但機器學習對你來說是全新的。無論是哪種情況，本書都將讓你快速上手。稍微熟悉一些基本的數學和編程概念將會有幫助，但並不需要先前有經驗，你隻需要有好奇心就行。
本書涵蓋的內容
第1章介紹用來定義和區分機器學習算法的術語和概念，並給出將學習任務與適當算法相匹配的方法。
第2章提供一個在R中自己實際動手操作數據的機會，並討論基本的數據結構以及用於載入、探索和理解數據的程序。
第3章教你如何將一個簡單且功能強大的機器學習算法應用於你的個學習任務：識別癌癥的惡性樣本。
第4章揭示用於先進的垃圾郵件過濾繫統的基本概率知識。在建立你自己的垃圾郵件過濾器的過程中，你將學習文本挖掘的基本知識。
第5章探索兩種學習算法，它們的預測結果不僅精確而且容易解釋。我們將把這兩種算法應用於對透明度要求很高的任務中。
第6章介紹用於數值預測的機器學習算法。由於這些技術在很大程度上來源於統計領域，所以你還將通過學習必要的基本指標來理解數值之間的關繫。
第7章包括兩個極其復雜但功能強大的機器學習算法。盡管數學可能會讓人望而生畏，但是我們將以簡單的術語結合實際例子來說明它們內部的運作原理。
第8章揭示許多零售商使用的推薦繫統的算法。如果你想知道零售商是如何比你自己更了解你的購物習慣的，本章將揭示他們的秘密。
第9章介紹k均值聚類。該算法用來查找相關個體的聚類。我們將使用該算法來確定一個網絡社區內的分布。
第10章提供一些信息來度量機器學習項目是否成功，並得到學習器針對未來數據的性能的可靠估計。
第11章揭示在機器學習競賽中排名靠前的團隊所采用的方法。如果你具有競爭意識，或者僅僅想獲取數據中盡可能多的信息，那麼你需要學習這些技術。
第12章探討機器學習的前沿主題。從使用大數據到使R的運行速度更快，涉及的這些主題將幫助你拓展使用R進行數據挖掘的界限。
學習本書的知識準備
本書中的例子是基於Microsoft Windows和Mac OS X繫統的R 3.5.2版本進行編寫與測試的，當然，對於任意的R版本，這些例子都能運行。
下載示例代碼文件及彩色圖像
本書的示例代碼文件及使用的截圖或圖表的彩色圖像，可以從Packtpub（http://www.packtpub.com）通過個人賬號下載，也可以訪問華章圖書官網http://www.hzbook.com，通過注冊並登錄個人賬號下載。
本書的代碼包也放在GitHub的https://github.com/PacktPublishing/Machine-Learning-with-R-Third-Edition和https://github.com/dataspelunking/MLwR/上。
本書排版約定
在本書中，你將發現一些用於區分不同類型信息的文本樣式。下面是這些樣式的一些例子，以及它們的含義。
書中的代碼、函數名、文件名、文件擴展名、用戶輸入和R添加包名字，如下所示： “class包中的knn()函數提供了k-NN算法的標準經典實現”
R用戶的輸入和輸出如下所示：

新的術語和重要概念以黑體顯示。你在屏幕上看到的單詞，例如，在菜單或對話框中看到的單詞，像這樣顯示在書中：“CRAN頁面左邊的任務視圖鏈接提供了添加包的長列表。”
警告或者重要注釋。
提示和技巧。
致謝
如果沒有家人和朋友的支持，編寫本書是根本不可能的。特別是，非常感謝我的妻子Jessica在過去一年中對我的耐心與鼓勵。我的兒子Will和Cal分別出生於本書第1版和第2版的寫作期間，在我撰寫本版時他們分散了我較多的精力。我把本書獻給我的孩子們，希望有一天他們能從中受到啟發，應對重大的挑戰，並跟隨他們的好奇心，無論他們的好奇心會通向哪裡。
我還要感謝支持本書的很多人。本書的很多想法來源於我與密歇根大學、聖母大學以及中佛羅裡達大學的教育工作者、同事以及合作者的交流。此外，如果沒有各位研究人員以公開出版物、課程和源代碼的形式分享他們的專業知識，本書可能根本就不會存在。後，我要感謝R和RStudio團隊以及所有那些貢獻R添加包的人員的努力，是他們終為大家普及了機器學習。真心希望我的這本書能對機器學習領域做出一點貢獻。
關於作者
布雷特·蘭茨（Brett Lantz，@DataSpelunking）在應用創新的數據方法來理解人類的行為方面有10餘年經驗。他初是一名社會學家，在研究一個包含青少年社交網絡資料的大型數據庫時，他就開始沉醉於機器學習。Brett是一位DataCamp講師，經常在世界各地的機器學習會議和研討會上進行演講。他致力於研究數據科學在體育、自動駕駛汽車、外語學習和時尚等領域的應用，並希望有一天在dataspelunking.com上發布有關這些主題的博客，該網站致力於分享探尋數據中所蘊含的深刻知識。
關於審稿人
拉格哈夫·巴利（Raghav Bali）是全球的醫療保健組織之一的高級數據科學家。他的工作包括針對醫療保健和保險相關的用例研究和開發基於機器學習、深度學習和自然語言處理的企業級解決方案。他曾在英特爾任職，參與了使用自然語言處理、深度學習和傳統統計方法來實施主動式數據驅動的IT計劃。他還曾在美國運通公司從事金融領域的工作，解決數字參與和客戶維持的用例。
拉格哈夫還與一些主流的出版商合作出版了多本書，其中一本是關於遷移學習的研究進展的。
拉格哈夫擁有班加羅爾國際信息技術研究所的信息技術碩士學位（全優畢業生）。當拉格哈夫不忙於解決問題時，他喜歡讀書，並且是一個攝影愛好者。

商品搜索

商品分类

【醫學】

【各大出版社】