了得網計算機/網絡_基於Python的無監督學習

產品特色

編輯推薦

使用Python進行無監督學習實踐，如何編寫利用無標簽數據的機器學習解決方案。
很多業內專家認為無監督學習是人工智能的下一個前沿，可能把握著進入通用人工智能的鑰匙。因為世界上絕大部分數據是無標簽的，傳統的監督學習不能使用到它們。無監督學習通過另外的方法可以使用到這些無標簽的數據集從而發現數據深層的有價值的數據模型，這些模型可能是人類自身也無法發現的。
作者Ankur Patel通過兩個簡單的、可應用於生產的Python框架向您展示了如何應用無監督學習:Scikit-learn和包含Keras的TensorFlow。通過代碼和親身操作的實例，數據科學家將發現數據中難以發現的模型：檢測數據中的異常、進行自動特征工程和選擇、生成合成數據集等，並獲得更深層次的業務洞察力。您所需要的隻是一些編程和機器學習經驗就可以開始學習本書。
“研究人員、工程師和學生將會欣賞這本書，書中充滿了實用的無監督學習技術、通俗易懂並非常實用的Python示例，學習起來快速並且有效。” ——Sarah Nagy
Edson資深數據科學家

內容簡介

本書主要內容有：比較不同機器學習方法的優缺點、監督學習、無監督學習和強化學習。從頭到尾的建立和管理機器學習項目。建立一個異常檢測繫統，以捕捉信用卡交易的欺詐。將用戶集群到不同的同構組中。執行半監督學習。使用受限制玻爾茲曼機開發電影推薦繫統。使用生成對抗網絡生成合成圖像。

作者簡介

Ankur A.Patel是7Park data數據科學部門的副總裁（隸屬於Vista Equity Partners投資組合公司）。在7Park data，Ankur和他的數據科學團隊使用替代數據為對衝基金和企業構建數據產品，並為企業客戶開發機器學習服務（MLaaS）。

目錄
前言 1
部分無監督學習基礎
第1 章機器學習生態繫統中的無監督學習 15
機器學習基本術語 15
基於規則(Rules-Based) 與機器學習 17
監督學習與無監督學習 17
監督學習的優缺點 18
無監督學習的優缺點 19
使用無監督學習改進機器學習的解決方案 20
了解監督學習算法 23
線性算法 25
基於鄰域的算法 26
基於樹的算法 28

目錄
前言 1
部分無監督學習基礎
第1 章機器學習生態繫統中的無監督學習 15
機器學習基本術語 15
基於規則(Rules-Based) 與機器學習 17
監督學習與無監督學習 17
監督學習的優缺點 18
無監督學習的優缺點 19
使用無監督學習改進機器學習的解決方案 20
了解監督學習算法 23
線性算法 25
基於鄰域的算法 26
基於樹的算法 28
支持向量機 29
神經網絡 30
了解無監督學習算法 30
降維 30
聚類 33
特征提取 35
無監督深度學習 36
使用無監督學習解決序列數據問題 38
利用無監督學習的強化學習 39
半監督學習 40
無監督學習的成功應用 40
結論 42
第2 章完整機器學習項目 43
環境設置 43
版本控制：Git 43
克隆本書的Git 存儲庫 44
科學庫：Anaconda 發行版Python 44
神經網絡：TensorFlow 和Keras 45
梯度提升算法，版本1: XGBoost 45
梯度提升算法，版本2：LightGBM 46
聚類算法 46
交互式計算環境：Jupyter Notebook 47
數據概述 47
數據準備 48
數據采集 48
數據研究 50
生成特征矩陣和標簽數組 53
特征工程與特征選擇 54
數據可視化（Data Visualization） 55
模型準備 56
分離出訓練和測試數據集 56
選擇成本函數 57
創建k 折交叉驗證集 58
機器學習模型（部分） 58
評估指標 62
混淆矩陣（Confusion Matrix） 62
精確率召回率曲線（Precision-Recall Curve） 63
觀察者操作特征曲線（receiver operating characteristic） 65
機器學習模型（第二部分） 68
模型2：隨機森林(Random Forests) 68
模型3：XGBoost 梯度提升機（gradient boosting machine） 71
模型4：LightGBM 梯度提升機 74
使用測試集對四個模型評估 77
集成（Ensembles） 82
終算法選擇 86
完整生產繫統 87
結論 87
第二部分使用SciKit-Learn 進行無監督學習
第3 章降維 91
降維的動因 91
降維算法 96
主成分分析（principal component analysis，PCA） 97
PCA 概念 97
PCA 練習 98
增量PCA 103
稀疏PCA 104
核PCA 105
奇異值分解 107
隨機投影 108
等距映射 111
多維標度法 112
局部線性嵌入 113
t- 分布隨機鄰域嵌入 114
其他降維方法 115
字典學習 116
獨立成分分析 118
結論 119
第4 章異常檢測 120
信用卡欺詐檢測 121
準備數據 121
定義異常評分函數 121
定義評估指標 123
定義繪圖函數 124
普通PCA 異常檢測 124
PCA 成分數量等於原始特征的數量 125
尋找主成分數 128
稀疏PCA 異常檢測 130
核PCA 異常檢測 132
高斯隨機投影異常檢測 135
稀疏隨機投影異常檢測 137
非線性異常檢測 138
字典學習異常檢測 139
ICA 異常檢測 141
在測試數據集上運行欺詐檢測解決方案 143
測試數據集上的普通PCA 異常檢測 143
測試集上的ICA 異常檢測 145
測試集上使用字典學習異常檢測 146
結論 148
第5 章聚類 149
MNIST 數字集 150
聚類算法 151
k 均值 152
k 均值慣性 153
評估聚類結果 154
k 均值精度 156
k 均值和主成分的數量 158
原始數據集上的k 均值 159
層次聚類 161
層次聚類方法 162
樹狀圖 163
評估聚類結果 165
密度聚類（DBSCAN） 168
DBSCAN 算法 168
HDBSCAN 170
結論 172
第6 章分組分割 173
借貸俱樂部數據 173
數據準備 174
將字符串格式轉換為數字格式 176
輸入缺失值 176
特征工程 179
選擇終特征集並執行縮放 179
指定用來評估的標簽 179
聚類的好處 181
k 均值應用 183
分層聚類應用 186
HDBSCAN 應用程序 190
結論 192
第三部分使用TensorFlow 和Keras
無監督學習
第7 章自動編碼器 195
神經網絡 196
TensorFlow 198
Keras 199
自動編碼器：編碼器和解碼器 199
欠完備自動編碼器 200
過完備自動編碼器 201
密集與稀疏自動編碼器 202
降噪自動編碼器 202
變分自動編碼器 203
結論 204
第8 章自動編碼器實踐 205
數據準備 205
自動編碼器的組成部分 208
激活函數 209
我們的臺自動編碼器 210
損失函數 211
優化器 211
訓練模型 212
對測試集進行評估 214
具有線性激活函數的兩層欠完備自動編碼器 216
增加節點數 220
添加更多隱藏層 222
非線性自動編碼器 223
具有線性激活的過完備自動編碼器 226
具有線性激活、隨機失活的過完備自動編碼器 228
具有稀疏、線性激活、隨機失活的過完備自動編碼器 231
具有稀疏、線性激活、隨機失活功能的過完備自動編碼器 234
使用噪聲數據集 236
降噪自動編碼器 236
二層、降噪、具備線性激活的欠完備自動編碼器 237
兩層、降噪、具備線性激活的過完備自動編碼器 240
兩層、降噪、ReLu 激活的過完備自動編碼器 242
結論 244
第9 章半監督學習 246
數據準備 246
監督模型 250
無監督模型 252
半監督模型 254
監督和無監督的合力 257
結論 258
第四部分使用TensorFlow 和Keras
進行深度無監督學習
第10 章使用受限玻爾茲曼機器的推薦繫統 261
玻爾茲曼機器 262
推薦繫統 263
協同過濾 263
Netflix 獎 264
MovieLens 數據集 264
數據準備 265
定義成本函數：均方誤差 269
進行基線實驗 270
矩陣分解 271
一個潛在因子 272
三個潛在因子 273
五個潛在因子 274
使用RBM 的協同過濾 274
RBM 神經網絡結構 275
構建RBM 類的組件 277
訓練RBM 推薦繫統 280
結論 281
第11 章基於深度信念網絡的特征檢測 282
深層信念網絡詳述 282
MNIST 圖像分類 283
受限波爾茲曼機 285
構建RBM 類的組件 286
使用RBM 模型生成圖像 289
查看中間特征檢測器 289
為DBN 訓練三個RBM 290
檢查特征檢測器（Examine Feature Detectors） 293
查看生成的圖像 294
完整DBN 297
DBN 訓練的工作原理 302
訓練DBN 302
無監督學習如何幫助監督學習 304
使用LightGBM 的圖像分類器 312
監督學習 312
無監督和監督的解決方案 314
結論 315
第12 章生成對抗網絡 316
生成對抗網絡概念 316
深度卷積生成對抗網絡 317
卷積神經網絡 318
重新思考DCGAN 323
DCGAN 生成器 324
DCGAN 的鋻別器 326
鋻別器和對抗模型 327
MNIST 數據集的DCGAN 328
在MNIST 數據集執行DCGAN 330
結論 332
第13 章時間序列聚類 333
心電數據 334
走進時間序列聚類 334
心電圖k 形時間序列聚類 335
數據準備 336
訓練和評估 340
在ECG5000 上使用k 形進行時間序列聚類 342
數據準備 342
訓練和評估 346
基於k 均值的ECG5000 時間序列聚類 348
基於ECG5000 的分層DBSCAN 時間序列聚類 349
比較時間序列聚類算法 350
k 形 351
k 均值 353
HDBSCAN 354
比較所有三種時間序列聚類方法 355
結論 357
第14 章尾聲 358
監督學習 359
無監督學習 359
SciKit-Learn 360
TensorFlow 和Keras 361
強化學習 362
今天有希望的無監督學習領域 362
無監督學習的未來 364
結語 366
作者介紹 367
封面介紹 367

前言

前言機器學習簡史機器學習是人工智能（AI）的一個子領域。計算機通過對數據的學習，在無需進行顯式編程的情況下提高在某些狹義任務中的性能。機器學習（machine learning）這個詞早在1959 年就被Arthur Samuel （人工智能領域的傳奇人物）提出，但是在二十一世紀機器學習幾乎沒有什麼重大的商業成功。機器學習始終是大學和學術界的研究方向。20 世紀60 年代，人工智能社區對其未來過於樂觀。當時的研究人員，如Herbert Simon 和Marvin Minsky，聲稱人工智能將在幾十年內達到與人類智力相當的水平：注1機器是可以勝任的，在二十年內，將能夠完成人所能做的任何工作。——Herbert Simon，1965 年在3~8 年內，我們將擁有一臺與人類平均智力水平相當的機器。——Marvin Minsky，1970 年在盲目的樂觀情緒引領下，研究人員投身於所謂的強人工智能或通用人工智能項目，試圖建立起具備解決問題、表述知識、學習和計劃、自然語言處理、感知和運動控制的人工智能代理。這個新興領域的樂觀情緒有助於從國防部等主要機構吸引大量資金，但這些研究人員過於雄心勃勃，終注定要失敗。人工智能的研究很少能夠從學術界躍升到工業界，隨之而來的是一繫列所謂的人工智能鼕季。在這些人工智能的鼕天（類比冷戰時期核鼕天），人們對人工智能的興趣和資金減少了。偶爾會周期性圍繞人工智能進行炒作，但持續不了多久。到20 世紀90 年代初，對人工智能的興趣和資助已經達到低谷。人工智能（AI）回來了，但為什麼是現在？在過去的二十年裡，人工智能以復仇的方式重新出現，首先是作為一個純粹的學術領域，現在是在各個領域，AI 吸引著大學和企業中聰明的人參與其中。這種復蘇背後有三個關鍵的進展：機器學習算法的突破、大量數據的可用性和超高速計算機。，研究人員不再關注過於雄心勃勃的通用人工智能項目，而是將注意力轉向通用人工智能的狹義子問題[（也稱為弱人工智能（Weak AI）或限制領域人工智能（ narrow AI）]。這種專注於改進狹義任務解決方案的設想促進了算法上的突破，而算法的突破為成功的商業應用鋪平了道路。許多初在大學或私人研究實驗室開發的算法都很快提供開源，而開源加快了行業對這些技術的應用。第二，如何獲取數據成為大多數組織關注的焦點，與此同時存儲數據的成本因存儲技術的進步而大幅下降。在互聯網的助力之下，大量的數據變得越來越容易獲取，其規模達到前所未有。第三，雲計算所提供計算機變得越來越強大並且可用性很高，這使得人工智能研究人員能夠根據需要輕松、廉價地擴展其IT 基礎設施，而無需在硬件方面進行巨額前期投資。人工智能應用的出現這三支力量將人工智能從學術界推向了工業界，業界對人工智能的興趣越來越高並且提供的資金不斷增加。人工智能不再隻是一個理論領域，而是一個全面的應用領域。圖P-1 Google Trends 生成的趨勢圖顯示了過去五年對機器學習興趣的增長。人工智能現在被視為一種突破性技術，類似於計算機和智能手機的出現，在未來十年內對每個行業都將產生重大影響。注2涉及機器學習的成功商業應用包括但不限於光學字符識別、垃圾郵件過濾、圖像分類、計算機視覺、語音識別、機器翻譯、分群和聚類、人工數據合成、異常檢測、網絡犯罪預防、信用卡欺詐檢測、互聯網欺詐檢測、時間序列預測、自然語言處理、桌面遊戲和視頻遊戲、文檔分類、推薦繫統、搜索、機器人、在線廣告、情感分析、DNA 測序、金融市場分析、信息檢索、問答和醫療建議。過去20 年中人工智能應用的主要裡程碑這裡提到的裡程碑幫助人工智能從一個主要的學術話題發展到今天的主流技術。? 1997 年：IBM 公司深藍（Deep Blue）——一款從20 世紀80 年代中期就開始開發的人工智能機器人，在一次廣為人知的國際像棋比賽中擊敗了世界像棋大師Garry Kasparov。? 2004 年：美國國防高級研究計劃局（DARPA）推出了DARPA 大挑戰賽——在沙漠舉辦的年度自動駕駛挑戰賽。2005 年，斯坦福大學獲得獎。2007 年，卡內基梅隆大學在城市環境下完成了這一壯舉。2009 年，Google 制造了一輛自動駕駛汽車。到2015 年，包括特斯拉（Tesla）、Alphabet（Google 的母公司）旗下的Waymo 和優步（Uber）在內的許多主要技術巨頭已經啟動了資金充足的項目，以構建主流自動駕駛技術。? 2006 年：多倫多大學的Geoffrey Hinton 推出了一種快速學習算法，用於訓練多層神經網絡，從而啟動了深度學習革命。? 2006 年：Netflix 推出了總獎金100的Netflix 大獎賽，挑戰團隊需要使用機器學習提高推薦繫統的準確性至少10%。2009 年，一個隊伍獲得了該獎。? 2007 年：阿爾伯塔大學的一個團隊使人工智能在跳棋方面有了超人表現。? 2010 年：ImageNet 項目發起了年度競賽—— ImageNet 大規模視覺識別挑戰賽（ILSVRC），在該挑戰賽中，團隊使用機器學習算法來對這個超大規模數據集進行檢測和分類。這個挑戰賽引起了學術界和技術界的極大關注。分類錯誤率從2011 年的25% 下降到2015 年的幾個百分點，這得益於深度卷積神經網絡的進步。而卷積神經網絡的進步導致了計算機視覺和對像識別的商業應用。? 2010 年：微軟推出Xbox 360 版Kinect。由微軟研究院的計算機視覺團隊開發的Kinect 能夠跟蹤人體運動並將其轉化為遊戲。? 2010 年：Siri 是早的主流數字語音助手之一，被蘋果收購，並於2011年10 月作為iPhone4S 的一部分發布。終，Siri 在蘋果的所有產品中都得到了推廣。在卷積神經網絡和長時間短時記憶循環神經網絡的支持下，Siri 可以同時執行語音識別和自然語言處理。終，亞馬遜、微軟和Google 進入競爭，分別發布了Alexa（2014）、Cortana（2014）和Google Assistant（2016）。? 2011 年：IBM Watson，一個由David Ferrocci 所領導團隊開發出來的回答問題人工智能代理擊敗了前Jeopardy 獲獎者 Brad Rutter 和Ken Jennings，IBM Watson 現已在多個行業使用，包括醫療保健和零售業。? 2012：由Andrew Ng 和Jeff Dean 領導的Google 大腦團隊訓練了一個神經網絡來自動觀看YouTube 視頻中提取出來的圖片並識別出其中的貓。? 2013 年：Google 贏得了美國國防高級研究計劃局（DARPA）的機器人挑戰賽，其中包括半自主機器人在危險環境中執行復雜任務的試驗，例如駕駛車輛、穿過碎石、清除堵塞入口的障礙物、打開車門和爬梯子。? 2014 年：Facebook 發布了在DeepFace 上的研究成果，DeepFace 是一個基於神經網絡的繫統，能夠以97% 的準確率識別人臉。這接近人的水平，比以前的繫統提高了27% 以上。? 2015 年：人工智能成為主流，在世界各地的媒體機構中普遍使用。? 2015 年：Google DeepMind 的AlphaGo 在圍棋遊戲中擊敗了的專業選手範輝。2016 年，AlphaGo 打敗了李世石，2017 年，AlphaGo 擊敗了何潔。2017 年，一個稱為AlphaGo Zero 的新版本擊敗先前的AlphaGo版本100 比零。AlphaGo Zero 融合了無監督的學習技巧，大師們隻需自己演奏。? 2016：Google 對其語言翻譯進行了重大改造，將其現有的基於短語的翻譯繫統替換為基於深度學習的神經機器翻譯繫統，將翻譯錯誤減少了87%，接近人類的準確度。? 2017 年：由卡內基·梅隆開發的Libratus 贏得了“一對一無限注德州撲克”。? 2017 年：在Dota 2 錦標賽上，OpenAI 訓練的機器人擊敗了專業玩家。限制領域人工智能(Narrow AI) 到通用人工智能(AGI )當然，這些將人工智能應用於狹義問題的成功隻是一個起點。人工智能界越來越相信，通過多個弱人工智能繫統的結合可以發展出功能強大的人工智能繫統。這種強大的人工智能或人工智能代理將能夠在許多廣泛定義的任務中實現人類水平的性能。一些研究人員預測，在人工智能達到人類水平後不久，這種強人工智能將超越人類智能，達到所謂的“超級智能”。據估計，人工智能從現在開始的15年後到100 年內可以達到這種程度，大多數研究人員相信人工智能將在幾代人的時間內取得足夠的進步。這又是一次誇大的炒作（就像我們在之前的人工智能周期中看到的那樣）還是這次不同？隻有時間纔能證明。目的和方法迄今為止，在計算機視覺、語音識別、機器翻譯和自然語言處理等領域的大多數成功的商業應用都涉及利用帶標簽數據集的監督學習。然而，世界上的大多數數據都是沒有標簽的。在本書中，我們將介紹無監督學習領域（這是機器學習的一個分支，用於查找隱藏模式），並學習沒有標簽的數據中的底層結構。根據許多行業專家，如Facebook 人工智能研究主管、紐約大學教授Yann LeCun 所說，無監督學習是人工智能的下一個前沿領域，可能是人工智能的關鍵所在。基於這一點和許多其他原因，無監督學習是當今人工智能流行的話題之一。這本書的目標是介紹概念和工具，這些概念和工具是無監督學習技術應用到日常開發過程中所必需的。換句話說，這是一本實用的書，可以讓你建立真實的繫統。我們還將探討如何有效地標記沒有標簽的數據集，以將無監督的學習問題轉化為半監督的學習問題。這本書將采用實際操作的方法，介紹一些理論，但主要集中在應用無監督學習技術來解決現實世界中的問題。數據集和代碼可以在GitHub 以Jupyter Notebook 的形式獲取到。通過本書的學習可以加深你對概念的理解並獲得實踐的經驗，從而能夠將無監督學習應用於大型、未標記的數據集，以發現隱藏的模式、獲得更深入的業務洞察力、檢測異常、基於相似性的聚類、執行自動特征工程和選擇、生成語法、Hetic 數據集等。預備知識本書假設你有一些Python 編程經驗，包括熟悉NumPy 和Pandas。有關Python 的更多信息，請訪問 Python 官方網站。有關Jupyter Notebook的更多信息，請訪問 Jupyter 官方網站。為了復習大學水平的微積分、線性代數、概率論和統計學，請閱讀Ian Goodfellow 和Yoshua Bengio) 的《Deep Learning》（《深度學習》）教科書的部分。關於機器學習的復習，請閱讀《The Elements of Statistical Learning》（《統計學習要素》）。路線圖本書分為四個部分，涵蓋以下主題：部分無監督學習基礎介紹監督和無監督學習的區別，當下流行的監督和無監督學習算法及概述，以及完整的機器學習項目。第二部分使用SciKit-Learn 進行無監督學習降維、異常檢測、聚類和分組分割。第三部分使用TensorFlow 和Keras 無監督學習自動編碼器、自動編碼器實踐和半監督學習。第四部分使用TensorFlow 和Keras 進行深度無監督學習受限玻爾茲曼機器、深度信念網絡和生成對抗網絡。排版約定本書使用以下排版約定：斜體字（Italic）指示新的術語、URL、電子郵件地址、文件名和文件擴展名。等寬字體（Constant width）用於程序列表，以及在段落中引素。例如變量或函數名、數據庫、數據類型、環境變量、語句和關鍵字。等寬粗體（Constant width bold）顯示用戶應按字面順序鍵入的命令或其他文本。等寬斜體（Constant width italic）顯示應替換為用戶提供的值或由上下文確定的值的文本。使用代碼示例補充資料（代碼示例等）可在GitHub 上下載。這本書的目的是幫助你更好地完成工作。通常情況下，如果本書提供了示例代碼，你可以在程序和文檔中使用它。你不需要聯繫我們獲得許可，除非你正在復制代碼的重要部分。例如，編寫一個使用本書中的幾個代碼塊的程序不需要許可。銷售或發行O’Reilly 圖書中的示例光盤需要許可。通過引用本書和引用示例代碼來回答問題不需要許可。將本書中的大量示例代碼合並到產品文檔中需要許可。我們感謝，但不要求在你的文檔中標明涉及本書的引用出處。引用出處通常包括標題、作者、出版商和ISBN。例如：“Ankur A.Patel（O’Reilly）使用Python 進行無監督學習。版權所有2019 Ankur A.Patel，978-1-492-03564-0”。如果你覺得你對代碼示例的使用超出了上述的合理使用或許可範圍，請隨時與我們聯繫。電子郵件地址為：permissions@oreilly.com。O’Reilly 在線學習平臺（O’Reilly Online Learning）近40 年來，O’Reilly Media 致力於提供技術和商業培訓、知識和卓越見解，來幫助眾多公司取得成功。我們擁有獨一無二的專家和革新者組成的龐大網絡，他們通過圖書、文章、會議和我們的在線學習平臺分享他們的知識和經驗。O’Reilly 的在線學習平臺允許你按需訪問現場培訓課程、深入的學習路徑、交互式編程環境，以及O’Reilly 和200 多家其他出版商提供的大量文本和視頻資源。有關的更多信息，請訪問http://oreilly.com。如何聯繫我們美國：O’Reilly Media, Inc.1005 Gravenstein Highway NorthSebastopol, CA 95472中國：北京市西城區西直門南大街2號成銘大廈C座807室（100035）奧萊利技術咨詢（北京）有限公司我們為這本書提供了網頁，其中列出了勘誤表、示例和任何其他附加信息。你可以在http://bit.ly/unsupervised-learning 訪問此頁面。若要對本書發表評論或提出技術問題，請發送電子郵件至：bookquestions@oreilly.com。有關我們的書籍、課程、會議和新聞的更多信息，請訪問我們的網站http://www.oreilly.com。在Facebook 上找到我們：http://facebook.com/oreilly。在Twitter 上關注我們：http://twitter.com/oreillymedia。在YouTube 上觀看我們：http://www.youtube.com/oreillymedia。

商品搜索

商品分类

【醫學】

【各大出版社】