了得網圖書_深度實踐Spark機器學習

作者:吳茂貴等著著作

定價:69

出版社:機械工業出版社

出版日期:2018年02月01日

頁數:234

裝幀:平裝

ISBN:9787111589952

●前言
第1章了解機器學習 1
1.1 機器學習的定義 1
1.2 大數據與機器學習 2
1.3 機器學習、人工智能及深度學習 2
1.4 機器學習的基本任務 3
1.5 如何選擇合適算法 4
1.6 Spark在機器學習方面的優勢 5
1.7 小結 5
第2章構建Spark機器學習繫統 6
2.1 機器學習繫統架構 6
2.2 啟動集群 7
2.3 加載數據 9
2.4 探索數據 10
2.4.1 數據統計信息 10
2.4.2 數據質量分析 11
2.4.3 數據特征分析 12
2.4.4 數據的可視化 17
2.5 數據預處理 19
2.5.1 數據清理 20
2.5.2 數據變換 21
2.5.3 數據集成 22
2.5.4 數據歸約 23
2.6 構建模型 25
2.7 模型評估 26
2.8 組裝 30
2.9 模型選擇或調優 30
2.9.1 交叉驗證 31
2.9.2 訓練–驗證切分 32
2.10 保存模型 32
2.11 小結 33
第3章 ML Pipeline原理與實戰 34
3.1 Pipeline簡介 34
3.2 DataFrame 35
3.3 Pipeline組件 36
3.4 Pipeline原理 37
3.5 Pipeline實例 38
3.5.1 使用Estimator、Transformer和Param的實例 38
3.5.2 ML使用Pipeline的實例 40
3.6 小結 41
第4章特征提取、轉換和選擇 42
4.1 特征提取 42
4.1.1 詞頻—逆向文件頻率（TF-IDF） 42
4.1.2 Word2Vec 43
4.1.3 計數向量器 44
4.2 特征轉換 45
4.2.1 分詞器 45
4.2.2 移除停用詞 46
4.2.3 n-gram 47
4.2.4 二值化 48
4.2.5 主成分分析 48
4.2.6 多項式展開 50
4.2.7 離散餘弦變換 50
4.2.8 字符串—索引變換 51
4.2.9 索引—字符串變換 53
4.2.10 獨熱編碼 54
4.2.11 向量—索引變換 57
4.2.12 交互式 58
4.2.13 正則化 59
4.2.14 規範化 60
4.2.15 優選值—最小值縮放 60
4.2.16 優選值—絕對值縮放 61
4.2.17 離散化重組 62
4.2.素乘積 63
4.2.19 SQL轉換器 64
4.2.20 向量彙編 65
4.2.21 分位數離散化 66
4.3 特征選擇 67
4.3.1 向量機 67
4.3.2 R公式 69
4.3.3 卡方特征選擇 70
4.4 小結 71
第5章模型選擇和優化 72
5.1 模型選擇 72
5.2 交叉驗證 73
5.3 訓練驗證拆分法 75
5.4 自定義模型選擇 76
5.5 小結 78
第6章 Spark MLlib基礎 79
6.1 Spark MLlib簡介 80
6.2 Spark MLlib架構 81
6.3 數據類型 82
6.4 基礎統計 84
6.4.1 摘要統計 84
6.4.2 相關性 84
6.4.3 假設檢驗 85
6.4.4 隨機數據生成 85
6.5 RDD、Dataframe和Dataset 86
6.5.1 RDD 86
6.5.2 DatasetDataFrame 87
6.5.3 相互轉換 88
6.6 小結 89
第7章構建Spark ML推薦模型 90
7.1 推薦模型簡介 91
7.2 數據加載 92
7.3 數據探索 94
7.4 訓練模型 94
7.5 組裝 95
7.6 評估模型 96
7.7 模型優化 96
7.8 小結 98
第8章構建Spark ML分類模型 99
8.1 分類模型簡介 99
8.1.1 線性模型 100
8.1.2 決策樹模型 101
8.1.3 樸素貝葉斯模型 102
8.2 數據加載 102
8.3 數據探索 103
8.4 數據預處理 104
8.5 組裝 109
8.6 模型優化 110
8.7 小結 113
第9章構建Spark ML回歸模型 114
9.1 回歸模型簡介 115
9.2 數據加載 115
9.3 探索特征分布 117
9.4 數據預處理 120
9.4.1 特征選擇 121
9.4.2 特征轉換 121
9.5 組裝 122
9.6 模型優化 124
9.7 小結 126
第10章構建Spark ML聚類模型 127
10.1 K-means模型簡介 128
10.2 數據加載 129
10.3 探索特征的相關性 129
10.4 數據預處理 131
10.5 組裝 132
10.6 模型優化 134
10.7 小結 136
第11章 PySpark 決策樹模型 137
11.1 PySpark 簡介 138
11.2 決策樹簡介 139
11.3 數據加載 140
11.3.1 原數據集初探 140
11.3.2 PySpark的啟動 142
11.3.3 基本函數 142
11.4 數據探索 143
11.5 數據預處理 143
11.6 創建決策樹模型 145
11.7 訓練模型進行預測 146
11.8 模型優化 149
11.8.1 特征值的優化 149
11.8.2 交叉驗證和網格參數 152
11.9 腳本方式運行 154
11.9.1 在腳本中添加配置信息 154
11.9.2 運行腳本程序 154
11.10 小結 154
第12章 SparkR樸素貝葉斯模型 155
12.1 SparkR簡介 156
12.2 獲取數據 157
12.2.1 SparkDataFrame數據結構說明 157
12.2.2 創建SparkDataFrame 157
12.2.3 SparkDataFrame的常用操作 160
12.3 樸素貝葉斯分類器 162
12.3.1 數據探查 162
12.3.2 對原始數據集進行轉換 163
12.3.3 查看不同船艙的生還率差異 163
12.3.4 轉換成SparkDataFrame格式的數據 165
12.3.5 模型概要 165
12.3.6 預測 165
12.3.7 評估模型 166
12.4 小結 167
第13章使用Spark Streaming構建在線學習模型 168
13.1 Spark Streaming簡介 168
13.1.1 Spark Streaming常用術語 169
13.1.2 Spark Streaming處理流程 169
……

本書以新的Spark2.0為技術基礎，重點講解了如何構建機器學習繫統以及如何實現機器學習流程的標準化，這兩點都是目前同類書中沒有的。第1～7章從概念、架構、算法等角度介紹了機器學習的基本概念；第8～12章以實例為主，詳細講解了機器學習流程標準化涉及的關鍵技術；第13章主要以在線數據或流式數據為主介紹了流式計算框架SparkStreaming；第14章重點講解了深度學習的框架TensorFlowOnSprak。此外，附錄部分提供了線性代數、概率統計及Scala的基礎知識，幫助讀者更好地學習和掌握機器學習的相關內容。

吳茂貴等著著作

張粵磊：DBA、大數據架構師，十餘年一線數據處理數據分析實戰經驗。先後在咨詢、金融、互聯網行業擔任數據平臺技術負責人或架構師。主要關注大數據基礎平臺、大數據模型構建和大數據分析。
吳茂貴：運籌學與控制論專業研究生學歷。畢業後主要參與數據倉庫、商務智能等方面的項目，期間做過數據處理、數據分析、數據挖掘等工作，行業涉及金融、物流、制造業等。近期主要做復雜數據存儲、清理、轉換等工作，同時在大數據方面也很有興趣並投入大量時間和精力，且將持續為之。
郁明敏，對大數據、機器學習有一定的研究，擅長Python、Hadoop、Spark等技術，曾獲得“江蘇省TI杯大學生電子競技大賽”二等

Preface?前言為什麼寫這本書大數據、人工智能正在改變或顛覆各行各業，包括我們的生活。大數據、人工智能方面的人纔已經供不應求，但作為人工智能的核心——機器學習，因涉及的知識和技能比較多，除了需要具備一定的數學基礎、相關業務知識外，還要求有比較全面的技術儲備，如操作繫統、數據庫、開發語言、數據分析工具、大數據計算平臺等，無形中提高了機器學習的門檻。如何降低機器學習的門檻，讓更多有志於機器學習、人工智能的人能更方便或順暢地使用、駕馭機器學習？很多企業也正在考慮和處理這方面的問題，本書也希望借Spark技術在這方面做一些介紹或總結。如何使原本復雜、專業性強的工作或操作簡單化？封裝是一個有效方法。封裝降低了我們操作照相機的難度、降低了我們維護各種現代設備的成本，同時也提升了我們使用這些設備的效率。除封裝外，過程的標準化、流程化同樣是目前現等

商品搜索

商品分类

【醫學】

【各大出版社】