了得網圖書_Spark 3.0大數據分析與挖掘：基於機器學習圖書

作者:王曉華羅凱靖著

定價:59

出版社:清華大學出版社

出版日期:2022年03月01日

頁數:214

裝幀:平裝

ISBN:9787302598992

本書詳解Spark 3.0 ML機器學習框架進行大數據分析與挖掘的方法，配套示例源碼、PPT課件、數據集、開發環境、思維導圖和答疑服務。

●第1章 Spark大數據分析概述11.1 大數據時代11.2 大數據分析的要素21.3 簡單、優雅、有效—這就是Spark31.4 Spark 3.0核心—ML41.5 星星之火，可以燎原61.6 小結6第2章 Spark 3.0安裝和開發環境配置72.1 Windows 10單機模式下安裝和配置Spark72.1.1 Windows 10安裝Java 872.1.2 Windows 10安裝Scala 2.12.10102.1.3 Intellij IDEA下載和安裝132.1.4 Intellij IDEA中Scala插件的安裝132.1.5 HelloJava—使用Intellij IDEA創建Java程序162.1.6 HelloScala—使用Intellij IDEA創建Scala程序192.1.7 最後一腳—Spark 3.0單機版安裝222.2 經典的wordCount252.2.1 Spark 3.0實現wordCount252.2.2 MapReduce實現wordCount272.3 小結30第3章 DataFrame詳解313.1 DataFrame是什麼313.1.1 DataFrame與RDD的關繫313.1.2 DataFrame理解及特性323.1.3 DataFrame與DataSet的區別343.1.4 DataFrame的缺陷343.2 DataFrame工作原理353.2.1 DataFrame工作原理圖353.2.2 寬依賴與窄依賴353.3 DataFrame應用API和操作詳解373.3.1 創建 DataFrame373.3.2 提前計算的cache方法393.3.3 用於列篩選的select和selectExpr方法413.3.4 DataFrame的收集行collect方法423.3.5 DataFrame計算行數count方法433.3.6 DataFrame輸出limit方法443.3.7 除去數據集中重復項的distinct方法453.3.8 過濾數據的filter方法463.3.9 以整體數據為單位操作數據的flatMap方法463.3.10 以單個數據為目標進行操作的map方法473.3.11 分組數據的groupBy和agg方法483.3.12 刪除數據集中某列的drop方法493.3.13 隨機采樣方法和隨機劃分方法493.3.14 排序類型操作的sort和orderBy方法513.3.15 DataFrame和Dataset以及RDD之間的相互轉換523.4 小結53第4章 ML基本概念544.1 ML基本數據類型及管道技術544.1.1 支持多種數據類型554.1.2 管道技術554.1.3 管道中的主要概念554.1.4 管道的工作流程564.1.5 Pipeline的使用574.2 ML數理統計基本概念614.2.1 基本統計量624.2.2 統計量基本數據624.2.3 距離計算644.2.4 兩組數據相關繫數計算654.2.5 分層抽樣684.2.6 假設檢驗694.2.7 隨機數714.3 小結72第5章協同過濾算法735.1 協同過濾735.1.1 協同過濾概述735.1.2 基於用戶的推薦UserCF745.1.3 基於物品的推薦ItemCF755.1.4 協同過濾算法的不足765.2 相似度度量765.2.1 基於歐幾裡得距離的相似度計算765.2.2 基於餘弦角度的相似度計算775.2.3 歐幾裡得相似度與餘弦相似度的比較785.2.4 基於餘弦相似度的用戶相似度計算示例785.3 交替最小二乘法825.3.1 最小二乘法詳解825.3.2 ML中交替最小二乘法詳解835.3.3 ALS算法示例835.4 小結88第6章線性回歸理論與實戰896.1 隨機梯度下降算法詳解906.1.1 道士下山的故事906.1.2 隨機梯度下降算法的理論基礎916.1.3 隨機梯度下降算法實戰926.2 回歸的過擬合936.2.1 過擬合產生的原因936.2.2 Lasso回歸、嶺回歸與ElasticNet回歸946.3 ML線性回歸示例956.3.1 線性回歸程序956.3.2 線性回歸：廣義線性回歸986.4 小結99第7章分類實戰1007.1 邏輯回歸詳解1007.1.1 邏輯回歸不是回歸算法1017.1.2 邏輯回歸的數學基礎1017.1.3 ML邏輯回歸二分類示例1027.1.4 ML邏輯回歸多分類示例1057.1.5 ML邏輯回歸彙總提取1087.1.6 ML邏輯回歸處理文本文檔1097.2 線性支持向量機詳解1097.2.1 三角還是圓1107.2.2 支持向量機的數學基礎1117.2.3 ML支持向量機示例1127.2.4 ML支持向量機進行分類預測1137.3 樸素貝葉斯分類器詳解1157.3.1 穿褲子的男生or女生1157.3.2 貝葉斯定理的數學基礎和意義1167.3.3 樸素貝葉斯定理1177.3.4 ML樸素貝葉斯使用示例1177.3.5 ML樸素貝葉斯中文文本分類1207.4 小結123第8章決策樹與隨機森林1248.1 決策樹詳解1258.1.1 水晶球的秘密1258.1.2 決策樹的算法基礎：信息熵1268.1.3 決策樹的算法基礎—ID3算法1278.1.4 ML中決策樹的構建1288.1.5 ML中決策樹示例1308.2 隨機森林與梯度提升算法1328.3 小結138第9章聚類1399.1 聚類與分類1399.1.1 什麼是分類1399.1.2 什麼是聚類1409.2 K-means算法1409.2.1 K-means算法及其算法步驟1419.2.2 ML中K-means算法示例1429.2.3 K-means算法中細節的討論1449.3 高斯混合聚類1449.3.1 從高斯分布聚類起步1459.3.2 混合高斯模型1469.3.3 ML高斯混合模型使用示例1479.4 快速迭代聚類1489.4.1 快速迭代聚類理論基礎1489.4.2 ML快速迭代聚類使用示例1499.5 小結150第10章關聯規則15110.1 Apriori頻繁項集算法15110.1.1 “啤酒與尿布”的經典故事15110.1.2 經典的Apriori算法15210.1.3 Apriori算法示例15410.2 FP-growth算法15510.2.1 Apriori算法的局限性15510.2.2 FP-growth算法15510.2.3 ML中的FP樹算法示例15810.3 小結160第11章數據降維16111.1 奇異值分解16111.1.1 行矩陣詳解16211.1.2 奇異值分解算法基礎16211.1.3 ML中奇異值分解示例16311.2 主成分分析16411.2.1 主成分分析的定義16511.2.2 主成分分析的數學基礎16511.2.3 ML中主成分分析示例16611.3 小結167第12章特征提取和轉換16912.1 TF-IDF16912.1.1 如何查找想要的新聞17012.1.2 TF-IDF算法的數學計算17012.1.3 ML中TF-IDF示例17112.2 詞向量化Word2Vec17312.2.1 詞向量化基礎17312.2.2 ML中詞向量化使用示例17412.3 基於卡方檢驗的特征選擇17612.3.1 “喫貨”的苦惱17612.3.2 ML中基於卡方檢驗的特征選擇示例17712.4 小結179第13章 ML實戰演練—鳶尾花分析18013.1 建模說明18013.1.1 數據的描述與分析目標18013.1.2 建模說明18213.2 數據預處理和分析18513.2.1 微觀分析—均值與方差的對比分析18513.2.2 宏觀分析—不同種類特性的長度計算18913.2.3 去除重復項—相關繫數的確定19213.3 長與寬之間的關繫—數據集的回歸分析19613.3.1 使用線性回歸分析長與寬之間的關繫19613.3.2 使用邏輯回歸分析長與寬之間的關繫19813.4 使用分類和聚類對鳶尾花數據集進行處理20113.4.1 使用聚類分析對數據集進行聚類處理20213.4.2 使用分類分析對數據集進行分類處理20613.5 最終的判定—決策樹測試20813.5.1 決定數據集歸類的方法之一—決策樹20813.5.2 決定數據集歸類的方法之二—隨機森林21113.6 小結213

Spark作為新興的、應用範圍廣泛的大數據處理開源框架，吸引了大量的大數據分析與挖掘從業人員進行相關內容的學習與開發，其中ML是Spark 3.0機器學習框架使用的核心。本書用於Spark 3.0 ML大數據分析與挖掘入門，配套示例源碼、PPT課件、數據集、思維導圖、開發環境和作者答疑服務。本書共分13章，從Spark 3.0大數據分析概述、基礎安裝和配置開始，依次介紹ML的DataFrame、ML的基本概念，以及協同過濾、線性回歸、分類、決策樹與隨機森林、聚類、關聯規則、數據降維、特征提取和轉換等數據處理方法；最後通過經典的鳶尾花分析實例，回顧前面的學習內容，實現了一個完整的數據分析與挖掘過程。本書采取實例和理論相結合的方式，講解細致直觀，示例豐富，適合Spark 3.0機器學習初學者、大數據分析和挖掘人員，也適合高等院校和培訓機構人工智能與大數據相關專業的師生教學參考。

王曉華羅凱靖著

王曉華，計算機專業講師，研究方向為雲計算、大數據與人工智能。著有《Spark MLlib機器學習實踐》《TensorFlow深度學習應用實踐》《OpenCV+TensorFlow深度學習與計算機視覺實戰》《TensorFlow知識圖譜實戰》《TensorFlow人臉識別實戰》《TensorFlow語音識別實戰》《TensorFlow 2.0卷積神經網絡實戰》《Keras實戰：基於TensorFlow2.2的深度學習實踐》《TensorFlow深度學習從零開始學》《深度學習的數學原理與實現》等圖書。

商品搜索

商品分类

【醫學】

【各大出版社】