●章 星星之火 1
●1.1 大數據時代 1
●1.2 大數據分析時代 2
●1.3 簡單、優雅、有效——這就是Spark 3
●1.4 核心——MLlib 4
●1.5 星星之火,可以燎原 6
●1.6 小結 6
●第2章 Spark安裝和開發環境配置 7
●2.1 Windows單機模式Spark安裝和配置 7
●2.1.1 Windows 7安裝Java 7
●2.1.2 Windows 7安裝Scala 10
●2.1.3 Intellij IDEA和安裝 13
●2.1.4 Intellij IDEA中Scala插件的安裝 14
●2.1.5 HelloJava——使用Intellij IDEA創建Java程序 18
●2.1.6 HelloScala——使用Intellij IDEA創建Scala程序 21
●2.1.7 最後一腳——Spark單機版安裝 26
●2.2 經典的WordCount 29
●2.2.1 Spark實現WordCount 29
●2.2.2 MapReduce實現WordCount 31
●2.3 小結 34......
內容簡介
Spark作為新興的、應用範圍很為廣泛的大數據處理開源框架引起了廣泛的關注,它吸引了大量程序設計和開發人員進行相關內容的學習與開發,其中MLlib是Spark框架使用的核心。本書是一本細致介紹Spark MLlib程序設計的圖書,入門簡單,示例豐富。本書分為13章,從Spark基礎安裝和配置開始,依次介紹MLlib程序設計基礎、MLlib的數據對像構建、MLlib中RDD使用介紹,各種分類、聚類、回歸等數據處理方法,很後還通過一個完整的實例,回顧了前面的學習內容,並通過代碼實現了一個完整的分析過程。本書理論內容由淺而深,采取實例和理論相結合的方式,講解細致直觀,適合Spark MLlib初學者、大數據分析和挖掘人員,也適合高校和培訓學習相關專業的師生教學參考。