●第1章 Python Spark機器學習與Hadoop大數據 1
●1.1 機器學習的介紹 2
●1.2 Spark的介紹 5
●1.3 Spark數據處理 RDD、DataFrame、Spark SQL 7
●1.4 使用Python開發 Spark機器學習與大數據應用 8
●1.5 Python Spark 機器學習 9
●1.6 Spark ML Pipeline機器學習流程介紹 10
●1.7 Spark 2.0的介紹 12
●1.8 大數據定義 13
●1.9 Hadoop 簡介 14
●1.10 Hadoop HDFS分布式文件繫統 14
●1.11 Hadoop MapReduce的介紹 17
●1.12 結論 18
●第2章 VirtualBox虛擬機軟件的安裝 19
●2.1 VirtualBox的下載和安裝 20
●2.2 設置VirtualBox存儲文件夾 23
●2.3 在VirtualBox創建虛擬機 25
●2.4 結論 29
●第3章 Ubuntu Linux 操作繫統的安裝 30
●3.1 Ubuntu Linux 操作繫統的安裝 31
●部分目錄
本書從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學分類)、機器學分類)、機器學習(回歸分析)和數據可視化應用等。書中不僅加入了新近的大數據技術,還豐富了“機器學習”內容。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和範例程序詳解,展示了如何在單機Windows繫統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平臺並不於單臺實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平臺搭建在多臺實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。本書很好適合於學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教等