●《信息科學技術學術著作叢書》序
前言
第1章機器學習概述
1.1分類與聚類
1.1.1分類
1.1.2聚類
1.2K-近鄰算法與模糊K-近鄰算法
1.2.1K-近鄰算法
1.2.2模糊K-近鄰算法
1.3K-均值算法與模糊K-均值算法
1.3.1K-均值算法
1.3.2模糊K-均值算法
1.4決策樹算法
1.4.1離散值決策樹算法
1.4.2連續值決策樹算法
1.5神經網絡
1.5.模型
1.5.2梯度下降算法
1.5.3多層感知器模型
1.6極限學習機
1.7支持向量機
1.7.1線性可分支持向量機
1.7.2近似線性可分支持向量機
1.7.3線性不可分支持向量機
1.8主動學習
第2章大數據與大數據處理繫統
2.1大數據及其特征
2.2Linux操作繫統簡介
2.2.1Linux版本
2.2.2Linux的文件與目錄
2.2.3Linux用戶與用戶組
2.2.4Linux繫統軟件包管理
2.2.5Linux操作繫統的安裝
2.3大數據處理繫統Hadoop
2.3.1什麼是Hadoop
2.3.2Hadoop的特性
2.3.3Hadoop的體繫結構
2.3.4Hadoop的運行機制
2.3.5Hadoop1.0和Hadoop2.0的區別
2.3.6Hadoop的安裝及大數據處理環境的架構
2.4大數據處理繫統Spark
2.4.1什麼是Spark
2.4.2Spark的運行架構
2.4.3Spark的工作機制
第3章Hadoop分布式文件繫統HDFS
3.1HDFS概述
3.1.1HDFS的優勢
3.1.2HDFS的局限性
3.2HDFS的繫統結構
3.3HDFS的數據存儲
3.3.1數據塊的存放策略
3.3.2數據的讀取策略
3.3.3文數據的持久性
3.3.4HDFS的魯棒性
3.4訪問HDFS
3.4.1通過文件繫統Shell訪問HDFS
3.4.2通過文件繫統JavaAPI訪問HDFS
3.5HDFS讀寫數據的過程
3.5.1HDFS讀數據的過程
3.5.2HDFS寫數據的過程
第4章Hadoop並行編程框架MapReduce
4.1MapReduce概述
4.2MapReduce的大數據處理過程
4.2.1Map階段
4.2.2Shu2e階段
4.2.3Reduce階段
4.3一個例子:流量統計
4.4MapReduce的繫統結構
4.5MapReduce的作業處理過程
4.6MapReduce算法設計
4.6.1大數據決策樹算法設計
4.6.2大數據極限學習機算法設計
第5章Hadoop大數據機器學習
5.1基於Hadoop的大數據K-近鄰算法
5.1.1大數據K-近鄰算法的基本思想
5.1.2大數據K-近鄰算法的MapReduce編程實現
5.2基於Hadoop的大數據極限學習機
5.2.1大數據極限學習機的基本思想
5.2.2大數據極限學習機的MapReduce編程實現
5.3基於Hadoop的大數據主動學習
5.3.1大數據主動學習的基本思想
5.3.2大數據主動學習的MapReduce編程實現
第6章Spark大數據機器學習
6.1SparkMLlib
6.1.1MLlib決策樹算法
6.1.2MLlib決策森林算法
6.1.3MLlibK-means算法
6.1.4主成分分析
6.2基於Spark的大數據K-近鄰算法
6.3基於Spark的大數據主動學習
參考文獻
人類已進入大數據時代。大數據是指具有海量(volume)、多模態(variety)、變化速度快(velocity)、蘊含價值高(value)和不準確性高(veracity)“5V”特征的數據。大數據給傳統的機器學習帶來巨大的挑戰,已引起學術界和工業界的高度關注。Hadoop和Spark正是在這種背景下產生的兩個大數據開源平臺。本書重點介紹基於這兩種大數據開源平臺的機器學習,包括機器學習概述、大數據與大數據處理繫統、Hadoop分布式文件繫統HDFS、Hadoop並行編程框架MapReduce、Hadoop大數據機器學習和Spark大數據機器學習。本書可作為計算機科學與技術、軟件工程、數據科學與大數據技術等專業研究生和高年級本科生的大數據處理或大數據機器學習課程的教材,也可供從事相關研究工作的科研人員參考。