內容簡介
人類已進入大數據時代。大數據是指具有海量(volume)、多模態(variety)、變化速度快(velocity)、蘊含價值高(value)和不精確性高(veracity)“5V”特征的數據。大數據給傳統的機器學習帶來巨大的挑戰,已引起學術界和工業界的高度關注。Hadoop和Spark正是在這種背景下產生的兩個大數據開源平臺。本書重點介紹基於這兩種大數據開源平臺的機器學習,包括機器學習概述、大數據與大數據處理繫統、Hadoop分布式文件繫統HDFS、Hadoop並行編程框架MapReduce、Hadoop大數據機器學習和Spark大數據機器學習。