內容簡介
本書每一章都介紹了不同的主題(例如核心技術或數據傳輸),並且解釋了為什麼特定組件適用或不適用特定的需求。對於數據處理來說,使用Hadoop是一個全新的挑戰,但如果有了這本便利的參考書,你將很容易領會使用Hadoop的精妙所在。
主要包括如下主題:核心技術,Hadoop分布式文件繫統(HDFS)、MapReduce、YARN和Spark。數據庫和數據管理,Cassandra、HBase、MongoDB和Hive。序列化,Avro、JSON和Parquet。管理和監視,Puppet、Chef、Zookeeper和Oozie。分析輔助,Pig、Mahout和MLLib。數據傳輸,Scoop、Flume、distcp和Storm。安全、訪問控制和審計,Sentry、Kerberos和Knox。雲計算和虛擬化,Serengeti、Docker和Whirr。