作 者:(斯裡蘭卡)佩雷拉(Srinath Perera),(斯裡蘭卡)岡納拉森(Thilina Gunarathne) 著;楊卓犖 譯 著
定 價:49
出 版 社:人民郵電出版社
出版日期:2015年03月01日
頁 數:234
裝 幀:平裝
ISBN:9787115384379
●第1章搭建Hadoop並在集群中運行1
1.1簡介1
1.2在你的機器上安裝Hadoop2
1.3寫WordCountMapReduce示例程序,打包並使用獨立的Hadoop運行它3
1.4給WordCountMapReduce程序增加combiner步驟7
1.5安裝HDFS8
1.6使用HDFS監控UI11
1.7HDFS的基本命令行文件操作12
1.8在分布式集群環境中設置Hadoop14
1.9在分布式集群環境中運行WordCount程序18
1.10使用MapReduce監控UI20
第2章HDFS進階21
2.1簡介21
2.2HDFS基準測試22
2.3添加一個新的DataNode23
2.4DataNode下架25
2.5使用多個磁盤/卷以及HDFS的磁盤使用情況26
2.6設置HDFS塊大小27
2.7設置文件冗餘因子28
2.8使用HDFS的JavaAPI29
2.9使用HDFS的CAPI(libhdfs)33
2.10掛載HDFS(Fuse-DFS)36
2.11在HDFS中合並文件38
第3章高級HadoopMapReduce運維40
3.1簡介40
3.2調優集群部署的Hadoop配置40
3.3運行基準測試來驗證Hadoop的安裝43
3.4復用Java虛擬機以提高性能44
3.5容錯和推測執行45
3.6調試腳本——分析任務失敗46
3.7設置失敗百分比以及跳過不良記錄48
3.8共享用戶的Hadoop集群——使用公平調度器和其他調度器50
3.9Hadoop的安全性——整合使用Kerberos51
3.10使用Hadoop的工具接口56
第4章開發復雜的HadoopMapReduce應用程序59
4.1簡介59
4.2選擇合適的Hadoop數據類型60
4.3實現自定義的HadoopWritable數據類型62
4.4實現自定義Hadoopkey類型65
4.5從mapper中輸出不同值類型的數據68
4.6為輸入數據格式選擇合適的HadoopInputFormat70
4.7添加新的輸入數據格式的支持——實現自定義的InputFormat73
4.8格式化MapReduce計算的結果——使用Hadoop的OutputFormat76
4.9Hadoop的中間(map到reduce)數據分區78
4.10將共享資源傳播和分發到MapReduce作業的任務中——HadoopDistributedCache80
4.11在Hadoop上使用傳統應用程序——HadoopStreaming84
4.12添加MapReduce作業之間的依賴關繫86
4.13用於報告自定義指標的Hadoop計數器88
第5章Hadoop生態繫統90
5.1簡介90
5.2安裝HBase91
5.3使用Java客戶端API隨機存取數據93
5.4基於HBase(表輸入/輸出)運行MapReduce作業95
5.5安裝Pig98
5.6運行第一條Pig命令99
5.7使用Pig執行集合操作(join,union)與排序100
5.8安裝Hive102
5.9使用Hive運行SQL風格的查詢103
5.10使用Hive執行join105
5.11安裝Mahout107
5.12使用Mahout運行K-means108
5.13可視化K-means結果110
第6章分析112
6.1簡介112
6.2使用MapReduce的簡單分析113
6.3使用MapReduce執行Group-By116
6.4使用MapReduce計算頻率分布和排序119
6.5使用GNUPlot繪制Hadoop計算結果121
6.6使用MapReduce計算直方圖123
6.7使用MapReduce計算散點圖126
6.8用Hadoop解析復雜的數據集129
6.9使用MapReduce連接兩個數據集133
第7章搜索和索引139
7.1簡介139
7.2使用HadoopMapReduce生成倒排索引140
7.3使用ApacheNutch構建域內網絡爬蟲143
7.4使用ApacheSolr索引和搜索網絡文檔147
7.5配置ApacheHBase作為ApacheNutch的後端數據存儲149
7.6在Hadoop集群上部署ApacheHBase151
7.7使用Hadoop/HBase集群構建ApacheNutch所有渠道爬蟲服務153
7.8用於索引和搜索的ElasticSearch156
7.9生成抓取網頁的內鏈圖158
第8章聚類、推薦和關繫發現161
8.1簡介161
8.2基於內容的推薦162
8.3層次聚類167
8.4對亞馬遜銷售數據集進行聚類操作170
8.5基於協同過濾的推薦173
8.6使用樸素貝葉斯分類器的分類176
8.7使用Adwords平衡算法給廣告分配關鍵字181
第9章海量文本數據處理189
9.1簡介189
9.2使用HadoopStreaming和Python預處理數據(抽取、清洗和格式轉換)190
9.3使用HadoopStreaming進行數據去重192
9.4使用importtsv和批量加載工具把大型數據集加載到ApacheHBase
數據存儲中194
9.5創建用於文本數據的TF向量和TF-IDF向量198
9.6聚類文本數據201
9.7使用隱含狄利克雷分布(LDA)發現主題203
9.8使用Mahout的樸素貝葉斯分類器分類文件206
第10章雲端部署——在雲上使用Hadoop208
10.1簡介208
10.2使用亞馬遜彈性MapReduce運行HadoopMapReduce計算209
10.3使用亞馬遜EC2競價實例來執行EMR作業流以節約開支212
10.4使用EMR執行Pig腳本213
10.5使用EMR執行Hive腳本216
10.6使用命令行界面創建亞馬遜EMR作業流219
10.7使用EMR在亞馬遜EC2雲上部署ApacheHBase集群222
10.8使用EMR引導操作來配置亞馬遜EMR作業的虛擬機226
10.9使用ApacheWhirr在雲環境中部署ApacheHadoop集群228
10.10使用ApacheWhirr在雲環境中部署ApacheHBase集群231
這是一本學習HadoopMapReduce的一站式指南,完整介紹了Hadoop生態體繫,包括Hadoop平臺安裝、部署、運維等,Hadoop生態繫統成員Hive、Pig、HBase、Mahout等。最重要的是,書中包含豐富的示例和多樣的實際應用場景,以一種簡單而直接的方式呈現了90個實戰攻略,並給出一步步的指導。本書從獲取Hadoop並在集群中運行講起,依次介紹了高級HDFS,高級HadoopMapReduce管理,開發復雜的HadoopMapReduce應用程序,Hadoop的生態繫統,統計分析,搜索與索引,聚類、推薦和尋找關聯,海量文本數據處理,雲部署等內容。
(斯裡蘭卡)佩雷拉(Srinath Perera),(斯裡蘭卡)岡納拉森(Thilina Gunarathne) 著;楊卓犖 譯 著
Srinath Perera,是WSO2公司的高級軟件架構師,與CTO一同全觀整個WSO2平臺架構。同時,他也是斯裡蘭卡軟件基金會的一位研究科學家,並作為訪問學者在莫勒圖沃大學計算機科學與工程繫授課。他是Apache Axis2開源軟件項目的聯合創始人,他自2002年以來一直參與Apache Web Service項目,並且是Apache軟件基金會和Apache Web服務項目PMC的成員。Srinath也是ApacheAxis、Axis2和Geronimo開源項目的committer。
他在美國印第安納大學伯明頓分校獲得博士和碩士學位,在斯裡蘭卡莫勒圖沃大學獲得了計算科學與工程學等