了得網圖書_Hadoop MapReduce實戰手冊

作者:(斯裡蘭卡)佩雷拉(Srinath Perera),(斯裡蘭卡)岡納拉森(Thilina Gunarathne) 著;楊卓犖譯著

定價:49

出版社:人民郵電出版社

出版日期:2015年03月01日

頁數:234

裝幀:平裝

ISBN:9787115384379

●第1章搭建Hadoop並在集群中運行1
1.1簡介1
1.2在你的機器上安裝Hadoop2
1.3寫WordCountMapReduce示例程序，打包並使用獨立的Hadoop運行它3
1.4給WordCountMapReduce程序增加combiner步驟7
1.5安裝HDFS8
1.6使用HDFS監控UI11
1.7HDFS的基本命令行文件操作12
1.8在分布式集群環境中設置Hadoop14
1.9在分布式集群環境中運行WordCount程序18
1.10使用MapReduce監控UI20
第2章HDFS進階21
2.1簡介21
2.2HDFS基準測試22
2.3添加一個新的DataNode23
2.4DataNode下架25
2.5使用多個磁盤／卷以及HDFS的磁盤使用情況26
2.6設置HDFS塊大小27
2.7設置文件冗餘因子28
2.8使用HDFS的JavaAPI29
2.9使用HDFS的CAPI（libhdfs）33
2.10掛載HDFS（Fuse-DFS）36
2.11在HDFS中合並文件38
第3章高級HadoopMapReduce運維40
3.1簡介40
3.2調優集群部署的Hadoop配置40
3.3運行基準測試來驗證Hadoop的安裝43
3.4復用Java虛擬機以提高性能44
3.5容錯和推測執行45
3.6調試腳本——分析任務失敗46
3.7設置失敗百分比以及跳過不良記錄48
3.8共享用戶的Hadoop集群——使用公平調度器和其他調度器50
3.9Hadoop的安全性——整合使用Kerberos51
3.10使用Hadoop的工具接口56
第4章開發復雜的HadoopMapReduce應用程序59
4.1簡介59
4.2選擇合適的Hadoop數據類型60
4.3實現自定義的HadoopWritable數據類型62
4.4實現自定義Hadoopkey類型65
4.5從mapper中輸出不同值類型的數據68
4.6為輸入數據格式選擇合適的HadoopInputFormat70
4.7添加新的輸入數據格式的支持——實現自定義的InputFormat73
4.8格式化MapReduce計算的結果——使用Hadoop的OutputFormat76
4.9Hadoop的中間（map到reduce）數據分區78
4.10將共享資源傳播和分發到MapReduce作業的任務中——HadoopDistributedCache80
4.11在Hadoop上使用傳統應用程序——HadoopStreaming84
4.12添加MapReduce作業之間的依賴關繫86
4.13用於報告自定義指標的Hadoop計數器88
第5章Hadoop生態繫統90
5.1簡介90
5.2安裝HBase91
5.3使用Java客戶端API隨機存取數據93
5.4基於HBase（表輸入／輸出）運行MapReduce作業95
5.5安裝Pig98
5.6運行第一條Pig命令99
5.7使用Pig執行集合操作（join，union）與排序100
5.8安裝Hive102
5.9使用Hive運行SQL風格的查詢103
5.10使用Hive執行join105
5.11安裝Mahout107
5.12使用Mahout運行K-means108
5.13可視化K-means結果110
第6章分析112
6.1簡介112
6.2使用MapReduce的簡單分析113
6.3使用MapReduce執行Group-By116
6.4使用MapReduce計算頻率分布和排序119
6.5使用GNUPlot繪制Hadoop計算結果121
6.6使用MapReduce計算直方圖123
6.7使用MapReduce計算散點圖126
6.8用Hadoop解析復雜的數據集129
6.9使用MapReduce連接兩個數據集133
第7章搜索和索引139
7.1簡介139
7.2使用HadoopMapReduce生成倒排索引140
7.3使用ApacheNutch構建域內網絡爬蟲143
7.4使用ApacheSolr索引和搜索網絡文檔147
7.5配置ApacheHBase作為ApacheNutch的後端數據存儲149
7.6在Hadoop集群上部署ApacheHBase151
7.7使用Hadoop／HBase集群構建ApacheNutch所有渠道爬蟲服務153
7.8用於索引和搜索的ElasticSearch156
7.9生成抓取網頁的內鏈圖158
第8章聚類、推薦和關繫發現161
8.1簡介161
8.2基於內容的推薦162
8.3層次聚類167
8.4對亞馬遜銷售數據集進行聚類操作170
8.5基於協同過濾的推薦173
8.6使用樸素貝葉斯分類器的分類176
8.7使用Adwords平衡算法給廣告分配關鍵字181
第9章海量文本數據處理189
9.1簡介189
9.2使用HadoopStreaming和Python預處理數據（抽取、清洗和格式轉換）190
9.3使用HadoopStreaming進行數據去重192
9.4使用importtsv和批量加載工具把大型數據集加載到ApacheHBase
數據存儲中194
9.5創建用於文本數據的TF向量和TF-IDF向量198
9.6聚類文本數據201
9.7使用隱含狄利克雷分布（LDA）發現主題203
9.8使用Mahout的樸素貝葉斯分類器分類文件206
第10章雲端部署——在雲上使用Hadoop208
10.1簡介208
10.2使用亞馬遜彈性MapReduce運行HadoopMapReduce計算209
10.3使用亞馬遜EC2競價實例來執行EMR作業流以節約開支212
10.4使用EMR執行Pig腳本213
10.5使用EMR執行Hive腳本216
10.6使用命令行界面創建亞馬遜EMR作業流219
10.7使用EMR在亞馬遜EC2雲上部署ApacheHBase集群222
10.8使用EMR引導操作來配置亞馬遜EMR作業的虛擬機226
10.9使用ApacheWhirr在雲環境中部署ApacheHadoop集群228
10.10使用ApacheWhirr在雲環境中部署ApacheHBase集群231

這是一本學習HadoopMapReduce的一站式指南，完整介紹了Hadoop生態體繫，包括Hadoop平臺安裝、部署、運維等，Hadoop生態繫統成員Hive、Pig、HBase、Mahout等。最重要的是，書中包含豐富的示例和多樣的實際應用場景，以一種簡單而直接的方式呈現了90個實戰攻略，並給出一步步的指導。本書從獲取Hadoop並在集群中運行講起，依次介紹了高級HDFS，高級HadoopMapReduce管理，開發復雜的HadoopMapReduce應用程序，Hadoop的生態繫統，統計分析，搜索與索引，聚類、推薦和尋找關聯，海量文本數據處理，雲部署等內容。

(斯裡蘭卡)佩雷拉(Srinath Perera),(斯裡蘭卡)岡納拉森(Thilina Gunarathne) 著;楊卓犖譯著

Srinath Perera，是WSO2公司的高級軟件架構師，與CTO一同全觀整個WSO2平臺架構。同時，他也是斯裡蘭卡軟件基金會的一位研究科學家，並作為訪問學者在莫勒圖沃大學計算機科學與工程繫授課。他是Apache Axis2開源軟件項目的聯合創始人，他自2002年以來一直參與Apache Web Service項目，並且是Apache軟件基金會和Apache Web服務項目PMC的成員。Srinath也是ApacheAxis、Axis2和Geronimo開源項目的committer。
他在美國印第安納大學伯明頓分校獲得博士和碩士學位，在斯裡蘭卡莫勒圖沃大學獲得了計算科學與工程學等

商品搜索

商品分类

【醫學】

【各大出版社】