![](/c3/10891114549.jpg)
出版社:中國電力出版社 ISBN:9787512395947 商品編碼:10891114549 品牌:文軒 出版時間:2016-10-01 作者:馬哈默德·帕瑞斯安(MahmoudParsi
"![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg) 作 者:(美)馬哈默德·帕瑞斯安(Mahmoud Parsian) 著;蘇金國 等 譯 定 價:128 出 版 社:中國電力出版社 出版日期:2016年10月01日 頁 數:680 裝 幀:平裝 ISBN:9787512395947 ●序1 ●前言3 ●第1章二次排序:簡介19 ●二次排序問題解決方案21 ●MapReduce/Hadoop的二次排序解決方案25 ●Spark的二次排序解決方案29 ●第2章二次排序:詳細示例42 ●二次排序技術43 ●二次排序的完整示例46 ●運行示例——老版本HadoopAPI50 ●運行示例——新版本HadoopAPI52 ●第3章Top10列表54 ●TopN設計模式的形式化描述55 ●MapReduce/Hadoop實現:專享鍵56 ●Spark實現:專享鍵62 ●Spark實現:非專享鍵73 ●使用takeOrdered()的SparkTop10解決方案84 ●MapReduce/HadoopTop10解決方案:非專享鍵91 ●第4章左外連接96 ●左外連接示例96 ●部分目錄 《數據算法:Hadoop/Spark大數據處理技巧》介紹了很多基本設計模式、優化技術和數據挖掘及機器學習解決方案,以解決生物信息學、基因組學、統計和社交網絡分析等領域的很多問題。這還概要介紹了MapReduce、Hadoop和Spark。 主要包括: 完成超大量交易的購物籃分析。 數據挖掘算法(K-均值、KNN和樸素貝葉斯)。 使用超大基因組數據完成DNA和RNA測序。 樸素貝葉斯定理和馬爾可夫鏈實現數據和市場預測。 推薦算法和成對文檔相似性。 線性回歸、Cox回歸和皮爾遜(Pearson)相關分析。 等位基因頻率和DNA挖掘。 社交網絡分析(推薦繫統、三角形計數和情感分析)。 (美)馬哈默德·帕瑞斯安(Mahmoud Parsian) 著;蘇金國 等 譯 Mahmoud Parsian,計算機科學博士,是一位熱衷於實踐的軟件專家,作為開發人員、設計人員、架構師和作者,他有30多年的軟件開發經驗。目前領導著Illumina的大數據團隊,在過去15年間,他主要從事Java(服務器端)、數據庫、MapReduce和分布式計算的有關工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata,MySQL,and Oracle Recipes》等書(均由Apress出版)。 隨著大規模搜索引擎(如Google和Yahoo! )、基因組分析(DNA測序、RNA測序和生物標志物分析)以及社交網絡(如Facebook 和Twitter) 的不斷發展,需要生成和處理的數據量已經超過了千萬億字節。為了滿足如此龐大的計算需求,我們需高效、可伸縮的並行算法。MapReduce範式就是解決這些問題的一個框架。 MapReduce是一個軟件框架,可以采用並行、分布式方式處理GB、TB,甚至PB級的大數據集,同時它也是一個在商用服務器集群之上完成大規模數據處理的執行框架。實現MapReduce 的方法有很多,不
過這本書中我們主要關注Apache Spark 和MapReduce/ Hadoop。你將通過簡單而具體的示例來了解如何用Spark和Hadoop實現MapReduce。 ![](https://img10.360buyimg.com/imgzone/jfs/t1/147514/7/5440/73116/5f34a3beE3ba58783/f5b2391383f5625c.jpg) " |