作 者:張良均 等 著
定 價:69
出 版 社:機械工業出版社
出版日期:2017年05月01日
頁 數:322
裝 幀:平裝
ISBN:9787111567875
●前言
●第一篇基礎篇
●第1章淺談大數據2
●1.1大數據概述3
●1.2大數據平臺4
●1.3本章小結5
●第2章大數據存儲與運算利器—Hadoop6
●2.1Hadoop概述6
●2.1.1Hadoop簡介6
●2.1.2Hadoop存儲—HDFS8
●2.1.3Hadoop計算—MapReduce11
●2.1.4Hadoop資源管理—YARN13
●2.1.5Hadoop生態繫統14
●2.2Hadoop配置及IDE配置17
●2.2.1準備工作17
●2.2.2環境配置18
●2.2.3集群啟動關閉與監控24
●2.2.4動手實踐:一鍵式Hadoop集群啟動關閉25
●2.2.5動手實踐:HadoopIDE配置26
●2.3Hadoop集群命令28
●部分目錄
這是一本適合教學和零基礎自學的Hadoop與大數據挖掘的教程,即便你接近沒有Hadoop編程基礎和大數據挖掘基礎,根據本書中的理論知識和上機實踐,也能迅速掌握如何使用Hadoop進行大數據挖掘。全書主要分為兩篇:基礎篇(1-7章),首先從宏觀上介紹了大數據相關概念和技術,然後逐一對Hadoop、Hive、HBase、Pig、Spark、Oozie等一繫列大數據技術的概念、原理、架構,以及企業應用方法進行了詳細介紹,同時配有大量的案例。掌握了這些內容,就具備了大數據技術的基礎;挖掘實戰篇(第8章),主要是一個企業級大數據應用項目——電子商務智能推薦繫統。通過分析應用背景、構建繫統,使讀者了解針對繫統的每一層應用使用什麼大數據技術來解決問題。涉及的流程有數據采集、數據預處理、模型構建等,在每一個流程中會進行大數據相關技術實踐,運用實際數據來進行分析,使讀者切身感受到利用大數據技術解決問題的魅力等
張良均 等 著
張良均,資歷大數據挖掘專家和模式識別專家,有10多年的大數據挖掘應用、咨詢經驗,10餘年數據倉庫繫統管理與實施經驗,超過10年的繫統開發與設計經驗。為電信、電力、互聯網、生產制造、零售、銀行、生物、化工、醫藥等多個行業上百家大型企業提供過數據挖掘應用與咨詢服務,實踐經驗很好豐富。此外,他精通Java EE企業級應用開發,是廣東工業大學和華南師範大學兼職教授,著有《神經網絡實用教程》、《數據挖掘:實用案例分析》等暢銷書。
Preface 前 言為什麼要寫這本書最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。” 早在2012年,大數據(big data)一詞已經被廣泛提起,人們用它來描述和定義信息爆炸時代產生的海量數據,並命名與之相關的技術發展與創新。那時就有人預計,從2013年至2020年,全球數據規模將增長10倍,每年產生的數據量將由當時的4.4萬億GB,增長至44萬億GB,每兩年翻一番。 既然“大數據”浪潮已經來臨,那麼與之對應的大數據人纔呢?在國外,大數據技術發展正如火如荼,各等