[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 雲計算環境下Spark大數據處理技術與實踐
    該商品所屬分類:計算機/網絡 -> 數據庫
    【市場價】
    342-496
    【優惠價】
    214-310
    【作者】 鄧立國 
    【所屬類別】 圖書  計算機/網絡  數據庫  數據庫理論 
    【出版社】清華大學出版社 
    【ISBN】9787302479710
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302479710
    作者:鄧立國

    出版社:清華大學出版社
    出版時間:2017年09月 

        
        
    "

    產品特色
    編輯推薦
    以雲計算與大數據融合的視角闡述了雲計算環境下Spark大數據處理與相應的算法實現結合經典案例,詳解雲計算環境下Spark大數據處理生態圈,包括繫統結構、大數據存儲、批處理、流計算、交互式數據分析、並行機器學習架構與算法等技術掌握雲計算環境下Spark大數據處理的架構搭建和算法實現過程等關鍵技術,擴展大數據從業人員的理論與實踐能力 
    內容簡介
    本書圍繞互聯網重大的技術革命:雲計算、大數據進行闡述。雲計算環境下大數據處理構建是國民經濟發展的信息基礎設施,發展自主的雲計算核心技術,擁有自己的信息基礎設施,當前正處於重要的機遇期。
    本書重點在大數據與雲計算的融合,給出了大數據與雲計算的一些基本概念,並以Spark為開發工具,全面講述雲環境下的Spark大數據技術部署與典型案例算法實現,*後介紹了國內經典Spark大數據與雲計算融合的架構與算法。
    本書適合雲計算環境下Spark大數據技術人員、Spark MLlib機器學習技術人員,也適合高等院校和培訓機構相關專業的師生教學參考。
    作者簡介
    鄧立國,東北大學計算機應用博士畢業。2005年開始在瀋陽師範大學軟件學院、教育技術學院任教,主要研究方向:數據挖掘、知識工程、大數據處理、雲計算、分布式計算等。以作者發表學術論文30多篇(26篇EI),主編教材 1 部,主持科研課題6項,經費1,多次獲得校級科研優秀獎,作為九三社員提出的智慧城市提案被市政府采納,研究成果被教育廳等單位采用。
    目錄
    第1章 大數據處理概述 1
    1.1 大數據處理技術概述 1
    1.1.1 什麼是大數據 1
    1.1.2 大數據來源 2
    1.1.3 大數據應用價值 3
    1.1.4 大數據技術特點和研究內容 4
    1.1.5 大數據計算與繫統 5
    1.2 數據挖掘及其相關領域應用9
    1.2.1 數據挖掘概述 9
    1.2.2 數據挖掘與機器學習 11
    1.2.3 數據挖掘與數據庫 11
    1.2.4 數據挖掘與統計學 12
    1.2.5 數據挖掘與決策支持 12
    1.2.6 數據挖掘與雲計算 13

    第1章  大數據處理概述 1


    1.1  大數據處理技術概述 1


    1.1.1 
    什麼是大數據 1


    1.1.2 
    大數據來源 2


    1.1.3 
    大數據應用價值 3


    1.1.4 
    大數據技術特點和研究內容 4


    1.1.5 
    大數據計算與繫統 5


    1.2  數據挖掘及其相關領域應用
    9


    1.2.1 
    數據挖掘概述 9


    1.2.2 
    數據挖掘與機器學習 11


    1.2.3 
    數據挖掘與數據庫 11


    1.2.4 
    數據挖掘與統計學 12


    1.2.5 
    數據挖掘與決策支持 12


    1.2.6 
    數據挖掘與雲計算 13


    1.3  大數據應用 13


    1.3.1 
    大數據應用案例 13


    1.3.2 
    大數據應用場景 14


    1.3.3 
    大數據應用平臺方案案例 21


    1.4  並行計算簡介 23


    1.5 
    Hadoop介紹 24


    1.6  本章小結 26


    第2章  雲計算時代 27


    2.1  雲計算概述 27


    2.1.1 
    雲計算概念 27


    2.1.2 
    雲計算發展簡史 28


    2.1.3 
    雲計算實現機制 30


    2.1.4 
    雲計算服務形式 31


    2.1.5 
    雲計算時代的數據庫NoSQL 32


    2.2  雲計算發展動力源泉 34


    2.3  雲計算技術分析 34


    2.3.1 
    編程模式 34


    2.3.2 
    海量數據雲存儲技術 37


    2.3.3 
    海量數據管理技術 38


    2.3.4 
    虛擬化技術 39


    2.3.5 
    分布式計算 41


    2.3.6 
    雲監測技術 41


    2.4  並行計算與雲計算關繫 43


    2.4.1 
    並行計算與雲計算 44


    2.4.2 
    MapReduce 45


    2.5  雲計算發展優勢 51


    2.6  向雲實現遷移 53


    2.7  本章小結 55


    第3章  大數據與雲計算關繫 56


    3.1  雲計算與大數據關繫 56


    3.2  大數據與雲計算的融合是認識世界的新工具 57


    3.3  大數據隱私保護是大數據雲快速發展和運用的重要前提 59


    3.3.1 
    雲計算的安全隱私 60


    3.3.2 
    大數據的安全隱私 60


    3.4  大數據成就雲計算價值 62


    3.5  數據向雲計算遷移 63


    3.6  大數據清洗 64


    3.7  雲計算時代的數據集成技術
    66


    3.8  雲推薦 67


    3.9  本章小結 68


    第4章  Spark大數據處理基礎 69


    4.1 
    Spark大數據處理技術 69


    4.1.1 
    Spark繫統概述 69


    4.1.2 
    Spark生態繫統BDAS(伯利克分析棧) 70


    4.1.3 
    Spark的用武之地 71


    4.1.4 
    Spark大數據處理框架 72


    4.1.5 
    Spark運行模式分類及術語 73


    4.2 
    Spark 2.0.0安裝配置 74


    4.2.1 
    在Linux集群上安裝與配置Spark 74


    4.2.2 
    Spark Shell 81


    4.2.3 
    Spark RDD 88


    4.2.4 
    Shark(Hive on Spark大型的數據倉庫繫統) 91


    4.3 
    Spark配置 92


    4.3.1 
    環境變量 92


    4.3.2 
    繫統屬性 93


    4.3.3 
    配置日志 95


    4.3.4 
    Spark 硬件配置 95


    4.4 
    Spark模式部署概述 96


    4.5 
    Spark Streaming實時計算框架 98


    4.6 
    Spark SQL 查詢、DataFrames分布式數據集和Datasets API 101


    4.7 
    Spark起始點 102


    4.7.1 
    SparkSession 102


    4.7.2 
    SQLContext 103


    4.7.3 
    創建DataFrame 104


    4.7.4 
    無類型的Dataset操作(aka DataFrame Operations) 105


    4.7.5 
    編程執行SQL查詢語句 111


    4.7.6 
    創建Dataset 112


    4.7.7 
    和RDD互操作 115


    4.8 
    Spark數據源 125


    4.8.1 
    通用加載/保存函數 125


    4.8.2 
    Parquet文件 127


    4.8.3 
    JSON數據集 135


    4.8.4 
    Hive表 136


    4.8.5 
    用JDBC連接其他數據庫 143


    4.9 
    Spark性能調優 144


    4.10 
    分布式SQL引擎 145


    4.11 
    本章小結 146


    第5章  Spark MLlib機器學習算法實現 147


    5.1 
    Spark MLlib基礎 147


    5.1.1 
    機器學習 148


    5.1.2 
    機器學習分類 148


    5.1.3 
    機器學習常見算法 149


    5.1.4 
    Spark MLlib機器學習庫 152


    5.1.5 
    基於Spark常用的算法舉例分析 156


    5.2 
    Spark MLlib矩陣向量 159


    5.2.1 
    Breeze創建函數 159


    5.2.2 
    Bre素訪問 161


    5.2.3 
    Bre素操作 162


    5.2.4 
    Breeze數值計算函數 165


    5.2.5 
    Breeze求和函數 166


    5.2.6 
    Breeze布爾函數 167


    5.2.7 
    Breeze線性代數函數 168


    5.2.8 
    Breeze取整函數 169


    5.2.9 
    Breeze三角函數 170


    5.2.10 
    BLAS向量運算 170


    5.3 
    Spark MLlib線性回歸算法 171


    5.3.1 
    線性回歸算法理論基礎 171


    5.3.2 
    線性回歸算法 172


    5.3.3 
    Spark MLlib Linear Regression源碼分析 174


    5.4 
    Spark MLlib邏輯回歸算法 183


    5.4.1 
    邏輯回歸算法 184


    5.4.2 
    Spark MLlib Logistic Regression源碼分析 186


    5.5 
    Spark MLlib樸素貝葉斯分類算法 199


    5.5.1 
    樸素貝葉斯分類算法 200


    5.5.2 
    樸素貝葉斯Spark MLlib源碼 203


    5.6 
    Spark MLlib決策樹算法 217


    5.6.1 
    決策樹算法 217


    5.6.2 
    決策樹實例 220


    5.7 
    Spark MLlib KMeans聚類算法 227


    5.7.1 
    KMeans聚類算法 227


    5.7.2 
    Spark MLlib KMeans源碼分析 228


    5.7.3 
    MLlib KMeans實例 235


    5.8 
    Spark MLlib FPGrowth關聯規則算法 236


    5.8.1 
    基本概念 236


    5.8.2 
    FPGrowth算法 237


    5.8.3 
    Spark MLlib FPGrowth源碼分析 241


    5.9 
    Spark MLlib協同過濾推薦算法 244


    5.9.1 
    協同過濾概念 244


    5.9.2 
    相似度度量 245


    5.9.3 
    協同過濾算法按照數據使用分類 246


    5.9.4 
    Spark MLlib協同過濾算法實現 247


    5.9.5 
    Spark MLlib電影評級推薦 252


    5.10 
    Spark MLlib神經網絡算法 261


    5.11 
    本章小結 264


    第6章  Spark大數據架構繫統部署 265


    6.1  大數據架構介紹 265


    6.2  典型的商務使用場景 266


    6.2.1 
    客戶行為分析 266


    6.2.2 
    情緒分析 267


    6.2.3 
    CRM Onboarding 267


    6.2.4 
    預測 268


    6.3 
    Spark三種分布式部署模式 268


    6.3.1 
    Standalone模式 268


    6.3.2 
    Spark On Mesos 模式 269


    6.3.3 
    Spark On YARN模式 269


    6.4  創建大數據架構 270


    6.4.1 
    數據采集 270


    6.4.2 
    數據接入 271


    6.4.3 
    Spark流式計算 273


    6.4.4 
    數據輸出 274


    6.4.5 
    日志攝取 274


    6.4.6 
    機器學習 277


    6.4.7 
    處理引擎 277


    6.5 
    Spark單個機器集群部署 278


    6.6  本章小結 280


    第7章  Spark大數據處理案例分析 282


    7.1 
    Spark on Amazon EMR 282


    7.1.1 
    Amazon EMR 282


    7.1.2 
    配置 Spark 283


    7.1.3 
    以交互方式或批處理模式使用 Spark 284


    7.1.4 
    使用 Spark 創建集群 285


    7.1.5 
    訪問 Spark 外殼 286


    7.1.6 
    添加 Spark 287


    7.2 
    Spark在AWSKrux的應用 289


    7.3 
    Spark在商業網站中的應用 290


    7.4 
    Spark在Yahoo!的應用 291


    7.5 
    Spark在Amazon EC2上運行 292


    7.6  淘寶應用Spark on
    YARN架構 296


    7.7  騰訊雲大數據解決方案
    297


    7.8  雅虎開源TensorFlowOnSpark
    298


    7.9  阿裡雲E-MapReduce
    301


    7.10 
    SequoiaDB Spark 打造一體化
    大數據平臺 304


    7.11 
    本章小結 305


    第8章  大數據發展展望 306


    8.1  大數據未來發展趨勢 306


    8.2  大數據給人類帶來的認知衝擊
    307


    8.3  未來大數據研究突破的技術問題 308


    8.4  本章小結 309


    附錄  Spark MLlib神經網絡算法 312


    參考文獻 338

    前言
    麥肯錫全球研究所給出的大數據定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
    大數據技術的戰略意義不在於獲取了龐大的數據,而在於對這些特定領域的數據進行處理分析。換而言之,關鍵是把這些巨大的數據實現盈利式的加工,提供效率,具有增值的處理模式。
    本書背景
    大數據像颶風一樣席卷而來,改變著信息時代的數據處理方式。產業經營方式經歷著革命性的變革,大數據與雲計算的融合改變著數據處理流程和模式,對互聯網、信息經濟發展提出了新的方向和擴展空間。應用驅動技術發展產生的數據越多,可供分析的數據越多,越能推動研發和出現更先進的用來分析數據的工具和方法。
    國家對互聯網、信息經濟的發展提出了方向,明確說要拓展發展新的空間,實施網絡強國戰略,實施“互聯網 ”行動計劃,發展分享經濟,實施國家大數據戰略,將網絡強國戰略作為新的一個創新的重要支撐。

    麥肯錫全球研究所給出的大數據定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。


    大數據技術的戰略意義不在於獲取了龐大的數據,而在於對這些特定領域的數據進行處理分析。換而言之,關鍵是把這些巨大的數據實現盈利式的加工,提供效率,具有增值的處理模式。


    本書背景


    大數據像颶風一樣席卷而來,改變著信息時代的數據處理方式。產業經營方式經歷著革命性的變革,大數據與雲計算的融合改變著數據處理流程和模式,對互聯網、信息經濟發展提出了新的方向和擴展空間。應用驅動技術發展產生的數據越多,可供分析的數據越多,越能推動研發和出現更先進的用來分析數據的工具和方法。


    國家對互聯網、信息經濟的發展提出了方向,明確說要拓展發展新的空間,實施網絡強國戰略,實施“互聯網 ”行動計劃,發展分享經濟,實施國家大數據戰略,將網絡強國戰略作為新的一個創新的重要支撐。


    本書內容


    本書圍繞互聯網重大的技術革命:雲計算、大數據(未來世界新一代信息技術的關鍵和核心)進行闡述。雲計算環境下大數據處理構建是國民經濟發展的信息基礎設施,發展自主的雲計算核心技術,擁有自己的信息基礎設施,當前正處於重要的發展機遇期。本書重點在大數據與雲計算的融合,給出了大數據與雲計算的一些基本概念的同時,以Spark為開發工具,全面講述雲環境下的大數據技術部署與典型案例算法實現,後介紹了國內經典Spark大數據與雲計算融合的架構與算法。


    本書目的


    3年前就開始著手準備寫關於大數據和雲計算融合的相關技術方面的書,由於書中的算法需要模擬驗證,所以交稿拖延了很長時間。目前這方面的書還不繫統,還沒有全面融合兩者技術的書出現,也是筆者想寫這本書的初衷。隨著歲月侵蝕,白發雜生,大數據技術發展也日新月異。


    得益於國內IT企業的後發制人戰略,目前國內的IT公司在大數據應用方面已經迎頭趕上了國際巨頭,在雲大數據技術方面的研發和技術突破經歷了大幅的跨越發展。當今世界迎來大數據時代,工欲善其事,必先利其器,在大數據和雲計算的規則制定和新技術研發上還需努力,這方面還需要加大研發與突破。


    致謝


    感謝家人給我的全身心的支持與關愛,沒有你們的寬容與支持即使是10年也沒法完成這本書。由於撰寫時間緊迫,夜晚孤燈,每晚多想陪著妻子月夜樹影婆娑,多想在閨女的校門口等待閨女背著書包顛顛地跑來。後感謝單位給予的大力支持與幫助。


     


     


     


    著者


    2017年8月

    媒體評論
    評論
    在線試讀
    第 1 章? 大數據處理概述 ?第 1 章? 大數據處理概述 ?
    大數據是當今一個熱門的話題,我們每一個人都無法置身其外。就像幾年前出現的雲計算一樣,大數據已經引起市場的廣泛關注;同樣,企業迫切需要對大數據下定義。大數據缺少一個標準且普及性的定義,至少不像NIST 對雲的定義那樣,能被人們廣泛接受。調研公司IDC的定義可能比較容易被人們所接受。它對大數據的定義是:一種新一代的技術和架構,具備高效率的捕捉、發現和分析能力,能夠經濟地從類型繁雜、數量龐大的數據中挖掘出價值。1.1  大數據處理技術概述近幾年,大數據迅速發展成為科技界和企業界甚至世界各國政府關注的熱點。《Nature》和《Science》等相繼出版專刊專門探討大數據帶來的機遇和挑戰。著名管理咨詢公司麥肯錫稱:“數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於大數據的挖掘和運用,預示著新一波生產力增長和消費盈餘浪潮的到來”。美國政府認為大數據是“未來的新石油,一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分,對數據的占有和控制將成為國家間和企業間新的爭奪焦點。大數據已成為社會各界關注的新焦點,“大數據時代”已然來臨[1]。“大數據”是一個體量特別大、數據類別特別大的數據集,並且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理。百度知道大數據(bigdata)的定義,或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,並整理成為幫助企業經營決策更積極目的的資訊。大數據的5V特點:Volume、Velocity、Variety、Veracity、Value。1.1.1  什麼是大數據“大數據”是需要新處理模式纔能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,“大數據”指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理範圍和大小、迫使用戶采用非傳統處理方法的數據集。亞馬遜網絡服務(AWS)大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一臺計算機處理能力的龐大數據量。其研發小組對大數據的定義:“大數據是的、時髦的技術,當這種現像出現時,定義就變得很混亂。”學者Kelly說:“大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限”。大數據不是關於如何定義,重要的是如何使用。的挑戰在於哪些技術能更好地使用數據以及大數據的應用情況如何。這與傳統的數據庫相比,開源的大數據分析工具如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。相較於傳統的數據,人們將大數據的特征總結為5個V,即體量大(Volume)、速度快(Velocity)、模態多(Variety)、難辨識(Veracity)和價值大(Value)。“大數據”首先是指數據體量(volumes)大,指代大型數據集,一般在10TB規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(Variety)多,數據來自多種數據源,數據種類和格式日漸豐富,已衝破了以前所限定的結構化數據範疇,囊括了半結構化和非結構化數據;接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理;還有一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。但大數據的主要難點並不在於數據量大,因為通過對計算機繫統的擴展可以在一定程度上緩解數據量大帶來的挑戰。其實,大數據真正難以對付的挑戰來自於數據類型多樣(Variety)、要求及時響應(Velocity)和數據的不確定性(Veracity)。因為數據類型多樣使得一個應用往往既要處理結構化數據,同時還要處理文本、視頻、語音等非結構化數據,這對現有數據庫繫統來說難以應付;在快速響應方面,在許多應用中時間就是利益;在不確定性方面,數據真偽難辨是大數據應用的挑戰。追求高數據質量是對大數據的一項重要要求,好的數據清理方法也難以消除某些數據固有的不可預測性。
    書摘插畫
    插圖
    插圖

    插圖

    插圖

    插圖

    插圖

    插圖


     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部