[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • PySpark大數據分析實戰 伍鮮 常麗娟
    該商品所屬分類:計算機/網絡 -> 數據庫
    【市場價】
    588-854
    【優惠價】
    368-534
    【作者】 伍鮮 
    【所屬類別】 圖書  計算機/網絡  數據庫  數據庫理論 
    【出版社】機械工業出版社 
    【ISBN】9787111739593
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787111739593
    叢書名:大數據科學叢書

    作者:伍鮮
    出版社:機械工業出版社
    出版時間:2023年12月 


        
        
    "

    編輯推薦
    1. 6位行業專家鼎力推薦,大數據從業者案頭寶典。
    2. 贈送超過2200分鐘的視頻教程+程序源代碼+運行環境安裝包,助你早日實現從入門到精通。 
    內容簡介
    本書是PySpark大數據分析的入門讀物,適合有一定Python基礎的讀者學習使用。本書基於最新版本的PySpark 3.4.x編寫,全書共11章,繫統地介紹了PySpark大數據分析的方法和技巧,內容涵蓋了大數據的相關技術、PySpark的基本概念、Spark環境搭建、數據分析的基本概念及相關工具、開發工具的選擇、Spark核心編程和Spark SQL操作等基礎知識和核心技術,以及Spark流式數據處理、Spark機器學習庫MLlib和基於協同過濾的圖書推薦繫統等高級主題。本書通過多個實戰案例,帶領讀者掌握使用Python和Spark進行大數據分析的方法和技巧,從而提高讀者的數據處理能力和業務價值。
    本書內容全面、示例豐富、講解清晰,讀者可以直接應用書中的案例。本書適合自學,也可作為計算機、軟件工程、數據科學與大數據等專業的教學參考書,用於指導大數據分析編程實踐,還可供相關技術人員參考。
    作者簡介
    伍鮮,就職於中電金信軟件有限公司,擔任高級軟件工程師。擁有多年金融領域大數據處理實戰經驗,曾負責多家銀行的Teradata數據倉庫、FusionInsight大數據集群、阿裡雲大數據倉庫、智能營銷客戶集市和客戶中心建設。
    熱衷於各種主流技術,對大數據技術棧Hadoop、Hive、Spark、Kafka等有深入研究。熱愛數據科學、機器學習、雲計算、人工智能通過了微軟Azure開發人員、Azure數據工程師Azure解決方案架構師專家認證,對Databricks的使用有豐富的經驗。
    目錄
    前言
    第1章 初識PySpark/
    1.1 關於數據/
    1.2 了解Hadoop/
    1.2.1 分布式文件繫統HDFS/
    1.2.2 分布式計算框架MapReduce/
    1.2.3 資源調度管理框架YARN/
    1.3 了解Hive/
    1.4 了解Spark/
    1.4.1 Spark是什麼/
    1.4.2 Spark的發展歷程/
    1.4.3 Spark的特點/
    1.4.4 Spark的生態繫統/
    1.4.5 Spark的部署模式/前言
    第1章 初識PySpark/
    1.1 關於數據/
    1.2 了解Hadoop/
    1.2.1 分布式文件繫統HDFS/
    1.2.2 分布式計算框架MapReduce/
    1.2.3 資源調度管理框架YARN/
    1.3 了解Hive/
    1.4 了解Spark/
    1.4.1 Spark是什麼/
    1.4.2 Spark的發展歷程/
    1.4.3 Spark的特點/
    1.4.4 Spark的生態繫統/
    1.4.5 Spark的部署模式/
    1.4.6 Spark的運行架構/
    1.5 PySpark庫介紹/
    1.6 本章小結/
    第2章 Spark環境搭建/
    2.1 安裝環境準備/
    2.1.1 操作繫統準備/
    2.1.2 Java環境準備/
    2.1.3 Python環境準備/
    2.1.4 Spark安裝包下載/
    2.1.5 Hadoop安裝包下載/
    2.2 Spark本地模式安裝/
    2.2.1 使用交互式pyspark運行代碼/
    2.2.2 寬窄依賴和階段劃分/
    2.2.3 使用spark-submit提交代碼/
    2.3 Spark獨立集群安裝/
    2.3.1 配置並啟動Spark集群/
    2.3.2 使用spark-submit提交代碼/
    2.3.3 Spark History Server歷史服務/
    2.3.4 獨立集群模式的代碼運行流程/
    2.4 Spark on YARN模式安裝/
    2.4.1 安裝Hadoop集群/
    2.4.2 格式化NameNode/
    2.4.3 啟動Hadoop集群/
    2.4.4 配置Spark運行在YARN上/
    2.4.5 使用spark-submit提交代碼/
    2.4.6 Spark on YARN模式代碼運行流程/
    2.5 雲服務模式Databricks介紹/
    2.5.1 Databricks基本概念/
    2.5.2 創建集群/
    2.5.3 數據集成/
    2.5.4 創建筆記本/
    2.5.5 運行案例/
    2.5.6 創建作業/
    2.5.7 運行作業/
    2.5.8 其他類型的作業/
    2.6 本章小結/
    第3章 數據分析基礎/
    3.1 什麼是數據分析/
    3.2 Python數據分析工具介紹/
    3.2.1 數學計算庫NumPy介紹/
    3.2.2 數據分析庫Pandas介紹/
    3.3 數據分析圖表介紹/
    3.4 Python數據可視化工具介紹/
    3.4.1 Matplotlib介紹/
    3.4.2 Seaborn介紹/
    3.4.3 Pyecharts介紹/
    3.4.4 三種可視化工具的對比/
    3.5 本章小結/
    第4章 選擇合適的開發工具/
    4.1 使用Databricks探索數據/
    4.1.1 使用筆記本開發代碼/
    4.1.2【實戰案例】阿凡達電影評價分析/
    4.2 使用JupyterLab探索數據/
    4.2.1 創建虛擬環境/
    4.2.2 安裝JupyterLab/
    4.2.3 集成Spark引擎/
    4.2.4【實戰案例】二手房數據分析/
    4.3 使用PyCharm探索數據/
    4.3.1 安裝PyCharm/
    4.3.2 安裝Python/
    4.3.3 創建PyCharm項目/
    4.3.4 PyCharm插件介紹/
    4.3.5【實戰案例】招聘信息數據分析/
    4.4 本章小結/
    第5章 核心功能Spark Core/
    5.1 SparkContext介紹/
    5.2 RDD介紹/
    5.3 RDD的特性/
    5.4 RDD的創建/
    5.4.1 通過並行化本地集合創建RDD/
    5.4.2 通過外部文件繫統數據創建RDD/
    5.4.3 通過已存在的RDD衍生新的RDD/
    5.5 RDD的算子/
    5.5.1 什麼是算子/
    5.5.2 算子的分類/
    5.6 常用的Transformation算子/
    5.6.1 基本算子/
    5.6.組相關的算子/
    5.6.3 分區相關的算子/
    5.7 常用的Action算子/
    5.7.1 基本算子/
    5.7.2 Executor端執行的算子/
    5.8 RDD的持久化/
    5.8.1 緩存/
    5.8.2 緩存的特點/
    5.8.3 檢查點/
    5.8.4 緩存和檢查點的比較/
    5.9 共享變量/
    5.9.1 廣播變量/
    5.9.2 累加器/
    5.10【實戰案例】共享單車租賃數據分析/
    5.10.1 數據集成/
    5.10.2 不同月份的租賃數據分析/
    5.10.3 不同時間的租賃數據分析/
    5.10.4 不同周期的租賃數據分析/
    5.10.5 不同維度的租賃數據分析/
    5.10.6 天氣對租賃需求的影響/
    5.10.7 溫度、風速對租賃需求的影響/
    5.11 本章小結/
    第6章 結構化數據處理Spark SQL/
    6.1 Spark SQL概述/
    6.1.1 什麼是Spark SQL/
    6.1.2 Spark SQL的特點/
    6.2 Spark SQL的發展歷程/
    6.2.1 從HDFS到Hive/
    6.2.2 從Hive到Shark/
    6.2.3 從Shark到Spark SQL/
    6.3 SparkSession介紹/
    6.4 DataFrame概述/
    6.4.1 什麼是DataFrame/
    6.4.2 DataFrame的組成/
    6.5 DataFrame的創建/
    6.5.1 通過RDD創建/
    6.5.2 通過Pandas的DataFrame創建/
    6.5.3 通過外部數據創建/
    6.6 DataFrame的基本操作/
    6.6.1 DSL語法風格/
    6.6.2 Spark Join策略介紹/
    6.6.3 SQL語法風格/
    6.7 DataFrame的函數操作/
    6.7.1 內置函數/
    6.7.2 窗口函數/
    6.7.3 自定義函數/
    6.8 DataFrame的數據清洗/
    6.8.1 刪除重復行/
    6.8.2 缺失值的處理/
    6.9 DataFrame的持久化/
    6.10 DataFrame的數據寫出/
    6.10.1 寫出數據到文件/
    6.10.2 寫出數據到數據庫/
    6.11【實戰案例】世界杯數據可視化分析/
    6.11.1 世界杯成績彙總信息分析/
    6.11.2 世界杯比賽信息分析/
    6.12 本章小結/
    第7章 集成Hive數據倉庫/
    7.1 Spark on Hive操作數據倉庫/
    7.1.1 安裝Hive/
    7.1.2數據服務/
    7.1.3 配置Spark on Hive/
    7.1.4 驗證Spark on Hive/
    7.2 使用MySQL替換H數據服務/
    7.2.1 初始化MySQL/
    7.2.2 配置Spark on MySQL/
    7.2.3 驗證Spark on MySQL/
    7.3【實戰案例】基於Hive數據倉庫的電商數據分析/
    7.3.1 數據集成/
    7.3.2 爆款產品分析/
    7.3.3 月交易情況分析/
    7.3.4 忠誠客戶分析/
    7.3.5 客戶區域分析/
    7.4 本章小結/
    第8章 Spark Streaming流式數據處理/
    8.1 流式數據處理概述/
    8.1.1 靜態數據和流式數據/
    8.1.2 批量計算和實時計算/
    8.1.3 流式計算/
    8.2 Spark Streaming概述/
    8.3 StreamingContext介紹/
    8.4 DStream介紹/
    8.5 DStream的創建/
    8.5.1 通過文件創建/
    8.5.2 通過套接字創建/
    8.5.3 通過RDD隊列創建/
    8.6 DStream的Transformation操作/
    8.6.1 無狀態轉換/
    8.6.2 有狀態轉換/
    8.7 DStream的輸出操作/
    8.8 DStream的SQL操作/
    8.9 DStream的持久化/
    8.10【實戰案例】地震數據處理分析/
    8.10.1 數據集成/
    8.10.2 震級大小分布分析/
    8.10.3 震源深度分布分析/
    8.10.4 震中坐標分布分析/
    8.10.5 中等地震分布分析/
    8.11 本章小結/
    第9章 Structured Streaming結構化流處理/
    9.1 編程模型/
    9.1.1 基本概念/
    9.1.2 事件時間和延遲數據/
    9.1.3 容錯語義/
    9.2 流式DataFrame的創建/
    9.2.1 通過文件源創建/
    9.2.2 通過Socket源創建/
    9.2.3 通過Rate源創建/
    9.2.4 通過Kafka源創建/
    9.3 流式DataFrame的操作/
    9.3.1 事件時間窗口/
    9.3.2 處理延遲數據和水印/
    9.3.3 連接操作/
    9.3.4 消除重復數據/
    9.3.5 不支持的操作/
    9.4 啟動流式處理查詢/
    9.4.1 輸出模式/
    9.4.2 輸出接收器/
    9.4.3 觸發器/
    9.5 管理流式查詢/
    9.6 監控流式查詢/
    9.7【實戰案例】氣像數據處理分析/
    9.7.1 數據集成/
    9.7.2 雲量分布分析/
    9.7.3 氣溫分布分析/
    9.7.4 降水量分布分析/
    9.8 本章小結/
    第10章 Spark機器學習庫MLlib/
    10.1 機器學習介紹/
    10.1.1 基本概念/
    10.1.2 評估指標/
    10.1.3 主要過程/
    10.1.4 基於大數據的機器學習/
    10.2 MLlib介紹/
    10.3 數據預處理/
    10.3.1 缺失值處理/
    10.3.2 無量綱化處理/
    10.3.3 特征數據處理/
    10.4 特征提取和轉換/
    10.5 回歸算法介紹/
    10.5.1 線性回歸算法介紹/
    10.5.2 回歸樹算法介紹/
    10.6 分類算法介紹/
    10.6.1 邏輯回歸算法介紹/
    10.6.2 支持向量機算法介紹/
    10.7聚類算法介紹/
    10.7.1K-means算法介紹/
    10.7.2高斯混合模型介紹/
    10.8【實戰案例】信用卡欺詐數據分析/
    10.8.1 數據預覽/
    10.8.2 機器學習訓練/
    10.9 本章小結/
    第11章 綜合實戰:基於協同過濾的圖書推薦繫統/
    11.1 項目介紹/
    11.2 協同過濾算法/
    11.2.1 協同過濾算法介紹/
    11.2.2 相似度度量/
    11.2.3 交替最小二乘法/
    11.3 項目實現/
    11.3.1 數據集成/
    11.3.2 數據分析/
    11.3.3 結果導出/
    11.4 數據可視化/
    11.4.1 Flask框架介紹/
    11.4.2 推薦結果展示/
    11.5 項目部署/
    11.6 本章小結/
    參考文獻/
    前言
    隨著互聯網和科技的發展,每天都會出現大量的數據,這些數據包含了豐富的信息,大數據處理分析已經成為全球範圍內的重要議題。大數據分析是當今時代的重要技能,它可以幫助我們從海量的數據中發現規律、洞察趨勢、優化決策。然而,隨著數據量爆炸式的增長和復雜度的提高,傳統的數據分析工具已經難以滿足需求。我們需要一種更強大、更靈活、更高效的大數據處理平臺來應對各種數據挑戰。
    Spark是目前最流行的大數據處理框架之一,可以處理大規模的數據集,它具有快速、易用、通用和兼容等特點,支持批處理、流式處理、交互式查詢和機器學習等多種場景,對於大數據分析非常有用。Python是一種廣泛使用的優雅、易學的編程語言,因其簡潔明了的語法和強大的數據處理能力,受到廣 大數據分析師和數據科學家的喜愛,它擁有豐富的數據科學庫和社區資源,可以與Spark無縫集成,實現大數據分析的全棧開發。PySpark是Spark的Python接口,它允許我們使用Python語言進行大數據分析。繫統地學習PySpark,掌握大數據處理的技能,能夠處理和分析大規模的數據集,這對於數據科學家和數據工程師來說是非常重要的。此外,由於PySpark是開源的,因此它也為我們提供了一個學習和分享知識的平臺。隨著互聯網和科技的發展,每天都會出現大量的數據,這些數據包含了豐富的信息,大數據處理分析已經成為全球範圍內的重要議題。大數據分析是當今時代的重要技能,它可以幫助我們從海量的數據中發現規律、洞察趨勢、優化決策。然而,隨著數據量爆炸式的增長和復雜度的提高,傳統的數據分析工具已經難以滿足需求。我們需要一種更強大、更靈活、更高效的大數據處理平臺來應對各種數據挑戰。
    Spark是目前最流行的大數據處理框架之一,可以處理大規模的數據集,它具有快速、易用、通用和兼容等特點,支持批處理、流式處理、交互式查詢和機器學習等多種場景,對於大數據分析非常有用。Python是一種廣泛使用的優雅、易學的編程語言,因其簡潔明了的語法和強大的數據處理能力,受到廣 大數據分析師和數據科學家的喜愛,它擁有豐富的數據科學庫和社區資源,可以與Spark無縫集成,實現大數據分析的全棧開發。PySpark是Spark的Python接口,它允許我們使用Python語言進行大數據分析。繫統地學習PySpark,掌握大數據處理的技能,能夠處理和分析大規模的數據集,這對於數據科學家和數據工程師來說是非常重要的。此外,由於PySpark是開源的,因此它也為我們提供了一個學習和分享知識的平臺。
    在閱讀本書的過程中,可以對照源代碼按章節順序進行學習。當然,如果對書中某些章節比較熟悉,也可以跳過,直接學習需要了解的章節。本書源代碼主要使用PyCharm社區版開發,數據分析中的可視化、交互式開發、交互式查詢等可以使用JupyterLab或Databricks進行操作,因此本書也提供基於JupyterLab和Databricks開發的源代碼。當然讀者也可以選擇自己喜歡的工具進行開發。
    本書內容共分為11章。第1~4章是基礎知識介紹;第5、6章是Spark的核心知識,其核心數據抽像RDD和DataFrame及相關的轉換操作是後續章節的基礎,對整個Spark的學習都非常重要;第7章是整合大數據倉庫Hive,讓Spark可以輕松處理已有數據倉庫中的數據;第8~10章是Spark中的高級主題,包括流式數據處理和機器學習,其底層數據依然是RDD和DataFrame;第11章是一個綜合案例。各章節內容說明如下:
    第1章主要介紹了大數據的發展以及相關的技術,包括Spark的發展歷程、特點、架構、PySpark庫等,讓讀者對大數據技術及Spark有一個大致的了解。
    第2章主要介紹了Spark環境的搭建,包括操作繫統基礎環境準備、單機環境搭建、獨立集群環境搭建、YARN集群環境搭建以及雲服務模式Databricks介紹等,讓我們開發的代碼有運行的地方。
    第3章主要介紹了數據分析的基礎知識,包括數據分析流程、數據分析的常用工具庫和可視化庫等。
    第4章主要介紹了幾種開發工具,包括Databricks、JupyterLab、PyCharm和PyCharm插件等,並且用每種工具都完成一個數據分析案例的開發,讓讀者對各種開發工具的開發流程及特點有所了解。
    第5章主要介紹了Spark的核心功能Spark Core,包括Spark程序入口SparkContext、核心數據抽像RDD,以及RDD的創建、轉換、持久化等功能,並用案例展示了如何在數據分析中使用RDD。
    第6章主要介紹了Spark的結構化數據處理Spark SQL,包括統一的Spark程序入口SparkSession、核心數據抽像DataFrame,以及DataFrame的創建、轉換、SQL操作和自定義函數等功能,並用案例展示了DataFrame在數據分析中的應用。
    第7章主要介紹了使用Spark操作大數據倉庫Hive中的數據,無需數據遷移,即可讓Spark輕松處理Hive中已有的海量數據,並用案例展示了Spark如何直接操作Hive數據進行數據分析。
    第8章和第9章主要介紹了兩種不同的流式數據處理,包括創建、數據處理、結果輸出等。第8章Spark Streaming中的數據抽像是DStream,底層數據是RDD;第9章Structured Streaming的底層數據是DataFrame。
    第10章主要介紹了機器學習庫MLlib,包括機器學習的基礎知識、機器學習流程、模型評估、機器學習算法等。對機器學習感興趣的讀者可以了解到如何在Spark集群中完成機器學習,解決單機環境下的機器學習無法解決的問題。
    第11章主要介紹了一個綜合案例,基於協同過濾的圖書推薦繫統,綜合運用Spark SQL、Structured Streaming、Spark MLlib、Kafka、MySQL、Flask、Flask-Admin等相關技術,實現大數據分析的全棧開發。

    本書讀者對像
    本書適合有一定Python基礎的讀者,包括Python開發人員、大數據開發人員、數據分析師、數據科學愛好者等。

    本書技術支持
    非常感謝大家選擇本書,希望本書可以給讀者帶來有價值的東西。在本書創作過程中,作者盡力做好每個知識點的呈現,但由於作者的精力和能力有限,在創作過程中難免有疏漏和不足之處,希望大家不吝指正。關於本書的任何問題都可發送郵件至wux_labs@outlook.com與作者交流。

    本書配套資料
    本書提供完整源代碼及視頻講解,讀者可以下載使用(具體方法詳見本書封底)。

    關於作者
    本書作者擁有多年金融領域大數據處理實戰經驗,曾負責多家銀行的數據倉庫、大數據倉庫、營銷客戶集市建設,熱愛各種主流技術,對大數據技術棧Hadoop、Hive、Spark、Kafka等有深入研究,熱愛數據科學、














     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部