了得網圖書_SPARK實戰

作者:[美] 彼得·澤斯維奇（Petar Ze?evi?）馬可·波納奇（Marko Bona?i）著鄭美珠田華王佐兵譯

定價:99

出版社:機械工業出版社

出版日期:2019年08月01日

頁數:372

裝幀:簡裝

ISBN:9787111617488

本書完整繫統地介紹Spark各模塊的原理並兼顧使用實戰及綜合應用從實戰角度講解Spark，實例豐富，容易理解，內容實用，適合學習

●目錄譯者序致謝前言關於本書關於作者關於封面第1部分第1步第1章 Apache Spark介紹1.1什麼是Spark1.1.1 Spark革命1.1.2 MapReduce的缺點 1.1.3 Spark帶來了什麼有價值的東西1.2 Spark組件1.2.1 Spark核心1.2.2 Spark SQL 1.2.3 Spark Streaming 1.2.4 Spark MLlib1.2.5 Spark GraphX1.3 Spark程序流1.4 Spark生態繫統1.5 建立spark-in-action 虛擬機1.5.1下載啟動虛擬機1.5.2 停止虛擬機1.6總結第2章 Spark基礎2.1使用spark-in-action虛擬機2.1.1 復制Spark in Action GitHub存儲庫2.1.2 找到java2.1.3 用虛擬機的Hadoop安裝2.1.4 檢查虛擬機的Spark安裝2.2用Spark shell（殼）編寫第一個Spark程序2.2.1 啟動Spark shell2.2.2 第一個Spark代碼示例2.2.3 彈性分布式數據集的概念2.3基礎RDD行為和轉換2.3.1 使用用map轉換 2.3.2 使用distinct和flatMap 轉換 2.3.3 使用sample、take和takeSample操作獲取R素2.4 Double RDD功能2.4.1 Double RDD基本統計 2.4.2 使用直方圖可視化數據分布2.4.3 近似求和與平均值2.5 總結第3章編寫Spark應用程序3.1在Eclipse上生成一個新的Spark項目3.2開發應用程序3.2.1 準備 GitHub 檔案數據3.2.2 加載 JSON3.2.3 從Eclipse運行應用3.2.4 數據彙總3.2.5 排除非公司員工3.2.6 廣播變量3.2.7 使用整個數據集3.3提交應用程序3.3.1 建立uberjar3.3.2 調整應用程序3.3.3 使用spark-submit3.4 總結第4章深入Spark API4.1使用鍵值對RDD4.1.1 創建鍵值對RDD4.1.2 鍵值對RDD的基本功能4.2了解數據分區和減少數據混排4.2.1 使用spark數據分區器4.2.2 了解和避免不必要的數據混排4.2.3 RDD重新分區4.2.4 在分區中映射數據4.3 連接、排序、分組數據 4.3.1 連接數據4.3.2 數據排序4.3.3 數據分組4.4 理解RDD依賴4.4.1 RDD依賴和Spark執行4.4.2 Spark階段和任務4.4.3 使用檢查點保存Spark譜繫4.5 使用累加器和廣播變量與spark執行器進行溝通4.5.1 使用累加器從執行器獲取數據4.5.2 使用廣播變量將數據發送數據到執行器4.6總結第二部分認識Spark家族第5章 Spark SQL查詢5.1使用DataFrames5.1.1 從RDD創建DataFrames5.1.2 DataFrame API 基礎知識5.1.3 用SQL函數執行數據計算5.1.4 使用缺失值5.1.5 將DataFrames轉換為RDD5.1.6 分組和連接數據 5.1.7 執行連接5.2超越DataFrames：引入DataSet5.3使用SQL命令5.3.1 表目錄和Hive metastore5.3.2 執行SQL查詢 5.3.3 通過Thrift服務器連接到Spark SQL5.4保存並加載DataFrame 數據5.4.1 內置數據源5.4.2 保存數據5.4.3 加載數據5.5 Catalyst 優化器5.6 Tungsten性能改進5.7總結第6章使用Spark Streaming提取數據6.1編寫Spark Streaming應用程序6.1.1 介紹示例程序6.1.2 創建流上下文6.1.3 創建離散流6.1.4 使用離散流6.1.5 把結果保存到文檔6.1.6 啟動和停止流計算6.1.7 隨著保存計算狀態6.1.8 使用窗口操作進行計算6.1.9 檢查其他內置輸入流6.2使用外部數據源6.2.1 設置kafka6.2.2 使用kafka更改流應用程序6.3 Spark Streaming任務的性能6.3.1 獲得良好的性能6.3.2 實現容錯6.4結構化流6.4.1 創建流式DataFrame6.4.2 輸出流數據6.4.3 檢查流執行6.4.4 結構化流的未來方向6.5總結第7章使用MLlib變聰明7.1機器學習簡介7.1.1 機器學習的定義7.1.2 機器學習算法分類7.1.3 使用Spark進行機器學習7.2 Spark中的線性代數7.2.1 本地向量與矩陣實現7.2.2 分布式矩陣7.3線性回歸7.3.1 有關線性回歸7.3.2 簡單的線性回歸7.3.3 將模型擴線性回歸7.4分析和準備數據7.4.1 分析數據分布7.4.2 分析列餘弦相似性7.4.3 協方差矩陣的計算7.4.4 轉化為標記點7.4.5 拆分數據7.4.6 特征縮放和平均歸一化7.5擬合和使用線性回歸模型7.5.1 預測目標值7.5.2 評估模型性能7.5.3 解釋模型參數7.5.4 加載和保存模型7.6調整算法7.6.1 找到正確的步長和迭代次數7.6.2 添加高階多項式7.6.3 偏差-方差權衡和模型復雜度7.6.4 繪制殘差圖7.6.5 利用正則化避免過度擬合7.6.6 k折交叉驗證7.7優化線性回歸7.7.1 小批量隨機梯度下降7.7.2 LBFGS優化7.8總結八、ML：分類和聚類8.1 Spark ML 圖書館8.1.1 估計器，變壓器和評估器8.1.2 ML參數8.1.3 ML管道8.2邏輯回歸8.2.邏輯回歸模型8.2.2準備數據在Spark中使用邏輯回歸8.2.3 訓練模型8.2.4 評估分類模型8.2.5 執行k折交叉驗證8.2.6 多類邏輯回歸8.3決策樹和隨機森林8.3.1 決策樹8.3.2 隨機森林8.4使用k均值聚類8.4.1 k均值聚類8.5總結第9章使用GraphX連接點9.1 Spark圖處理9.1.1 使用GraphX API構造圖9.1.2 轉換圖9.2圖算法9.2.1 數據集的介紹9.2.2 最短路徑算法9.2.3 頁面排名9.2.4 連通分量9.2.5 強連通分量9.3實現A *搜索算法9.3.1 了解A *搜索算法9.3.2 實現A *搜索算法9.3.3 測試實現9.4總結第3部分 Spark ops第10章運行Spark10.1 Spark的運行時架構概述10.1.1 Spark運行組件10.1.2 Spark集群類型10.2作業與資源調度10.2.1 集群資源調度10.2.2 Spark作業調度10.2.3 數據局部性考慮10.2.4 Spark內存調度10.3配置Spark10.3.1 Spark配置文件10.3.2 命令行參數10.3.3 繫統環境變量10.3.4 譯編程方式設置配置10.3.5 master參數10.3.6 查看所有配置的參數10.4 Spark Web UI （網絡用戶界面）10.4.1 Jobs（作業）頁面10.4.2 Stages（階段）頁面10.4.3 Storage（存儲）頁面10.4.4 Environment（環境）頁面10.4.5 Executors（執行器）頁面10.5在本地機器運行Spark10.5.1 本地模式10.5.2 本地集群模式10.6總結第11章在Spark獨立集群上運行11.1 Spark Standalone集群組件11.1.1 啟動Stanalone集群11.1.2 用shell腳本啟動群集11.1.3 手動啟動集群11.1.4 查看Spark進程11.1.5 Standalone master高可用性和恢復11.3 Standalone集群網絡用戶界面11.4 在3Standalone集群中運行應用程序11.4.1 驅動器的位置11.4.2 指定執行器的數量11.4.3 指定額外的類路徑和文件11.4.4 終止應用程序11.4.5 應用程序自動重啟11.5 Spark歷史記錄服務器和事件日志記錄11.6 在 EC2上運行11.6.1 先決條件11.6.2 創建一個E2C獨立集群11.6.3 使用E2C集群11.6.4 銷毀集群11.7 總結第12章在YARN and Mesos運行12.1 在YARN上運行Spark12.1.1 YARN架構12.1.2 安裝配置啟動YARN12.1.3 YARN中的資源調度12.1.4 向YARN提交Spark應用程序12.1.5 在YARN上配置Spark12.1.6 為Spark工作配置資源12.1.7 YARN UI12.1.8 在YARN上尋找日志12.1.9 安全注意事項12.1.10 動態資源分配12.2在Mesos上運行Spark12.2.1 Mesos架構12.2.2 安裝配置Mesos12.2.3 Mesos Web UI12.2.4 Mesos資源調度12.2.5 向Mesos提交Spark應用程序12.2.6 使用 Docker運行Spark12.3總結第4部分協同使用第13章實例學習：實時儀表盤13.1了解用例13.1.1 概況13.1.2 了解應用程序組件13.2 運行應用程序13.2.1 在spark-in-action VM中運行應用程序13.2.2 手動啟動應用程序13.3 理解源代碼13.3.1 KafkaLogsSimulator項目13.3.2 Streaming Log Analyzer項目13.3.3 Web統計信息顯示板項目13.3.4 建設項目13.4總結第14章 H20深入學習Spark14.1什麼是深入學習14.2 在Spark中使用H2O和14.2.1 什麼是H2O14.4.2 在Spark中啟動Sparkling Water14.4.3 啟動H2O集群14.4.4 訪問Flow UI14.3 使用H2O的深度學習進行回歸14.4.3 將數據加載到H2O框架中14.4.4 使用Flow UI構建和評估深度學習模型14.4.5 使用Sparkling Water API構建和評估深度學習模型14.4使用H2O的深度學習進行分類14.4.1 加載和拆分數據14.4.2 通過Flow UI 建造模型14.4.3 通過Sparkling Water API建造模型14.4.4 停止H2O集群14.5總結附錄A 安裝Apache Spark附錄B 了解MapReduce附錄C 線性代數基礎

本書介紹了Spark應用程序及更高級應用的工作流程，主要從使用角度進行了描述，每個具體內容都有對應的代碼。本書涵蓋了Apache Spark和它豐富的API，構成Spark的組件（包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX），在Spark standalone、 Hadoop YARN以及 Mesos clusters上運行Spark應用程序的部署和安裝。通過對應的實例全面、詳細地介紹了整個Spark實戰開發的流程。*後，還介紹了Spark的高級應用，包括Spark流應用程序及可擴展和快速的機器學習框架H2O。本書可以作為高等院校計算機、軟件工程、數據科學與大數據技術等專業的大數據課程材料，可用於指導Spark編程實踐，也可供相關技術人員參考使用。

回顧過去一年半，筆者不禁想到：筆者在這個地球上是如何生存的，這是筆者生命中最繁忙的18個月！自從Manning出版社讓筆者和Marko寫一本關於Spark的書，筆者花了大部分空閑時間在Apache Spark上。筆者這段時間過得很充實，學到了很多，並且覺得這是值得的。如今，Spark是一個超熱門的話題。它於2009年由Matei Zaharia在加利福尼亞州的伯克利設想的（最初是試圖證明Mesos執行平臺的可行性）。在2010年開源。在2013年Spark被捐贈給了Apache軟件基金，從那以後它以閃電般的速度發展。2015年，Spark是最活躍的Apache項目之一，有超過1000個貢獻者（投稿人、捐助人）。今天，Spark是所有主要Hadoop發行版的一部分，並被許多組織使用，廣泛應用於或大或小的程序中。寫一本關於Spark的書的挑戰在於它發展很快。自從筆者們開始寫Spark in A等

商品搜索

商品分类

【醫學】

【各大出版社】