![](/c49/31/67476638844.jpg)
出版社:中國電力出版社 ISBN:9787519840136 商品編碼:67476638844 品牌:文軒 出版時間:2020-01-01 代碼:98 作者:瓦利阿帕·拉克什曼南(ValliappaLa
"![](https://img30.360buyimg.com/popWareDetail/jfs/t1/111434/23/32018/273377/635211e7E64ef158d/d9267f2bac424bc4.png)
![](http://img14.360buyimg.com/cms/jfs/t1/203358/9/26405/134589/62f4a34cEcdefae53/84e082ed3b03dbc0.jpg) 作 者:(美)瓦利阿帕·拉克什曼南(Valliappa Lakshmanan) 著 馬睿 譯 定 價:98 出 版 社:中國電力出版社 出版日期:2020年01月01日 頁 數:409 裝 幀:平裝 ISBN:9787519840136 ●前言1 第1章用數據做出更好的決策9 許多相似的決策11 數據工程師的角色12 雲計算讓數據工程師成為可能14 雲計算使數據科學能力得到倍增18 用案例研究揭示難解的真相20 基於概率的決策21 數據和工具27 代碼入門28 本章總結30 第2章將數據攝取到雲端31 航空公司準點數據31 可知性33 訓練–服務偏差34 下載程序35 數據集屬性36 為什麼不就地存儲數據?38 向上擴展40 水平擴展42 使用Colossus和Jupiter讓數據存放在原位44 攝取數據47 對Web表單進行反向工程48 下載數據集51 數據探索和清理53 將數據上傳到Google雲端存儲55 每月下載計劃58 使用Python攝取數據61 FlaskWebApp68 在AppEngine上運行69 確保URL的安全70 計劃Cron任務70 本章總結73 代碼實驗74 第3章創建引人注目的儀表板76 使用數據儀表板對模型進行解釋77 為什麼要先構建數據儀表板?79 準確、忠實於數據且良好的設計80 將數據加載到GoogleCloudSQL83 創建GoogleCloudSQL實例83 與Google雲計算平臺交互84 控制對MySQL的訪問86 創建表87 向表中填充數據89 建立第一個模型90 應急表91 閾值優化92 機器學習93 構建數據儀表板94 DataStudio入門94 創建圖表96 為最終用戶添加控件98 用餅圖顯示所占比例100 解釋應急表105 本章總結107 第4章流數據:發布和攝取109 設計事件饋送109 時間校正112 ApacheBeam/CloudDataflow113 解析機場數據115 添加時區信息116 將時間轉換為UTC117 修正日期120 創建事件121 在雲中運行數據管道122 將事件流發布到CloudPub/Sub126 獲取要發布的數據記錄129 對數據記錄進行分頁130 構建事件集合130 發布事件集合131 實時流式處理132 JavaDataflow中的流式數據133 執行流數據處理138 使用BigQuery分析流式數據140 實時數據儀表板141 本章總結144 第5章交互式數據探索145 探索性數據分析146 將航班數據加載到BigQuery中148 無服務器列式數據庫的優點148 訪問控制151 聯合查詢156 攝取CSV文件158 CloudDatalab中的探索性數據分析164 Jupyter筆記本165 CloudDatalab166 在CloudDatalab中安裝軟件包169 適用於Google雲計算平臺的Jupyter魔術命令170 質量控制176 反常的數值176 清除異常數據:大數據是不同的178 不同出發延誤條件下的抵達延誤182 概率決策閾值的應用184 經驗概率分布函數185 答案187 評估模型188 隨機亂序分組188 按日期分割189 訓練和測試191 本章總結196 第6章CloudDataproc上的貝葉斯分類器197 MapReduce和Hadoop生態繫統197 MapReduce的工作原理198 ApacheHadoop200 GoogleCloudDataproc200 需要更高級的工具202 關注任務,而不是集群204 初始化操作205 使用SparkSQL進行量化206 CloudDataproc上的GoogleCloudDatalab208 使用BigQuery進行獨立檢查209 GoogleCloudDatalab中的SparkSQL211 直方圖均衡化215 動態調整群集大小219 使用Pig實現貝葉斯分類222 在CloudDataproc上運行Pig任務224 將日期在訓練數據集中225 決策標準226 對貝葉斯模型進行評估229 本章總結231 第7章機器學習:Spark上的邏輯回歸233 邏輯回歸234 Spark機器學習庫237 開始使用Spark機器學習238 Spark邏輯回歸239 創建訓練數據集241 處理邊界情況243 創建訓練示例245 訓練246 使用模型進行預測249 對模型進行評估250 特征工程253 實驗框架254 創建保留數據集257 特性點的選擇258 特征點的縮放和剪切261 特征轉換263 變量分類267 可擴展、可重復和實時性269 本章總結270 第8章時間窗化的聚合特征272 平均時間的需求272 Java中的Dataflow274 建立開發環境275 使用Beam過濾數據276 數據管道的控制選項和文本I/O280 在雲端運行281 解析為對像283 計算平均時間286 分組及合並286 並行執行和側面輸入289 調試291 BigQueryIO292 對航班對像進行轉換294 批處理模式下的滑動窗口計算295 在雲端運行297 監控、故障排除和性能調整299 數據管道的故障排除301 側面輸入的302 重新設計數據管道305 刪除重復項307 本章總結310 第9章使用TensorFlow的機器學習分類器312 使用更復雜的模型313 將數據讀入TensorFlow317 建立實驗322 線性分類器323 訓練和評估的輸入函數325 服務輸入函數326 創建實驗326 執行訓練327 雲中的分布式訓練329 對ML模型進行改進331 深度神經網絡模型332 嵌入335 寬深模型337 超參數調整341 部署模型349 使用模型預測350 對該模型的解釋351 本章總結353 第10章實時機器學習355 調用預測服務356 用於服務請求和響應的Java類357 發送請求並解析響應359 預測服務的客戶端360 將預測結果添加到航班信息361 批量輸入和輸出361 數據處理管道363 識別無效的服務響應364 批量處理服務請求365 流式數據管道367 扁平化PCollections368 執行流式數據管道369 延遲的和無序的數據記錄371 水印和觸發器376 事務,吞吐量和延遲378 幾種可選的流式接收器379 CloudBigtable380 設計表382 設計行鍵383 流式傳輸至CloudBigtable384 查詢CloudBigtable中的數據386 評估模型的性能387 持續訓練的必要性388 評估管道389 性能評估391 邊際分布391 檢查模型的行為393 識別行為變化396 本章總結398 全書總結398 附錄有關機器學習數據集中敏感數據的注意事項401 在本書中,你將學到: 使用AppEngine應用實現自動化定期數據攝取。 在GoogleDataStudio中創建並生成數據儀表板。 構建實時數據分析管道,實現流式數據分析。 使用GoogleBigQuery實現可交互式數據探索。 在CloudDataproc群集上創建貝葉斯模型。 使用Spark構建邏輯回歸機器學習模型。 使用CloudDataflow數據管道計算時間聚合特征。 使用TensorFlow構建高性能預測模型。 將你的模型部署為微服務,並且從批處理和實時數據管道中使用它。 ![](https://img10.360buyimg.com/imgzone/jfs/t1/147514/7/5440/73116/5f34a3beE3ba58783/f5b2391383f5625c.jpg)
" |