了得網圖書_基於雲計算的數據科學

作者:(美)瓦利阿帕·拉克什曼南(Valliappa Lakshmanan) 著馬睿譯

定價:98

出版社:中國電力出版社

出版日期:2020年01月01日

頁數:409

裝幀:平裝

ISBN:9787519840136

●前言1
第1章用數據做出更好的決策9
許多相似的決策11
數據工程師的角色12
雲計算讓數據工程師成為可能14
雲計算使數據科學能力得到倍增18
用案例研究揭示難解的真相20
基於概率的決策21
數據和工具27
代碼入門28
本章總結30
第2章將數據攝取到雲端31
航空公司準點數據31
可知性33
訓練–服務偏差34
下載程序35
數據集屬性36
為什麼不就地存儲數據？38
向上擴展40
水平擴展42
使用Colossus和Jupiter讓數據存放在原位44
攝取數據47
對Web表單進行反向工程48
下載數據集51
數據探索和清理53
將數據上傳到Google雲端存儲55
每月下載計劃58
使用Python攝取數據61
FlaskWebApp68
在AppEngine上運行69
確保URL的安全70
計劃Cron任務70
本章總結73
代碼實驗74
第3章創建引人注目的儀表板76
使用數據儀表板對模型進行解釋77
為什麼要先構建數據儀表板？79
準確、忠實於數據且良好的設計80
將數據加載到GoogleCloudSQL83
創建GoogleCloudSQL實例83
與Google雲計算平臺交互84
控制對MySQL的訪問86
創建表87
向表中填充數據89
建立第一個模型90
應急表91
閾值優化92
機器學習93
構建數據儀表板94
DataStudio入門94
創建圖表96
為最終用戶添加控件98
用餅圖顯示所占比例100
解釋應急表105
本章總結107
第4章流數據：發布和攝取109
設計事件饋送109
時間校正112
ApacheBeam/CloudDataflow113
解析機場數據115
添加時區信息116
將時間轉換為UTC117
修正日期120
創建事件121
在雲中運行數據管道122
將事件流發布到CloudPub/Sub126
獲取要發布的數據記錄129
對數據記錄進行分頁130
構建事件集合130
發布事件集合131
實時流式處理132
JavaDataflow中的流式數據133
執行流數據處理138
使用BigQuery分析流式數據140
實時數據儀表板141
本章總結144
第5章交互式數據探索145
探索性數據分析146
將航班數據加載到BigQuery中148
無服務器列式數據庫的優點148
訪問控制151
聯合查詢156
攝取CSV文件158
CloudDatalab中的探索性數據分析164
Jupyter筆記本165
CloudDatalab166
在CloudDatalab中安裝軟件包169
適用於Google雲計算平臺的Jupyter魔術命令170
質量控制176
反常的數值176
清除異常數據：大數據是不同的178
不同出發延誤條件下的抵達延誤182
概率決策閾值的應用184
經驗概率分布函數185
答案187
評估模型188
隨機亂序分組188
按日期分割189
訓練和測試191
本章總結196
第6章CloudDataproc上的貝葉斯分類器197
MapReduce和Hadoop生態繫統197
MapReduce的工作原理198
ApacheHadoop200
GoogleCloudDataproc200
需要更高級的工具202
關注任務，而不是集群204
初始化操作205
使用SparkSQL進行量化206
CloudDataproc上的GoogleCloudDatalab208
使用BigQuery進行獨立檢查209
GoogleCloudDatalab中的SparkSQL211
直方圖均衡化215
動態調整群集大小219
使用Pig實現貝葉斯分類222
在CloudDataproc上運行Pig任務224
將日期在訓練數據集中225
決策標準226
對貝葉斯模型進行評估229
本章總結231
第7章機器學習：Spark上的邏輯回歸233
邏輯回歸234
Spark機器學習庫237
開始使用Spark機器學習238
Spark邏輯回歸239
創建訓練數據集241
處理邊界情況243
創建訓練示例245
訓練246
使用模型進行預測249
對模型進行評估250
特征工程253
實驗框架254
創建保留數據集257
特性點的選擇258
特征點的縮放和剪切261
特征轉換263
變量分類267
可擴展、可重復和實時性269
本章總結270
第8章時間窗化的聚合特征272
平均時間的需求272
Java中的Dataflow274
建立開發環境275
使用Beam過濾數據276
數據管道的控制選項和文本I/O280
在雲端運行281
解析為對像283
計算平均時間286
分組及合並286
並行執行和側面輸入289
調試291
BigQueryIO292
對航班對像進行轉換294
批處理模式下的滑動窗口計算295
在雲端運行297
監控、故障排除和性能調整299
數據管道的故障排除301
側面輸入的302
重新設計數據管道305
刪除重復項307
本章總結310
第9章使用TensorFlow的機器學習分類器312
使用更復雜的模型313
將數據讀入TensorFlow317
建立實驗322
線性分類器323
訓練和評估的輸入函數325
服務輸入函數326
創建實驗326
執行訓練327
雲中的分布式訓練329
對ML模型進行改進331
深度神經網絡模型332
嵌入335
寬深模型337
超參數調整341
部署模型349
使用模型預測350
對該模型的解釋351
本章總結353
第10章實時機器學習355
調用預測服務356
用於服務請求和響應的Java類357
發送請求並解析響應359
預測服務的客戶端360
將預測結果添加到航班信息361
批量輸入和輸出361
數據處理管道363
識別無效的服務響應364
批量處理服務請求365
流式數據管道367
扁平化PCollections368
執行流式數據管道369
延遲的和無序的數據記錄371
水印和觸發器376
事務，吞吐量和延遲378
幾種可選的流式接收器379
CloudBigtable380
設計表382
設計行鍵383
流式傳輸至CloudBigtable384
查詢CloudBigtable中的數據386
評估模型的性能387
持續訓練的必要性388
評估管道389
性能評估391
邊際分布391
檢查模型的行為393
識別行為變化396
本章總結398
全書總結398
附錄有關機器學習數據集中敏感數據的注意事項401

在本書中，你將學到：
使用AppEngine應用實現自動化定期數據攝取。
在GoogleDataStudio中創建並生成數據儀表板。
構建實時數據分析管道，實現流式數據分析。
使用GoogleBigQuery實現可交互式數據探索。
在CloudDataproc群集上創建貝葉斯模型。
使用Spark構建邏輯回歸機器學習模型。
使用CloudDataflow數據管道計算時間聚合特征。
使用TensorFlow構建高性能預測模型。
將你的模型部署為微服務，並且從批處理和實時數據管道中使用它。

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】