了得網圖書_官網正版深度強化學習實踐原書第2版馬克西姆拉潘人工智能

	[ 收藏 ] [ 简体中文 ]
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款，4-7個工作日送達，999元臺幣免運費　　　在線留言商品價格為新臺幣

商品搜索

类别：

关键字：

商品分类

新类目

　管理
　投资理财
　经济
　社会科学

點擊放大圖片

官網正版深度強化學習實踐原書第2版馬克西姆拉潘人工智能
該商品所屬分類：圖書 -> 機械工業出版社
【市場價】	1148-1664元
【優惠價】	718-1040元
【作者】	拉潘
【出版社】	機械工業出版社
【ISBN】	9787111687382
【折扣說明】	一次購物滿999元台幣免運費+贈品一次購物滿2000元台幣95折+免運費+贈品一次購物滿3000元台幣92折+免運費+贈品一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】	①優質無紡布環保袋，做工棒！②品牌簽字筆 ③品牌手帕紙巾

版本	正版全新電子版PDF檔
您已选择：	正版全新
溫馨提示：如果有多種選項，請先選擇再點擊加入購物車。 . 電子圖書價格是0.69折，例如了得網價格是100元，電子書pdf的價格則是69元。 . 購買電子書不支持貨到付款，購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意，可以聯絡我們退款。謝謝。

內容介紹

店鋪：機械工業出版社官方旗艦店

出版社：機械工業出版社

ISBN：9787111687382

商品編碼：10036083517828

品牌：機械工業出版社（CMP）

頁數：636

字數：522000

審圖號：9787111687382

作者：拉潘

"

內容簡介

本書理論與實踐相結合，繫統闡述強化學習的基礎知識，以及如何動手編寫智能體以執行一繫列實際任務。通過閱讀本書，讀者將獲得深層Q網絡、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等主題領域的可行洞見，還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人，並通過一步步代碼優化在短短30分鐘的訓練後解決Pong環境。此外，本書還專門介紹了強化學習的新發展，包括離散優化（解決魔方問題）、多智能體方法、Microsoft的TextWorld環境、*級探索技術等。

譯者序
前言
作者簡介
審校者簡介
*1章什麼是強化學習1
1.1 機器學習分類2
1.1.1 監督學習2
1.1.2 非監督學習2
1.1.3 強化學習2
1.2 強化學習的復雜性4
1.3 強化學習的形式4
1.3.1 獎勵5
1.3.2 智能體6
1.3.3 環境6
1.3.4 動作7
1.3.5 觀察7
1.4 強化學習的理論基礎9
1.4.1 馬爾可夫決策過程9
1.4.2 策略17
1.5 總結18
*2章 OpenAI Gym19
2.1 剖析智能體19
2.2 硬件和軟件要求21
2.3 OpenAI Gym API23
2.3.1 動作空間23
2.3.2 觀察空間23
2.3.3 環境25
2.3.4 創建環境26
2.3.5 車擺繫統28
2.4 隨機CartPole智能體30
2.5 Gym的額外功能：包裝器和監控器30
2.5.1 包裝器31
2.5.2 監控器33
2.6 總結35
第3章使用PyTorch進行深度學習36
3.1 張量36
3.1.1 創建張量37
3.1.2 零維張量39
3.1.3 張量操作39
3.1.4 GPU張量40
3.2 梯度41
3.3 NN構建塊44
3.4 自定義層45
3.5 *終黏合劑：損失函數和優化器47
3.5.1 損失函數48
3.5.2 優化器48
3.6 使用TensorBoard進行監控50
3.6.1 TensorBoard 10150
3.6.2 繪圖52
3.7 示例：將GAN應用於Atari圖像53
3.8 PyTorch Ignite57
3.9 總結61
第4章交叉熵方法62
4.1 RL方法的分類62
4.2 交叉熵方法的實踐63
4.3 交叉熵方法在CartPole中的應用65
4.4 交叉熵方法在FrozenLake中的應用72
4.5 交叉熵方法的理論背景78
4.6 總結79
第5章表格學習和Bellman方程80
5.1 價值、狀態和*優性80
5.2 *佳Bellman方程82
5.3 動作的價值84
5.4 價值迭代法86
5.5 價值迭代實踐87
5.6 Q-learning在FrozenLake中的應用92
5.7 總結94
第6章深度Q-network95
6.1 現實的價值迭代95
6.2 表格Q-learning96
6.3 深度Q-learning100
6.3.1 與環境交互102
6.3.2 SGD優化102
6.3.3 步驟之間的相關性103
6.3.4 馬爾可夫性質103
6.3.5 DQN訓練的*終形式103
6.4 DQN應用於Pong遊戲104
6.4.1 包裝器105
6.4.2 DQN模型109
6.4.3 訓練110
6.4.4 運行和性能118
6.4.5 模型實戰120
6.5 可以嘗試的事情122
6.6 總結123
第7章 *級強化學習庫124
7.1 為什麼使用強化學習庫124
7.2 PTAN庫125
7.2.1 動作選擇器126
7.2.2 智能體127
7.2.3 經驗源131
7.2.4 經驗回放緩衝區136
7.2.5 TargetNet類137
7.2.6 Ignite幫助類139
7.3 PTAN版本的CartPole解決方案139
7.4 其他強化學習庫141
7.5 總結141
第8章 DQN擴展142
8.1 基礎DQN143
8.1.1 通用庫143
8.1.2 實現147
8.1.3 結果148
8.2 N步DQN150
8.2.1 實現152
8.2.2 結果152
8.3 Double DQN153
8.3.1 實現154
8.3.2 結果155
8.4 噪聲網絡156
8.4.1 實現157
8.4.2 結果159
8.5 帶優先級的回放緩衝區160
8.5.1 實現161
8.5.2 結果164
8.6 Dueling DQN165
8.6.1 實現166
8.6.2 結果167
8.7 Categorical DQN168
8.7.1 實現171
8.7.2 結果175
8.8 組合所有方法178
8.9 總結180
8.10 參考文獻180
第9章加速強化學習訓練的方法182
9.1 為什麼速度很重要182
9.2 基線184
9.3 PyTorch中的計算圖186
9.4 多個環境188
9.5 在不同進程中分別交互和訓練190
9.6 調整包裝器194
9.7 基準測試總結198
9.8 硬核CuLE199
9.9 總結199
9.10 參考文獻199
*10章使用強化學習進行股票交易200
10.1 交易200
10.2 數據201
10.3 問題陳述和關鍵決策202
10.4 交易環境203
10.5 模型210
10.6 訓練代碼211
10.7 結果211
10.7.1 前饋模型212
10.7.2 卷積模型217
10.8 可以嘗試的事情218
10.9 總結219
*11章策略梯度：一種替代方法220
11.1 價值與策略220
11.1.1 為什麼需要策略221
11.1.2 策略表示221
11.1.3 策略梯度222
11.2 REINFORCE方法222
11.2.1 CartPole示例223
11.2.2 結果227
11.2.3 基於策略的方法與基於價值的方法228
11.3 REINFORCE的問題229
11.3.1 需要完整片段229
11.3.2 高梯度方差229
11.3.3 探索230
11.3.4 樣本相關性230
11.4 用於CartPole的策略梯度方法230
11.4.1 實現231
11.4.2 結果233
11.5 用於Pong的策略梯度方法237
11.5.1 實現238
11.5.2 結果239
11.6 總結240
*12章 actor-critic方法241
12.1 減小方差241
12.2 CartPole的方差243
12.3 actor-critic246
12.4 在Pong中使用A2C247
12.5 在Pong中使用A2C的結果252
12.6 超參調優255
12.6.1 學習率255
12.6.2 熵的beta值256
12.6.3 環境數256
12.6.4 批大小257
12.7 總結257
*13章 A3C258
13.1 相關性和采樣效率258
13.2 向A2C添加另一個A259
13.3 Python中的多重處理功能261
13.4 數據並行化的A3C262
13.4.1 實現262
13.4.2 結果267
13.5 梯度並行化的A3C269
13.5.1 實現269
13.5.2 結果273
13.6 總結274
*14章使用強化學習訓練聊天機器人275
14.1 聊天機器人概述275
14.2 訓練聊天機器人276
14.3 深度NLP基礎277
14.3.1 RNN277
14.3.2 詞嵌入278
14.3.3 編碼器–解碼器架構279
14.4 seq2seq訓練280
14.4.1 對數似然訓練280
14.4.2 雙語替換評測分數282
14.4.3 seq2seq中的強化學習282
14.4.4 自評序列訓練283
14.5 聊天機器人示例284
14.5.1 示例的結構285
14.5.2 模塊：cornell.py和data.py285
14.5.3 BLEU分數和utils.py286
14.5.4 模型287
14.6 數據集探索292
14.7 訓練：交叉熵294
14.7.1 實現294
14.7.2 結果298
14.8 訓練：SCST300
14.8.1 實現300
14.8.2 結果306
14.9 經過數據測試的模型309
14.10 Telegram機器人311
14.11 總結314
*15章 TextWorld環境315
15.1 文字冒險遊戲315
15.2 環境318
15.2.1 安裝318
15.2.2 遊戲生成318
15.2.3 觀察和動作空間320
15.2.4 額外的遊戲信息322
15.3 基線DQN325
15.3.1 觀察預處理326
15.3.2 embedding和編碼器331
15.3.3 DQN模型和智能體333
15.3.4 訓練代碼335
15.3.5 訓練結果335
15.4 命令生成模型340
15.4.1 實現341
15.4.2 預訓練結果345
15.4.3 DQN訓練代碼346
15.4.4 DQN訓練結果347
15.5 總結349
*16章 Web導航350
16.1 Web導航簡介350
16.1.1 瀏覽器自動化和RL351
16.1.2 MiniWoB基準352
16.2 OpenAI Universe353
16.2.1 安裝354
16.2.2 動作與觀察354
16.2.3 創建環境355
16.2.4 MiniWoB的穩定性357
16.3 簡單的單擊方法357
16.3.1 網格動作358
16.3.2 示例概覽359
16.3.3 模型359
16.3.4 訓練代碼360
16.3.5 啟動容器364
16.3.6 訓練過程366
16.3.7 檢查學到的策略368
16.3.8 簡單單擊的問題369
16.4 人類演示371
16.4.1 錄制人類演示371
16.4.2 錄制的格式373
16.4.3 使用演示進行訓練375
16.4.4 結果376
16.4.5 井字遊戲問題380
16.5 添加文字描述383
16.5.1 實現383
16.5.2 結果387
16.6 可以嘗試的事情390
16.7 總結391
*17章連續動作空間392
17.1 為什麼會有連續的空間392
17.1.1 動作空間393
17.1.2 環境393
17.2 A2C方法395
17.2.1 實現396
17.2.2 結果399
17.2.3 使用模型並錄制視頻401
17.3 確定性策略梯度401
17.3.1 探索402
17.3.2 實現403
17.3.3 結果407
17.3.4 視頻錄制409
17.4 分布的策略梯度409
17.4.1 架構410
17.4.2 實現410
17.4.3 結果414
17.4.4 視頻錄制415
17.5 可以嘗試的事情415
17.6 總結416
*18章機器人技術中的強化學習417
18.1 機器人與機器人學417
18.1.1 機器人的復雜性419
18.1.2 硬件概述420
18.1.3 平臺421
18.1.4 傳感器422
18.1.5 執行器423
18.1.6 框架424
18.2 *一個訓練目標427
18.3 模擬器和模型428
18.3.1 模型定義文件429
18.3.2 機器人類432
18.4 DDPG訓練和結果437
18.5 控制硬件440
18.5.1 MicroPython440
18.5.2 處理傳感器443
18.5.3 驅動伺服器454
18.5.4 將模型轉移到硬件上458
18.5.5 組合一切464
18.6 策略實驗466
18.7 總結467
*19章置信域：PPO、TRPO、ACKTR及SAC468
19.1 Roboschool469
19.2 A2C基線469
19.2.1 實現469
19.2.2 結果471
19.2.3 視頻錄制475
19.3 PPO475
19.3.1 實現476
19.3.2 結果479
19.4 TRPO480
19.4.1 實現481
19.4.2 結果482
19.5 ACKTR484
19.5.1 實現484
19.5.2 結果484
19.6 SAC485
19.6.1 實現486
19.6.2 結果488
19.7 總結490
*20章強化學習中的黑盒優化491
20.1 黑盒方法491
20.2 進化策略492
20.2.1 將ES用在CartPole上493
20.2.2 將ES用在HalfCheetah上498
20.3 遺傳算法503
20.3.1 將GA用在CartPole上504
20.3.2 GA優化506
20.3.3 將GA用在HalfCheetah上507
20.4 總結510
20.5 參考文獻511
*21章 *級探索512
21.1 為什麼探索很重要512
21.2 ε-greedy怎麼了513
21.3 其他探索方式516
21.3.1 噪聲網絡516
21.3.2 基於計數的方法516
21.3.3 基於預測的方法517
21.4 MountainCar實驗517
21.4.1 使用ε-greedy的DQN方法519
21.4.2 使用噪聲網絡的DQN方法520
21.4.3 使用狀態計數的DQN方法522
21.4.4 近端策略優化方法525
21.4.5 使用噪聲網絡的PPO方法527
21.4.6 使用基於計數的探索的PPO方法529
21.4.7 使用網絡蒸餾的PPO方法531
21.5 Atari實驗533
21.5.1 使用ε -greedy的DQN方法534
21.5.2 經典的PPO方法535
21.5.3 使用網絡蒸餾的PPO方法536
21.5.4 使用噪聲網絡的PPO方法537
21.6 總結538
21.7 參考文獻539
*22章超越無模型方法：想像力540
22.1 基於模型的方法540
22.1.1 基於模型與無模型540
22.1.2 基於模型的缺陷541
22.2 想像力增強型智能體542
22.2.1 EM543
22.2.2 展開策略544
22.2.3 展開編碼器544
22.2.4 論文的結果544
22.3 將I2A用在Atari Breakout上545
22.3.1 基線A2C智能體545
22.3.2 EM訓練546
22.3.3 想像力智能體548
22.4 實驗結果553
22.4.1 基線智能體553
22.4.2 訓練EM的權重555
22.4.3 訓練I2A模型557
22.5 總結559
22.6 參考文獻559
*23章 AlphaGo Zero560
23.1 棋盤遊戲560
23.2 AlphaGo Zero方法561
23.2.1 總覽561
23.2.2 MCTS562
23.2.3 自我對抗564
23.2.4 訓練與評估564
23.3 四子連橫棋機器人564
23.3.1 遊戲模型565
23.3.2 實現MCTS567
23.3.3 模型571
23.3.4 訓練573
23.3.5 測試與比較573
23.4 四子連橫棋的結果574
23.5 總結576
23.6 參考文獻576
*24章離散優化中的強化學習577
24.1 強化學習的名聲577
24.2 魔方和組合優化578
24.3 *佳性與上帝的數字579
24.4 魔方求解的方法579
24.4.1 數據表示580
24.4.2 動作580
24.4.3 狀態581
24.5 訓練過程584
24.5.1 NN架構584

網友評論我們期待著您對此商品發表評論

相關商品

在線留言 商品價格為新臺幣

關於我們送貨時間安全付款會員登入加入會員我的帳戶網站聯盟

返回頂部

商品搜索

商品分类

【醫學】

【各大出版社】

【医学】

【各大出版社】