作 者:(美)勞拉·格雷澤,(美)龔輝倫 著 許靜 等 譯
定 價:119
出 版 社:機械工業出版社
出版日期:2021年09月01日
頁 數:308
裝 幀:平裝
ISBN:9787111689331
闡述深度強化機器學習理論和優化算法。圍繞深度強化學習的體繫特征進行深入淺出地講解探討,特點鮮明。本書采用端到端的方式引入深度強化學習,即從感性認識開始,而後解釋理論和算法,*後提供代碼實現和實用性技巧。
●贊譽
譯者序
序言
前言
致謝
第1章強化學習簡介1
1.1強化學習1
1.2強化學習中的MDP4
1.3強化學習中的學習函數7
1.4深度強化學習算法9
1.4.1基於策略的算法9
1.4.2基於值的算法10
1.4.3基於模型的算法10
1.4.4組合方法11
1.4.5本書中的算法12
1.4.6同策略和異策略算法12
1.4.7小結12
1.5強化學習中的深度學習13
1.6強化學習與監督學習14
1.6.1缺乏先知14
1.6.2反饋稀疏性15
1.6.3數據生成15
1.7總結16
第一部分基於策略的算法和基於值的算法
第2章REINFORCE18
2.1策略18
2.2目標函數19
2.3策略梯度19
2.3.1策略梯度推導20
2.4蒙特卡羅采樣22
2.5REINFORCE算法23
2.5.1改進的REINFORCE算法23
2.6實現REINFORCE24
2.6.1一種最小化REINFORCE的實現24
2.6.2用PyTorch構建策略26
2.6.3采樣動作28
2.6.4計算策略損失29
2.6.5REINFORCE訓練循環30
2.6.6同策略內存回放31
2.7訓練REINFORCE智能體33
2.8實驗結果36
2.8.1實驗:評估因子γ的影響36
2.8.2實驗:評估基準線的影響37
2.9總結39
2.10擴展閱讀39
2.11歷史回顧39
第3章SARSA40
3.1Q函數和V函數40
3.2時序差分學習42
3.2.1時間差分學習示例44
3.3SARSA中的動作選擇48
3.3.1探索和利用49
3.4SARSA算法50
3.4.1同策略算法51
3.5實現SARSA52
3.5.1動作函數:ε-貪婪52
3.5.2計算Q損失52
3.5.3SARSA訓練循環54
3.5.4同策略批處理內存回放55
3.6訓練SARSA智能體56
3.7實驗結果58
3.7.1實驗:評估學習率的影響58
3.8總結60
3.9擴展閱讀60
3.10歷史回顧60
第4章深度Q網絡62
4.1學習DQN中的Q函數62
4.2DQN中的動作選擇64
4.2.1Boltzmann策略65
4.3經驗回放67
4.4DQN算法68
4.5實現DQN69
4.5.1計算Q損失70
4.5.2DQN訓練循環70
4.5.3內存回放71
4.6訓練DQN智能體74
4.7實驗結果77
4.7.1實驗:評估網絡架構的影響77
4.8總結78
4.9擴展閱讀79
4.10歷史回顧79
第5章改進的深度Q網絡80
5.1目標網絡80
5.2雙重DQN算法82
5.3優先級經驗回放85
5.3.1重要性抽樣86
5.4實現改進的DQN88
5.4.1網絡初始化88
5.4.2計算Q損失89
5.4.3更新目標網絡90
5.4.4包含目標網絡的DQN91
5.4.5雙重DQN91
5.4.6優先級經驗回放91
5.5訓練DQN智能體玩Atari遊戲96
5.6實驗結果101
5.6.1實驗:評估雙重DQN與PER的影響101
5.7總結104
5.8擴展閱讀104
第二部分組合方法
第6章優勢演員-評論家算法106
6.1演員106
6.2評論家107
6.2.1優勢函數107
6.2.2學習優勢函數110
6.3A2C算法111
6.4實現A2C113
6.4.1優勢估計113
6.4.2計算值損失和策略損失115
6.4.3演員-評論家訓練循環116
6.5網絡架構117
6.6訓練A2C智能體118
6.6.1在Pong上使用n步回報的A2C算法118
6.6.2在Pong上使用GAE的A2C算法121
6.6.3在BipedalWalker上使用n步回報的A2C算法122
6.7實驗結果124
6.7.1實驗:評估n步回報的影響124
6.7.2實驗:評估GAE中λ的影響126
6.8總結127
6.9擴展閱讀128
6.10歷史回顧128
第7章近端策略優化算法130
7.1替代目標函數130
7.1.1性能突然下降130
7.1.2修改目標函數132
7.2近端策略優化136
7.3PPO算法139
7.4實現PPO141
7.4.1計算PPO的策略損失141
7.4.2PPO訓練循環142
7.5訓練PPO智能體143
7.5.1在Pong上使用PPO算法143
7.5.2在BipedalWalker上使用PPO算法146
7.6實驗結果149
7.6.1實驗:評估GAE中λ的影響149
7.6.2實驗:評估裁剪變量ε的影響150
7.7總結152
7.8擴展閱讀152
第8章並行方法153
8.1同步並行153
8.2異步並行154
8.2.1Hogwild!算法155
8.3訓練A3C智能體157
8.4總結160
8.5擴展閱讀160
第9章算法總結161
第三部分實踐細節
第10章深度強化學習工程實踐164
10.1軟件工程實踐164
10.1測試164
10.1.2代碼質量169
10.1.3Git工作流170
10.2調試技巧171
10.2.1生命跡像172
10.2.2策略梯度診斷172
10.2.3數據診斷173
10.2.4預處理器174
10.2.5內存174
10.2.6算法函數174
10.2.7神經網絡175
10.2.8算法簡化177
10.2.9問題簡化177
10.2.10超參數178
10.2.11實驗室工作流178
10.3Atari技巧179
10.4深度強化學習小結181
10.4.1超參數表181
10.4.2算法性能比較184
10.5總結186
第11章SLM Lab187
11.1SLM Lab算法實現187
11.2spec文件188
11.2.1搜索spec語法190
11.3運行SLM Lab192
11.3.1SLM Lab指令193
11.4分析實驗結果193
11.4.1實驗數據概述193
11.5總結195
第12章神經網絡架構196
12.1神經網絡的類型196
12.1.1多層感知機196
12.1.2卷積神經網絡198
12.1.3循環神經網絡199
12.2選擇網絡族的指導方法199
12.2.1MDP與POMDP200
12.2.2根據環境選擇網絡202
12.3網絡API204
12.3.1輸入層和輸出層形狀推斷205
12.3.2自動構建網絡207
12.3.3訓練步驟209
12.3.4基礎方法的使用210
12.4總結211
12.5擴展閱讀212
第13章硬件213
13.1計算機213
13.2數據類型217
13.3在強化學習中優化數據類型219
13.4選擇硬件222
13.5總結223
第四部分環境設計
第14章狀態226
14.1狀態示例226
14.2狀態完整性231
14.3狀態復雜性231
14.4狀態信息損失235
14.4.1圖像灰度235
14.4.2離散化235
14.4.3散列衝突236
14.信息損失236
14.5預處理238
14.5.1標準化239
14.5.2圖像預處理240
14.5.3時間預處理241
14.6總結244
第15章動作245
15.1動作示例245
15.2動作完整性247
15.3動作復雜性248
15.4總結251
15.5擴展閱讀:日常事務中的動作設計252
第16章獎勵255
16.1獎勵的作用255
16.2獎勵設計準則256
16.3總結259
第17章轉換函數260
17.1可行性檢測260
17.2真實性檢測262
17.3總結263後記264
附錄A深度強化學習時間線267
附錄B示例環境269
參考文獻274
本書圍繞深度強化學習進行講解,結構合理有序,內容重點突出,理論結合實踐,全面討論了深度強化學習的研究成果及實踐工具。本書分為四部分,共17章,涉及的主要內容包括:REINFORCE、SARSA、深度Q網絡、改進的深度Q網絡、優勢演員-評論家算法、近端策略優化算法、並行方法、深度強化學習工程實踐、SLMLab、神經網絡架構、硬件、狀態、動作、獎勵、轉換函數等。
本書可以作為高等院校人工智能、計算機、大數據等相關專業的本科或研究生教材,也可以作為人工智能相關領域的硏究人員和技術人員的參考書籍。