●譯者序
前言
第1章 強化學習概述1
1.1 機器學習的分類(監督學習、非監督學習、強化學習)1
1.2 強化學習、深度強化學習的歷史6
1.3 深度強化學習的應用實例11
參考文獻14
第2章 在走迷宮任務中實現強化學習16
2.1 Try Jupyter的使用方法16
2.2 迷宮和智能體的實現23
2.3 策略迭代法的實現31
2.4 價值迭代法的術語整理41
2.5 Sarsa的實現46
2.6 實現Q學習52
參考文獻57
第3章 在倒立擺任務中實現強化學習59
3.1 在本地PC上準備強化學習的實現和執行環境59
3.2 倒立擺任務“CartPole”64
3.3 由多變量連續值表示的狀態的表格表示69
3.4 Q學習的實現72
參考文獻80
第4章 使用PyTorch實現深度學習81
4.1 神經網絡和深度學習的歷史81
4.2 深度學習的計算方法89
4.3 使用PyTorch實現MNIST手寫數字分類任務94
參考文獻107
第5章 深度強化學習DQN的實現108
5.1 深度強化學習DQN(深度Q網絡)的說明108
5.2 實現DQN的四個要點111
5.3 實現DQN(上) 113
5.4 實現DQN(下) 123
參考文獻127
第6章 實現深度強化學習的改進版128
6.1 深度強化學習算法發展圖128
6.2 DDQN的實現132
6.3 Dueling Network的實現141
6.4 優先經驗回放的實現145
6.5 A2C的實現157
參考文獻168
第7章 在AWS GPU環境中實現消磚塊遊戲169
7.1 消磚塊遊戲“Breakout”的描述169
7.2 準備在AWS上使用GPU所需要的深度學習執行環境174
7.3 學習Breakout的四個關鍵思想187
7.4 A2C的實現(上) 193
7.5 A2C的實現(下) 203
參考文獻212
後記214