Python強化學習實戰 應用OpenAI Gym和Tens
作 者: (印)蘇達桑·拉維尚迪蘭(Sudharsan Ravichandiran) 著 連曉峰 等 譯
定 價: 69
出?版?社: 機械工業出版社
出版日期: 2019年01月01日
頁 數: 203
裝 幀: 平裝
ISBN: 9787111612889
●譯者序
原書前言
章 強化學習簡介//1
1.1 什麼是強化學習//1
1.2 強化學習算法//2
1.3 強化學習與其他機器學習範式的不同//3
1.4 強化學習的要素//3
1.4.1 智能體//3
1.4.2 策略函數//3
1.4.3 值函數//4
1.4.4 模型//4
1.5 智能體環境接口//4
1.6 強化學習的環境類型//5
1.6.1 確定性環境//5
1.6.2 隨機性環境//5
1.6.3 完全可觀測環境//5
1.6.4 部分可觀測環境//5
1.6.5 離散環境//5
1.6.6 連續環境//5
1.6.7 情景和非情景環境//5
1.6.8 單智能體和多智能體環境//6
1.7 強化學習平臺//6
1.7.1 OpenAI Gym和Universe//6
1.7.2 DeepMind Lab//6
1.7.3 RL-Glue//6
1.7.4 Project Malmo//6
1.7.5 VizDoom//6
1.8 強化學習的應用//7
1.8.1 教育//7
1.8.2 醫療和健康//7
1.8.3 制造業//7
1.8.4 庫存管理//7
1.8.5 金融//7
1.8.6 自然語言處理和計算機視覺//7
1.9 小結//8
1.10 問題//8
1.11 擴展閱讀//8
第2章 從OpenAI和TensorFlow入門//9
2.1 計算機設置//9
2.1.1 安裝Anaconda//9
2.1.2 安裝Docker//10
2.1.3 安裝OpenAI Gym和Universe//11
2.2 OpenAI Gym//13
2.2.1 基本模擬//13
2.2.2 訓練機器人行走//14
2.3 OpenAI Universe//16
2.3.1 構建一個視頻遊戲機器人//16
2.4 TensorFlow//20
2.4.1 變量、常量和占位符//20
2.4.2 計算圖//21
2.4.3 會話//21
2.4.4 TensorBoard//22
2.5 小結//25
2.6 問題//25
2.7 擴展閱讀//25
第3章 馬爾可夫決策過程和動態規劃//26
3.1 馬爾可夫鏈和馬爾可夫過程//26
3.2 MDP//27
3.2.1 獎勵和回報//28
3.2.2 情景和連續任務//28
3.2.3 因數//28
3.2.4 策略函數//29
3.2.5 狀態值函數//29
3.2.6 狀態—行為值函數(Q函數)//30
3.3 Bellman方程和最優性//30
3.3.1 推導值函數和Q函數的Bellman方程//31
3.4 求解Bellman方程//32
3.4.1 動態規劃//32
3.5 求解冰凍湖問題//38
3.5.1 值迭代//39
3.5.2 策略迭代//43
3.6 小結//45
3.7 問題//45
3.8 擴展閱讀//46
第4章 基於蒙特卡羅方法的博弈遊戲//47
4.1 蒙特卡羅方法//47
4.1.1 利用蒙特卡羅方法估計π值//47
4.2 蒙特卡羅預測//50
4.2.1 首次訪問蒙特卡羅//51
4.2.2 每次訪問蒙特卡羅//52
4.2.3 利用蒙特卡羅方法玩二十一點遊戲//52
4.3 蒙特卡羅控制//58
4.3.1 蒙特卡羅探索開始//58
4.3.2 在線策略的蒙特卡羅控制//59
4.3.3 離線策略的蒙特卡羅控制//61
4.4 小結//62
4.5 問題//62
4.6 擴展閱讀//63
第5章 時間差分學習//64
5.1 時間差分學習//64
5.2 時間差分預測//64
5.3 時間差分控制//66
5.3.1 Q學習//66
5.3.2 SARSA//72
5.4 Q學習和SARSA之間的區別//77
5.5 小結//77
5.6 問題//78
5.7 擴展閱讀//78
第6章 MAB問題//79
6.1 MAB問題//79
6.1.1 ε貪婪策略//80
6.1.2 Softmax探索算法//82
6.1.3 UCB算法//83
6.1.4 Thompson采樣算法//85
6.2 MAB的應用//86
6.3 利用MAB識別正確的廣告標識//87
6.4 上下文賭博機//89
6.5 小結//89
6.6 問題//89
6.7 擴展閱讀//89
第7章 深度學習基礎//90
7.1 人//90
7.2 ANN//91
7.2.1 輸入層//92
7.2.2 隱層//92
7.2.3 輸出層//92
7.2.4 激活函數//92
7.3 深入分析ANN//93
7.3.1 梯度下降//95
7.4 TensorFlow中的神經網絡//99
7.5 RNN//101
7.5.1 基於時間的反向傳播//103
7.6 LSTM RNN//104
7.6.1 利用LSTM RNN生成歌詞//105
7.7 CNN//108
7.7.1 卷積層//109
7.7.2 池化層//111
7.7.3 全連接層//112
7.7.4 CNN架構//112
7.8 利用CNN對時尚產品進行分類//113
7.9 小結//117
7.10 問題//117
7.11 擴展閱讀//118
第8章 基於DQN的Atari遊戲//119
8.1 什麼是DQN//119
8.2 DQN的架構//120
8.2.1 卷積網絡//120
8.2.2 經驗回放//121
8.2.3 目標網絡//121
8.2.4 獎勵裁剪//122
8.2.5 算法理解//122
8.3 構建一個智能體來玩Atari遊戲//122
8.4 雙DQN//129
8.5 優先經驗回放//130
8.6 對抗網絡體繫結構//130
8.7 小結//131
8.8 問題//132
8.9 擴展閱讀//132
第9章 基於DRQN玩Doom遊戲//133
9.1 DRQN//133
9.1.1 DRQN架構//134
9.2 訓練一個玩Doom遊戲的智能體//135
9.2.1 基本的Doom遊戲//135
9.2.2 基於DRQN的Doom遊戲//136
9.3 DARQN//145
9.3.1 DARQN架構//145
9.4 小結//145
9.5 問題//146
9.6 擴展閱讀//146
0章 A3C網絡//147
10.1 A3C//147
10.1.1 異步優勢行為者//147
10.1.2 A3C架構//148
10.1.3 A3C的工作原理//149
10.2 基於A3C爬山//149
10.2.1 TensorBoard中的可視化//155
10.3 小結//158
10.4 問題//158
10.5 擴展閱讀//158
1章 策略梯度和優化//159
11.1 策略梯度//159
11.1.1 基於策略梯度的月球著陸器//160
11.2 DDPG//164
11.2.1 倒立擺//165
11.3 TRPO//170
11.4 PPO//173
11.5 小結//175
11.6 問題//175
11.7 擴展閱讀//175
2章 Capstone項目—基於DQN的賽車遊戲//176
12.1 環境封裝函數//176
12.2 對抗網絡//179
12.3 回放記憶//180
12.4 訓練網絡//181
12.5 賽車遊戲//186
12.6 小結//189
12.7 問題//189
12.8 擴展閱讀//189
3章 最新進展和未來發展//190
13.1 I2A//190
13.2 基於人類偏好的學習//193
13.3 DQfd//194
13.4 HER//195
13.5 HRL//196
13.5.1 MAXQ值函數分解//196
13.6 逆向強化學習//198
13.7 小結//199
13.8 問題//199
13.9 擴展閱讀//199
附錄 知識點//200
內容簡介
強化學習是一種重要的機器學習方法,在智能體及分析預測等領域有許多應用。本書共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關繫,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法;時間差分學習、預測、離線/在線策略控制等;多臂賭博機問題以及相關的各種探索策略方法;深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡;深度強化學習算法DQN,以及雙DQN和對抗網絡體繫結構等改進架構;DRQN以及DARQN;A3C網絡的基本工作原理及架構;策略梯度和優化問題;很後介紹了強化學習的很新進展以及未來發展。
(印)蘇達桑·拉維尚迪蘭(Sudharsan Ravichandiran) 著 連曉峰 等 譯
蘇達桑·拉維尚迪蘭(Sudharsan Ravichandiran),是一位數據科學家、研究員、人工智能愛好者以及YouTuber,獲得了Anna大學信息技術學生學位。他的研究領域包括深度學習和強化學習的實現,其中包括自然語言處理和計算機視覺。他曾是一名自由職業的網頁開發人員和設計師,所設計開發的網站屢獲殊榮,同時也熱衷於開源,擅長解答堆棧溢出問題。
"