了得網圖書_深入淺出強化學習編程實戰

作者:郭憲,宋俊瀟,方勇純著

定價:89

出版社:電子工業出版社

出版日期:2020年03月01日

頁數:264

裝幀:平裝

ISBN:9787121367465

"本書是《深入淺出強化學習：原理入門》的姐妹篇。1 實戰性強：以編程實戰為主線，旨在幫助讀者通過實戰更清晰地理解算法並快速應用。2 繫統全面：在馬爾可夫理論框架下，介紹了基本的算法，涵蓋了基於值函數的算法，直接策略搜索方法，基於模型的強化學習方法等。3 前沿技術分析：剖析了AlphaZero強大技術背後的深度強化學習原理，並介紹了它在五子棋上的具體實現。4 操作性強：讀者可根據書中的代碼直接上手，並通過修改程序中的超參數，親自體會算法原理。"

●第0篇先導篇1
1一個極其簡單的強化學習實例2
1.1多臂2
1.1.1??greedy策略3
1.1.2玻爾茲曼策略.6
1.1.3UCB策略7
1.2多臂代碼實現7
2馬爾可夫決策過程13
2.1從多臂到馬爾可夫決策過程13
2.2馬爾可夫決策過程代碼實現23
篇基於值函數的方法31
3基於動態規劃的方法32
3.1策略迭代與值迭代.32
3.1.1策略迭代算法原理33
3.1.2值迭代算法原理35
3.2策略迭代和值迭代的代碼實現36
3.2.1鴛鴦環境的修改36
3.2.2策略迭代算法代碼實現37
3.2.3值迭代算法代碼實現.41
4基於蒙特卡洛的方法45
4.1蒙特卡洛算法原理46
4.2蒙特卡洛算法的代碼實現49
4.2.1環境類的修改和蒙特卡洛算法類的聲明49
4.2.2探索初始化蒙特卡洛算法實現52
4.2.3同策略蒙特卡洛算法實現.56
5基於時間差分的方法62
5.1從動態規劃到時間差分強化學習62
5.2時間差分算法代碼實現66
5.2.1時間差分算法類的聲明66
5.2.2SARSA算法.67
5.2.3Q-Learning算法70
6基於函數逼近的方法74
6.1從表格型強化學習到線性函數逼近強化學習74
6.1.1表格特征表示74
6.1.2固定稀疏表示75
6.1.3參數的訓練76
6.2基於線性函數逼近的Q-Learning算法實現76
6.3非線性函數逼近DQN算法代碼實現85
第2篇直接策略搜索的方法95
7策略梯度方法96
7.1算法基本原理及代碼架構96
7.1.1策略的表示問題97
7.1.2隨機策略梯度的推導98
7.1.3累積回報99
7.1.4代碼架構101
7.2離散動作：CartPole實例解析及編程實戰103
7.2.1CartPole簡介103
7.2.2問題分析及MDP模型.104
7.2.3采樣類的Python源碼實現105
7.2.4策略網絡模型分析106
7.2.5策略網絡類的Python源碼實現108
7.2.6策略網絡的訓練與測試110
7.2.7用策略梯度法求解Cartpole的主函數112
7.2.8CartPole仿真環境開發113
7.3連續動作Pendulum實例解析及編程實戰117
7.3.1Pendulum簡介118
7.3.2采樣類的Python源代碼實現118
7.3.3策略網絡模型分析.120
7.3.4策略網絡類的Python源碼實現121
7.3.5策略網絡的訓練與測試125
7.3.6用策略梯度法求解Pendulum的主函數126
7.3.7Pendulum仿真環境開發127
8Actor-Critic方法131
8.1Actor-Critic原理及代碼架構131
8.1.1Actor-Critic基本原理131
8.1.2Actor-Critic算法架構.133
8.2TD-AC算法133
8.2.1采樣類的Python源碼134
8.2.2策略網絡的Python源碼135
8.2.3策略訓練和測試138
8.2.4主函數及訓練效果140
8.3Minibatch-MC-AC算法141
8.3.1Minibatch-MC-AC算法框架141
8.3.2采樣類的Python源碼142
8.3.3策略網絡的Python源碼144
8.3.4策略的訓練和測試147
8.3.5主函數及訓練效果149
9PPO方法151
9.1PPO算法基本原理及代碼結構151
9.2Python源碼解析154
9.2.1采樣類154
9.2.2策略網絡156
9.2.3策略的訓練和測試159
9.2.4主函數及訓練效果160
10DDPG方法163
10.1DDPG基本163
10.2Python源碼解析167
10.2.1經驗緩存器類167
10.2.2策略網絡169
10.2.3訓練和測試173
10.2.4主函數及訓練效果175
第3篇基於模型的強化學習方法177
11基於模型預測控制的強化學習算法178
11.1基於模型的強化學習算法的基本原理178
11.1.1神經網絡擬合動力學模型179
11.1.2模型預測控制179
11.1.3基於模型的強化學習算法偽代碼180
11.2Python源碼實現及解析181
11.2.1數據收集類181
11.2.2數據采樣類181
11.2.3動力學網絡類182
11.2.4模型預測控制器類185
11.2.5模型訓練和預測函數186
11.2.6主函數188
12AlphaZero原理淺析190
12.1從AlphaGo到AlphaZero191
12.2蒙特卡洛樹搜索算法196
12.2.1博弈樹和極小極大搜索196
12.2.2再論多臂老虎機問題198
12.2.3UCT算法200
12.3基於自我對弈的強化學習206
12.3.1基於MCTS的自我對弈206
12.3.2策略價值網絡的訓練210
13AlphaZero實戰：從零學下五子棋214
13.1構建簡易的五子棋環境215
13.2建立整體算法流程223
13.3實現蒙特卡洛樹搜索229
13.4實現策略價值網絡235
13.5訓練實驗與效果評估240
附錄APyTorch入門246
A.1PyTorch基礎知識246
A.1.1Tensor246
A.1.2基礎操作247
A.1.3Tensor和NumPyarray間的轉化249
A.1.4Autograd：自動梯度249
A.2PyTorch中的神經網絡250
A.2.1如何定義神經網絡251
A.2.2如何訓練神經網絡254
A.2.3在CIFAR-10數據集上進行訓練和測試256
A.2.4模型的保存和加載259
參考文獻261
後記263

《深入淺出強化學習：編程實戰》是《深入淺出強化學習：原理入門》的姊妹篇，寫作的初衷是通過編程實例幫助那些想要學習強化學習算法的讀者更深入、更清楚地理解算法。
本書首先介紹馬爾可夫決策過程的理論框架，然後介紹基於動態規劃的策略迭代算法和值迭代算法，在此基礎上分3篇介紹了目前強化學習算法中基本的算法。篇講解基於值函數的強化學習算法，介紹了基於兩種策略評估方法（蒙特卡洛策略評估和時間差分策略評估）的強化學習算法，以及如何將函數逼近的方法引入強化學習算法中。第2篇講解直接策略搜索方法，介紹了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇講解基於模型的強化學習方法，介紹了基於MPC的方法、AlphaZero算法基本原理及在五子棋上的具體實現細節。建議讀者根據書中的代碼親自動手編程，並修改程序中的超參數，根據運行結果不斷體會算法原理。

郭憲,宋俊瀟,方勇純著

郭憲，南開大學人工智能學院講師。2009年畢業於華中科技大學機械設計制造及自動化專業，同年保送到院瀋陽自動化研究所進行碩博連讀，2016年1月獲得工學博士學位，並到南開大學從事博士後研究工作，2018年7月任教於南開大學至今。目前主要研究方向和興趣是仿生機器人智能運動控制、強化學習和機器人博弈。__eol____eol__宋俊瀟，香港科技大學博士，目前就世界，擔任研究科學家，專注於決策智能相關算法的研究與開發。博士期間在GUO際期刊和會議發表論文9篇。2015年，獲得天池大數據黃金聯賽個人年度名（參賽隊伍總計15154支）。曾就職於網易遊戲，擔任數據挖掘研究員，負責個性化推薦算法及基於等

商品搜索

商品分类

【醫學】

【各大出版社】