●章 強化學習概述
1.1 強化學習的背景
1.2 強化學習初探
1.2.1 智能體和環境
1.2.2 智能體主要組成
1.2.3 強化學習、監督學習、非監督學習
1.2.4 強化學習分類
1.2.5 研究方法
1.2.6 發展歷程
1.3 強化學習的重點概念
1.3.1 學習與規劃
1.3.2 探索與利用
1.3.3 預測與控制
1.4 小結
1.5 習題
第2章 馬爾可夫決策過程
2.1 馬爾可夫基本概念
2.1.1 馬爾可夫性
2.1.2 馬爾可夫過程
2.1.3 馬爾可夫決策過程
2.2 貝爾曼方程
2.2.1 貝爾曼期望方程
2.2.2 貝爾曼最優方程
2.3 最優策略
2.3.1 最優策略定義
2.3.2 求解最優策略
2.4 小結
2.5 習題
第3章 動態規劃
3.1 動態規劃簡介
3.2 策略評估
3.3 策略改進
3.4 策略迭代
3.5 值迭代
3.6 實例講解
3.6.1 “找寶藏”環境描述
3.6.2 策略迭代
3.6.3 值迭代
3.6.4 實例小結
3.7 小結
3.8 習題
第4章 蒙特卡羅
4.1 蒙特卡羅簡介
4.2 蒙特卡羅評估
4.3 蒙特卡羅控制
4.4 在線策略蒙特卡羅
4.5 離線策略蒙特卡羅
4.5.1 重要性采樣離線策略蒙特卡羅
4.5.2 加權重要性采樣離線策略蒙特卡羅
4.6 實例講解
4.6.1 “十點半”遊戲
4.6.2 在線策略蒙特卡羅
4.6.3 離線策略蒙特卡羅
4.6.4 實例小結
4.7 小結
4.8 習題
第5章 時序差分
5.1 時序差分簡介
5.2 三種方法的性質對比
5.3 Sarsa:在線策略TD
5.4 Q-learning:離線策略TD方法
……
第6章 資格跡
第7章 值函數逼近
第8章 隨機策略梯度
第9章 Actor-Critic及變種
0章 確定性策略梯度
1章 學習與規劃
2章 探索與利用
3章 博弈強化學習
參考文獻
內容簡介
本書內容繫統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯繫實際。書中全面繫統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關繫,為讀者構建了一個完整的強化學習知識體繫;同時包含豐富的經典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應的詳細案例說明和代碼描述,讓讀者深度理解各類強化學習算法的精髓。書中案例生動形像,描述深入淺出,代碼簡潔易懂,注釋詳細。本書可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對強化學習感興趣的研究人員和工程技術人員閱讀參考。