了得網圖書_強化學習

作者:柯良軍,王小強著

定價:69

出版社:清華大學出版社

出版日期:2019年12月01日

頁數:177

裝幀:平裝

ISBN:9787302532408

●第1章緒論
1.1 引言
1.2 解決復雜問題的樸素思想
1.2.1 數學建模與優化
1.2.2 采樣和估計
1.2.3 逼近
1.2.4 迭代
1.3 強化學習簡史
1.4 本書主要內容及結構
1.5 小結
1.6 習題
參考文獻
第2章基礎知識
2.1 運籌學簡明基礎
2.1.1 無約束非線性規劃優化方法
2.1.2 KKT條件
2.1.3 凸規劃的性質
2.2 概率與統計簡明基礎
2.2.1 概率論基本概念
2.2.2 概率論的收斂定理
2.2.3 統計學的基本概念
2.2.4 優選似然估計法
2.2.5 估計量的優良性評估
2.2.6 采樣與隨機模擬
2.2.7 Monte Carlo方法簡介
2.2.8 重要采樣法
2.3 小結
2.4 習題
參考文獻
第一篇基於模型的強化學習
第3章多搖臂問題
3.1 動作值方法
3.2 非平穩多搖臂問題
3.3 UCB動作選擇
3.4 梯度搖臂算法
3.5 習題
參考文獻
第4章 Markov決策過程
4.1 定義和記號
4.2 有限Markov決策過程
4.3 Bellman方程
4.4 很優策略
4.5 小結
4.6 習題
參考文獻
第5章動態規劃
5.1 策略評估
5.2 策略改進
5.3 策略迭代
5.4 值迭代
5.5 異步動態規劃
5.6 收斂性證明
5.7 小結
5.8 習題
參考文獻
第二篇基於采樣-估計的強化學習
第6章策略評估
6.1 基於Monte Carlo方法的策略評估
6.1.1 同策略Monte Carlo策略評估
6.1.2 異策略Monte Carlo策略評估
6.2 基於時序差分方法的策略評估
6.3 n步預測
6.4 小結
6.5 習題
參考文獻
第7章策略控制
7.1 同策略Monte Carlo控制
7.2 同策略時序差分學習
7.3 異策略學習
7.4 基於TD（λ）的策略控制
7.5 實例
7.5.1 問題介紹
7.5.2 MDP模型的要素
7.5.3 策略評估
7.5.4 策略控制
7.6 小結
7.7 習題
參考文獻
第8章學習與規劃的整合
8.1 模型和規劃
8.2 Dyna：整合規劃、動作和學習
8.3 幾個概念
8.4 在決策關頭的規劃
8.4.1 啟發式算法
8.4.2 rollout算法
8.4.3 Monte Carlo樹搜索
8.5 小結
8.6 習題
參考文獻
第三篇基於逼近理論的強化學習
第9章值函數逼近
9.1 基於隨機梯度下降法的值函數逼近
9.2 基於隨機梯度下降法的Q-值函數逼近
9.3 批處理
9.3.1 線性最小二乘值函數逼近
9.3.2 線性最小二乘Q-值函數逼近
9.4 小結
9.5 習題
參考文獻
第10章策略逼近
10.1 策略梯度法
10.1.1 很優參數問題的目標函數
10.1.2 策略梯度
10.1.3 梯度計算
10.1.4 REINFORCE算法
10.2 方差減少方法
10.2.1 利用一個評論
10.2.2 利用基準線
10.3 小結
10.4 習題
參考文獻
第11章信賴域策略優化
11.1 預備知識
11.2 單調改進一般性隨機策略的方法
11.3 參數化策略的優化
11.4 基於采樣的目標和約束估計
11.5 實用算法
11.6 小結
11.7 習題
參考文獻
第四篇深度強化學習
第12章深度學習
12.1 神經網絡基礎
12.1.1 神經網絡解決問題的基本流程
12.1.2 激活函數
12.1.3 損失函數
12.1.4 優化算法
12.2 典型深度神經網絡結構
12.2.1 深度的作用
12.2.2 卷積神經網絡
12.2.3 循環神經網絡
參考文獻
第13章深度Q-網絡
13.1 DQN原理
13.1.1 預處理
13.1.2 網絡結構
13.1.3 算法
13.1.4 深度Q-網絡的訓練算法
13.1.5 算法詳細說明
13.2 DQN實例
13.2.1 Atari 2600遊戲介紹
13.2.2 DQN算法的實現
13.3 小結
13.4 習題
參考文獻
第14章深度確定性策略梯度
14.1 DDPG算法介紹
14.1.1 DDPG算法的發展介紹
14.1.2 DDPG算法的原理解析
14.2 DDPG算法的實現
14.2.1 oco的安裝及使用
14.2.2 DDPG算法的實現解析
14.2.3 DDPG算法的訓練和測試
參考文獻
第15章多智能體強化學習
15.1 多智能體強化學習介紹
15.1.1 多智能體強化學習的發展簡述
15.1.2 隨機博弈
15.1.3 納什Q-學習
15.2 平均場多智能體強化學習原理
15.2.1 平均場近似理論
15.2.2 平均場多智能體強化學習算法
15.3 平均場多智能體實驗
15.3.1 MAgent平臺
15.3.2 混合合作-競爭的戰鬥遊戲介紹
15.3.3 MF-Q和MF-AC算法的實現解析
15.3.4 戰鬥遊戲的訓練與測試
參考文獻

本書介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於采樣-估計的強化學習、基於逼近理論的強化學習及深度強化學習等。本書以教學為目標進行選材，力求闡述嚴謹、重點突出、深入淺出，以便於教學與自學。本書面向所有對強化學習感興趣的讀者，可作為高等學校理工科高年級本科生、研究生強化學習課程教材或參考書。

商品搜索

商品分类

【醫學】

【各大出版社】