了得網計算機/網絡_深度強化學習理論與實踐

產品特色

編輯推薦

本書繫統介紹深度強化學習的理論和算法，並配有大量的案例。全書核心內容可以分為3部分，部分為經典強化學習，主要內容有動態規劃法，蒙特卡洛法、時序差分法；第二部分為深度強化學習，主要內容有值函數近似法、策略梯度法、策略梯度法進階；第三部分重點介紹了深度強化學習的經典應用——AlphaGo繫列算法。
★ 大多數每個算法配有一個或多個測試案例，便於讀者理解理論和算法；
★ 每個案例都配有編程實現的代碼，便於讀者理論聯繫實際，並親自上手實踐；
★ 為減輕讀者編寫代碼的難度，本書所有案例的代碼都是可以獨立運行的，並且盡量減少了對依賴包的使用。

內容簡介

本書比較全面、繫統地介紹了深度強化學習的理論和算法，並配有大量的案例和編程實現。全書核心內容可以分為3部分，部分為經典強化學習，包括第2、3、4章，主要內容有動態規劃法，蒙特卡洛法、時序差分法；第二部分為深度強化學習，包括第6、7、8章，主要內容有值函數近似法、策略梯度法、策略梯度法進階；第三部分重點介紹了深度強化學習的經典應用——AlphaGo繫列算法。另外，作為理論和算法的輔助，第1章介紹了強化學習的模型，第5章簡單介紹了深度學習和PyTorch編程框架。本書可以作為理工科大學相關專業研究生的學位課教材，也可以作為人工智能、機器學習相關專業高年級本科生的選修課教材，還可以作為相關領域學術研究人員、教師和工程技術人員的參考資料。

作者簡介

龍強，博士、副教授、碩士研究生導師；就職於西南科技大學數理學院數據科學繫，中國運籌學會終生會員；主要從事化理論與算法、機器學習算法研究；在國際國內學術期刊上發表論文20餘篇，獲批國家發明專利3項，主持和參與國家自然科學基金3項，參與國家社會科學基金1項；講授“深度強化學習”“深度學習與神經網絡”“算法設計與分析”“化理論與算法”“機器學習”等課程。
章勝，博士、副研究員、碩士研究生導師；就職於中國空氣動力研究與發展中心，中國空氣動力學學會會員；主要從事飛行器軌跡優化、非線性控制與智能控制研究。在國際及國內學術期刊上發表論文20篇，獲批國家發明專利5項，主持和參與國家自然科學基金、國家重點基礎研究發展計劃等項目15項。

第1章強化學習的模型（156min）
1.1強化學習簡介
1.1.1初識強化學習
1.1.2強化學習的歷史
1.1.3強化學習與機器學習的關繫
1.2強化學習的模型
1.2.1強化學習基本模型和要素
1.2.2強化學習的執行過程
1.2.3強化學習的數學模型——馬爾可夫決策過程
1.2.4環境模型案例
1.3Gym介紹
1.3.1Gym簡介
1.3.2Gym安裝
1.3.3Gym的環境描述和案例

第1章強化學習的模型（156min）

1.1強化學習簡介

1.1.1初識強化學習

1.1.2強化學習的歷史

1.1.3強化學習與機器學習的關繫

1.2強化學習的模型

1.2.1強化學習基本模型和要素

1.2.2強化學習的執行過程

1.2.3強化學習的數學模型——馬爾可夫決策過程

1.2.4環境模型案例

1.3Gym介紹

1.3.1Gym簡介

1.3.2Gym安裝

1.3.3Gym的環境描述和案例

1.3.4在Gym中添加自編環境

1.3.5直接使用自編環境

第2章動態規劃法（231min）

2.1動態規劃法簡介

2.2值函數和貝爾曼方程

2.2.1累積獎勵

2.2.2值函數

2.2.3貝爾曼方程

2.3策略評估

2.4策略改進

2.5值函數和策略

2.6策略迭代和值迭代

2.7動態規劃法求解強化學習案例

第3章蒙特卡羅法（211min）

3.1蒙特卡羅法簡介

3.2蒙特卡羅策略評估

3.2.1蒙特卡羅策略評估

3.2.2增量式蒙特卡羅策略評估

3.2.3蒙特卡羅策略評估案例

3.2.4蒙特卡羅和動態規劃策略評估的對比

3.3蒙特卡羅強化學習

3.3.1蒙特卡羅策略改進

3.3.2起始探索蒙特卡羅強化學習

3.3.3ε貪婪策略蒙特卡羅強化學習

3.3.4蒙特卡羅強化學習案例

3.4異策略蒙特卡羅強化學習

3.4.1重要性采樣

3.4.2異策略蒙特卡羅策略評估

3.4.3增量式異策略蒙特卡羅策略評估

3.4.4異策略蒙特卡羅強化學習

3.4.5異策略蒙特卡羅強化學習案例

3.5蒙特卡羅樹搜索

3.5.1MCTS的基本思想

3.5.2MCTS的算法流程

3.5.3基於MCTS的強化學習算法

3.5.4案例和代碼

第4章時序差分法（174min）

4.1時序差分策略評估

4.1.1時序差分策略評估原理

4.1.2時序差分策略評估算法

4.1.3時序差分策略評估案例

4.1.4時序差分策略評估的優勢

4.2同策略時序差分強化學習

4.2.1Sarsa算法

4.2.2Sarsa算法案例

4.3異策略時序差分強化學習

4.3.1Qlearning算法

4.3.2期望Sarsa算法

4.3.3Double Qlearning算法

4.3.4Qlearning算法案例

4.4n步時序差分強化學習

4.4.1n步時序差分策略評估

4.4.2nstep Sarsa算法

4.5TD(λ)算法

4.5.1前向TD(λ)算法

4.5.2後向TD(λ)算法

4.5.3Sarsa(λ)算法

第5章深度學習與PyTorch（275min）

5.1從感知機到神經網絡

5.1.1感知機模型

5.1.2感知機和布爾運算

5.2深度神經網絡

5.2.1網絡拓撲

5.2.2前向傳播

5.2.3訓練模型

5.2.4誤差反向傳播

5.3激活函數、損失函數和數據預處理

5.3.1激活函數

5.3.2損失函數

5.3.3數據預處理

5.4PyTorch深度學習軟件包

5.4.1數據類型及類型的轉換

5.4.2張量的維度和重組操作

5.4.3組裝神經網絡的模塊

5.4.4自動梯度計算

5.4.5訓練數據自由讀取

5.4.6模型的搭建、訓練和測試

5.4.7模型的保存和重載

5.5深度學習案例

5.5.1函數近似

5.5.2數字圖片識別

第6章值函數近似算法（195min）

6.1線性值函數近似算法

6.1.1線性值函數近似時序差分算法

6.1.2特征函數

6.1.3線性值函數近似算法案例

6.2神經網絡值函數近似法

6.2.1DQN算法原理

6.2.2DQN算法

6.2.3DQN算法案例

6.3Double DQN(DDQN)算法

6.4Prioritized Replay DQN算法

6.4.1樣本優先級

6.4.2隨機優先級采樣

6.4.3樣本重要性權重參數

6.4.4Prioritized Replay DQN算法流程

6.4.5Prioritized Replay DQN算法案例

6.5Dueling DQN算法

6.5.1Dueling DQN算法原理

6.5.2Dueling DQN算法案例

第7章策略梯度算法（176min）

7.1策略梯度算法的基本原理

7.1.1初識策略梯度算法

7.1.2策略函數

7.1.3策略目標函數

7.1.4策略梯度算法的框架

7.1.5策略梯度算法的評價

7.2策略梯度定理

7.2.1離散型策略梯度定理

7.2.2連續型策略梯度定理

7.2.3近似策略梯度和評價函數

7.3蒙特卡羅策略梯度算法(REINFORCE)

7.3.1REINFORCE的基本原理

7.3.2REINFORCE的算法流程

7.3.3REINFORCE隨機梯度的嚴格推導

7.3.4帶基線函數的REINFORCE

7.3.5REINFORCE實際案例及代碼實現

7.4演員評論家策略梯度算法

7.4.1算法原理

7.4.2算法流程

7.4.3算法代碼及案例

第8章策略梯度法進階（135min）

8.1異步優勢演員：評論家算法

8.1.1異步強化學習

8.1.2A3C算法

8.1.3A2C算法

8.1.4案例和程序

8.2深度確定性策略梯度算法

8.2.1DDPG的基本思想

8.2.2DDPG的算法原理

8.2.3DDPG的算法結構和流程

8.2.4案例和程序

8.3近端策略優化算法

8.3.1PPO的算法原理

8.3.2PPO的算法結構和流程

8.3.3案例和程序

8.4柔性演員評論家算法

8.4.1熵原理

8.4.2柔性Q學習

8.4.3SAC算法原理

8.4.4SAC算法結構和流程

8.4.5案例和程序

第9章深度強化學習案例： AlphaGo繫列算法

9.1AlphaGo算法介紹

9.1.1AlphaGo中的深度神經網絡

9.1.2AlphaGo中深度神經網絡的訓練

9.1.3AlphaGo的MCTS

9.1.4總結

9.2AlphaGo Zero算法介紹

9.2.1AlphaGo Zero的策略價值網絡

9.2.2AlphaGo Zero的MCTS

9.2.3AlphaGo Zero的算法流程

9.3AlphaZero算法介紹

9.3.1從圍棋到其他棋類需要解決的問題

9.3.2AlphaZero相對於AlphaGo Zero的改進與調整

9.3.3AlphaZero的算法流程

9.4MuZero算法介紹

9.4.1MuZero中的深度神經網絡

9.4.2MuZero中的MCTS

9.4.3MuZero的算法流程

9.5AlphaGo繫列算法的應用與啟示

參考文獻

前言

機器學習是人工智能的基礎和研究熱點，按照不同的學習範式分類，機器學習可以分為監督學習、非監督學習和強化學習三大板塊。其中，強化學習是一種模擬生物智能體學習決策過程的機器學習方法，其主要思想是智能體通過與環境的不斷交互獲得經驗，並從經驗中逐漸學習與環境交互的策略。近年來，隨著人工智能的發展，強化學習在自動控制、決策等領域獲得了廣泛應用。特別是在將深度學習和強化學習結合之後，深度強化學習已經成為當今機器學習研究的熱點之一。

強化學習並不是一個全新的機器學習領域，它之前也被稱為再勵學習、評價學習和增強學習，是一種交互式學習方法。其前身可以追溯到動態規劃法，但經典強化學習方法因其理論和算法的局限，隻能處理極少數簡單的機器學習問題，因此並不被人所熟知。直到2016年基於深度強化學習的圍棋程序AlphaGo的橫空出世，並創歷史地擊敗了人類大師級選手，深度強化學習纔大張旗鼓地進入了公眾視野。現在，深度強化學習已經不僅是科研工作者的研究課題，而且是實實在在地在生產實踐中使用的技術手段。例如，韓國圍棋院使用基於深度強化學習的圍棋程序來訓練人類棋手，使人類棋手的棋藝取得了巨大進步；谷歌公司的DeepMind團隊已經著手研究用深度強化學習技術來控制“托克馬克”裝置，為人類制造“小太陽”提供了新的解決方案；筆者所在的團隊也在研究基於深度強化學習的無人機空中格鬥控制，這是無人機空戰的未來發展方向。

本書比較全面、繫統地介紹了深度強化學習的理論和算法，並配有大量的案例和編程實現的代碼。全書的核心內容可以分為3部分，部分為經典強化學習，包括第2～4章，第2章介紹動態規劃法，提出了值迭代和策略迭代兩個基礎框架，這是強化學習的初雛形，也是所有深度強化學習框架的基礎；第3章介紹蒙特卡羅法，將數理統計中的蒙特卡羅方法引入值迭代和策略迭代，這是經典強化學習走向實用性的一大步；第4章介紹時序差分法，將動態規劃和蒙特卡羅法相結合，提出了適用範圍更廣、學習效率更高的強化學習算法。

第二部分為深度強化學習，包括第6～8章，第6章介紹值函數近似算法和早期的深度強化學習方法，將函數近似的方法引入強化學習是結合深度學習和強化學習的理論基礎，為後續開發功能更強大的深度強化學習方法奠定了基礎；第7章介紹策略梯度算法，這是動態規劃法中的策略迭代框架在深度強化學習中的體現，策略梯度法解決了用近似函數來表示策略的問題，大大拓展了深度強化學習的理論空間和應用範圍；第8章介紹了基於策略梯度法的一些進階算法，這些算法都是目前前沿的深度學習算法框架。

第三部分為深度強化學習的經典應用案例——AlphaGo繫列算法，包括第9章諸節，比較詳細地介紹了AlphaGo繫列算法的來龍去脈，以及各種方法的具體技術細節。

另外，作為理論和算法的輔助，第1章介紹了強化學習的數學模型和由OpenAI開發的環境庫Gym，第5章簡單介紹了深度學習的理論和PyTorch編程框架。

2021年暑假，筆者接到工作所在單位——西南科技大學數理學院的任務，要我開設一個深度強化學習暑期講習班。這是一個很艱巨的任務，雖然之前也零零散散地給我的研究生講過一些深度強化學習的內容，但很不成繫統，當時也沒有比較合適的教材可以使用，更別說現成的視頻、PPT、案例等教學資源了。經過了兩三個月的準備，講習班還是順利開班了，一起學習的有數理學院對深度強化學習感興趣的高年級本科生、學校相關專業的研究生，還有我的老師——重慶師範大學數學科學學院白富生教授推薦的研究生，他們在酷暑天從重慶趕來捧場，特別令我感動。本來也想將講義整理成書，正好接到了清華大學出版社趙佳霓編輯的出書邀約。於是，從2021年暑假開始，每天上午坐在書桌前寫上一段就成了這一年來雷打不動的工作，但從未寫過書的我還是低估了寫作的難度，因為深度強化學習的前沿知識更新速度還是很快的，大部分內容都沒有比較繫統的資料可以參考，所以隻能先閱讀近期發表的論文原著，理解並掌握了之後再繫統地寫出來，案例編程也是一項耗時耗力的工作，經常深夜一兩點家人們都已熟睡時，我還在調試程序，有時一連兩三周也不能寫上一節，真正讓我體會到了“兩句三年得，一吟雙淚流”的感覺。要特別感謝趙佳霓編輯在我寫作過程中給予的幫助，每次我發過去的書稿趙編輯都會很快反饋修改建議，提前幫我規範了很多格式和排版問題，讓我了在這方面的大量時間和精力。

要感謝本書的另外一位作者，中國空氣動力研究與發展中心的章勝副研究員，章老師寫了第8章部分和第9章全部的初稿，並給其他章節提出了寶貴的修改建議，沒有他的幫助，本書不可能這麼快完稿。要感謝我的恩師吳至友教授、Adil Bagirov教授，以及在我求學道路上無私幫助過我的白富生、趙克全、吳昌質、杜學武等老師，是他們成就了現在的我。要感謝我的研究生趙玥茹、王民陽、王宇、吳敏，他們為本書的校對工作付出了大量時間。後，要特別感謝我的家人，特別是兩個孩子，他們時不時地會詢問：“爸爸，你的書寫得怎樣了？”這是我能夠堅持寫下去的巨大動力。

後，由於個人能力有限，書中難免有不當和錯誤之處，還望讀者海涵和指正，不勝感激。

龍強
於綿陽西南科技大學
2022年10月30日

商品搜索

商品分类

【醫學】

【各大出版社】