了得網圖書_深度強化學習實踐(原書第2版) 圖書

作者:(俄羅斯)馬克西姆·拉潘著林然,王薇譯

定價:149

出版社:機械工業出版社

出版日期:2021年08月01日

頁數:636

裝幀:平裝

ISBN:9787111687382

本書包括新的強化學習工具和技術，介紹了強化學習的基礎知識，以及如何動手編寫智能體以執行一繫列實際任務。本書較上一版新增6章，專門介紹了強化學習的新發展，包括離散優化（解決魔方問題）、多智能體方法、Microsoft的TextWorld環境、高級探索技術等。學完本書，你將對這個新興領域的前沿技術有深刻的理解。此外，你將獲得對深度Q-network、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等領域的可行洞見，還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人，並通過逐步代碼等

●譯者序
前言
作者簡介
審校者簡介
第1章什麼是強化學習
1．1機器學習分類
1．1．1監督學習
1．1．2非監督學習
1．1．3強化學習
1．2強化學習的復雜性
1．3強化學習的形式
1．3．1獎勵
1．3．2智能體
1．3．3環境
1．3．4動作
1．3．5觀察
1．4強化學習的理論基礎
1．4．1馬爾可夫決策過程
1．4．2策略
1．5總結
第2章OpenAIGym
2．1剖析智能體
2．2硬件和軟件要求
2．30penAIGymAPI
2．3．1動作空間
2．3．2觀察空間
2．3．3環境
2．3．4創建環境
2．3．5車擺繫統
2．4隨機CartPole智能體
2．5Gym的額外功能：包裝器和監控器
2．5．1包裝器
2．5．2監控器
2．6總結
第3章使用PyTorch進行深度學習
3．1張量
3．1．1創建張量
3．1．2零維張量
3．1．3張量操作
3．1．4GPU張量
3．2梯度
3．3NN構建塊
3．4自定義層
3．5最終黏合劑：損失函數和優化器
3．5．1損失函數
3．5．2優化器
3．6使用TensorBoard進行監控
3．6．1TensorBOard101
3．6．2繪圖
3．7示例：將GAN應用於Atari圖像
3．8PyTorchlgnite
3．9總結
第4章交叉熵方法
4．1RL方法的分類
4．2交叉熵方法的實踐
4．3交叉熵方法在CartPole中的應用
4．4交叉熵方法在FrozenLake中的應用
4．5交叉熵方法的理論背景
4．6總結
第5章表格學習和Bellman方程
5．1價值、狀態和很優性
5．2很好Bellman方程
5．3動作的價值
5．4價值迭代法
5．5價值迭代實踐
5．6Q-Iearning在FrozenLake中的應用
5．7總結
第6章深度Q．network
6．1現實的價值迭代
6．2表格Q-Iearning
6．3深度Q-learning
6．3．1與環境交互
6．3．2SGD優化
6．3．3步驟之間的相關性
6．3．4馬爾可夫性質
6．3．5DQN訓練的最終形式
6．4DQN應用於Pong遊戲
6．4．1包裝器
6．4．2DQN模型
6．4．3訓練
6．4．4運行和性能
6．4．5模型實戰
6．5可以嘗試的事情
6．6總結
第7章高級強化學習庫
7．1為什麼使用強化學習庫
7．2PTAN庫
7．2．1動作選擇器
7．2．2智能體
7．2．3經驗源
7．2．4經驗回放緩衝區
7．2．5TargetNet類
7．2．6Ignite幫助類
7．3PTAN版本的CartPole解決方案
7．4其他強化學習庫
7．5總結
第8章DQN擴展
8．1基礎DQN
8．1．1通用庫
8．1．2實現
8．1．3結果
8．2N步DQN
……

本書理論與實踐相結合，繫統闡述強化學習的基礎知識，以及如何動手編寫智能體以執行一繫列實際任務。通過閱讀本書，讀者將獲得深層Q網絡、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等主題領域的可行洞見，還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人，並通過一步步代碼優化在短短30分鐘的訓練後解決Pong環境。此外，本書還專門介紹了強化學習的新發展，包括離散優化（解決魔方問題）、多智能體方法、Microsoft的TextWorld環境、高級探索技術等。

商品搜索

商品分类

【醫學】

【各大出版社】