了得網圖書_深度強化學習入門與實踐指南圖書

作者:(俄羅斯)馬克西姆·拉潘著王靜怡,劉斌,程國建譯

定價:119

出版社:機械工業出版社

出版日期:2021年02月01日

頁數:384

裝幀:平裝

ISBN:9787111668084

編輯推薦：迅速理解深度強化學習，從原理到新近算法全面探索面向實踐，掌握構建智能體、聊天機器人等實踐項目本書對RL的核心知識進行了全面深入講解，並為你提供了編寫智能體代碼的詳細知識，以使其執行一繫列艱巨的實際任務。幫助你掌握如何在“網格世界”環境中實現Q-learning，教會你的智能體購買和交易股票，並掌握如何通過實現自然語言模型來推動聊天機器人的發展。你將學到什麼：● 理解如何通過RL的DL上下文實現復雜的DL模型● 掌握RL的基礎理論：馬爾可夫決策過程● 學會評估RL的方法，包括交叉熵、DQ等

●原書前言
第1章什麼是強化學習
1.1學習—監督、無監督和強化
1.2RL形式和關繫
1.2.1獎勵
1.2.2智能體
1.2.3環境
1.2.4動作
1.2.5觀察
1.3馬爾可夫決策過程簡介
1.3.1馬爾可夫過程
1.3.2馬爾可夫獎勵過程
1.3.3馬爾可夫決策過程
1.4本章小結
第2章OpenAIGym開源平臺
2.1智能體剖析
2.2硬件和軟件要求
2.3OpenAIGymAPI
2.3.1動作空間
2.3.2觀察空間
2.3.3環境
2.3.4創建環境
2.3.5CartPole會話
2.4隨機CartPole智能體
2.5額外的Gym功能—Wrapper和Monitor
2.5.1Wrapper
2.5.2Monitor
2.6本章小結
第3章使用PyTorch進行深度學習
3.1張量
3.1.1創建張量
3.1.2標量張量
3.1.3張量操作
3.1.4GPU張量
3.2梯度
3.2.1張量和梯度
3.3NN構建塊
3.4定制層級
3.5最終的黏合劑—損失函數和優化器
3.5.1損失函數
3.5.2優化器
3.6使用TensorBoard監控
3.6.1TensorBoard簡介
3.6.2繪圖工具
3.7示例：在Atari圖像上使用GAN
3.8本章小結
第4章交叉熵方法
4.1RL方法的分類
4.2實踐交叉熵
4.3CartPole上的交叉熵方法
4.4FrozenLake上的交叉熵方法
4.5交叉熵方法的理論背景
4.6本章小結
第5章表格學習與Bellman方程
5.1值、狀態、很優性
5.2很優的Bellman方程
5.3動作的值
5.4值迭代法
5.5實踐中的值迭代
5.6FrozenLake中的Q-learning
5.7本章小結
第6章深度Q網絡
6.1現實中的值迭代
6.2表格式Q-learning
6.3深度Q-learning
6.3.1與環境的交互
6.3.2SGD優化
6.3.3步驟之間的相關性
6.3.4馬爾可夫性
6.3.5DQN訓練的最終形式
6.4Pong上的DQN
6.4.1封裝
6.4.2DQN模型
6.4.3訓練
6.4.4運行與性能
6.4.5動作中的模型
6.5本章小結
第7章DQN擴展
7.1PyTorchAgentNet函數庫
7.1.1智能體
7.1.2智能體的經驗
7.1.3經驗緩衝區
7.1.4Gymenv封裝
7.2基本DQN
7.3N步DQN
7.3.1實現
7.4雙DQN
7.4.1實現
7.4.2結果
7.5有噪網絡
7.5.1實現
7.5.2結果
7.6優先級重放緩衝區
7.6.1實現
7.6.2結果
7.7競爭DQN
7.7.1實現
7.7.2結果
7.8分類
7.8.1實現
7.8.2結果
7.9結合所有
7.9.1實現
7.9.2結果
7.10本章小結
參考文獻
第8章RL用於股票交易
8.1貿易
8.2數據
8.3問題陳述和關鍵決策
8.4交易環境
8.5模型
8.6訓練代碼
8.7結果
8.7.1前饋模型
8.7.2卷積模型
8.8要嘗試的事
8.9本章小結
第9章策略梯度法：一種替代方案
9.1值與策略
9.1.1為什麼是策略
9.1.2策略表示
9.1.3策略梯度
9.2強化方法
9.2.1CartPole的例子
9.2.2結果
9.2.3基於策略的方法與基於值的方法
9.3強化問題
9.3.1完整episode是必需的
9.3.2高梯度方差
9.3.3探索
9.3.4樣本之間的相關性
9.4CartPole上的PG
9.5Pong上的PG
9.6本章小結
第10章Actor-Critic方法
10.1方差減少
10.2CartPole方差
10.3Actor-Critic
10.4Pong上的A2C
10.5Pong上的A2C的結果
10.6調整超參數
10.6.1學習率
10.6.2熵beta
10.6.3環境數量
10.6.4batch大小
10.7本章小結
第11章異步優勢Actor-Critic方法
11.1相關性和樣本效率
11.2在A2C中添加另一個A
11.3Python中的多處理
11.4A3C—數據並行
11.5A3C—梯度並行
11.6本章小結
第12章用RL訓練聊天機器人
12.1聊天機器人概述
12.2DeepNLP基礎知識
12.2.1RNN
12.2.2嵌入
12.2.3編碼器-解碼器
12.3seq2seq訓練
12.3.1對數似然訓練
12.3.2雙語評估替補（BLEU）得分
12.3.3seq2seq中的RL
12.3.4自我評價序列訓練
12.4聊天機器人示例
12.4.1示例結構
12.4.2模塊：cornell.py和data.py
12.4.3BLEU得分和utils.py
12.4.4模型
12.4.5訓練：交叉熵
12.4.6執行訓練
12.4.7檢查數據
12.4.8測試訓練的模型
12.4.9訓練：SCST
12.4.10運行SCST訓練
12.4.11結果
12.4.12電報機器人
12.5本章小結
第13章Web瀏覽
13.1網頁瀏覽
……

迅速理解深度強化學習，從原理到新近算法全面探索。關於強化學習的新資料很多，但多數過於專業和抽像，很不容易理解，並且從理解原理到可以實際解決問題之間還有巨大差距，而本書意在填補強化學習方法在實用性和結構化信息方面的不足，以幫助讀者從整體上輕松理解深度強化學習。同時本書的另一個特點是面向實踐，從簡單到非常復雜，將每種方法實際應用在各種具體環境中，以幫助讀者在實際研究和工作中應用深度強化學習來解決問題。本書適合深度強化學習、機器學習、人工智能相關行業的從業者、學習者閱讀參考。

(俄羅斯)馬克西姆·拉潘著王靜怡,劉斌,程國建譯

Maxim Lapan深度學習研究者，作為一名軟件開發人員和繫統架構師，具有超過15年的專業經驗，涵蓋了從Linux內核驅動程序開發到可在數千臺服務器上工作的分布式應用項目的設計與性能優化。他在大數據、機器學習以及大型並行分布式HPC繫統方面擁有豐富的工作經驗，並擅長使用簡單的文字和生動的示例來解釋復雜事物。他目前專注的領域是深度學習的實際應用，例如深度自然語言處理和深度強化學習。Maxim目前在以色列一家初創公司工作，擔任高級NLP開發人員。

商品搜索

商品分类

【醫學】

【各大出版社】