了得網圖書_【正版圖書】強化學習：原理與Python實現肖智清著機械工業出

	[ 收藏 ] [ 简体中文 ]
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款，4-7個工作日送達，999元臺幣免運費　　　在線留言商品價格為新臺幣

計算機周邊

商品搜索

类别：

关键字：

商品分类

　管理

　一般管理学
　市场/营销
　会计
　金融/投资
　经管音像
　电子商务
　创业企业与企业家
　生产与运作管理
　商务沟通
　战略管理
　商业史传
　MBA
　管理信息系统
　工具书
　外文原版/影印版
　管理类职称考试
　WTO
　英文原版书-管理

　投资理财

　证券/股票
　投资指南
　理财技巧
　女性理财
　期货
　基金
　黄金投资
　外汇
　彩票
　保险
　购房置业
　纳税
　英文原版书-投资理财

　经济

　经济学理论
　经济通俗读物
　中国经济
　国际经济
　各部门经济
　经济史
　财政税收
　区域经济
　统计审计
　贸易政策
　保险
　经济数学
　各流派经济学说
　经济法
　工具书
　通货膨胀
　财税外贸保险类考试
　英文原版书-经济

　社会科学

　语言文字
　社会学
　文化人类学/人口学
　新闻传播出版
　社会科学总论
　图书馆学/档案学
　经典名家作品集
　教育
　英文原版书-社会科学

　哲学

　哲学知识读物
　中国古代哲学
　世界哲学
　哲学与人生
　周易
　哲学理论
　伦理学
　哲学史
　美学
　中国近现代哲学
　逻辑学
　儒家
　道家
　思维科学
　马克思主义哲学
　经典作品及研究
　科学哲学
　教育哲学
　语言哲学
　比较哲学

　宗教

　心理学

　古籍

　经部　史类　子部　集部　古籍管理　古籍工具书　四库全书　古籍善本影音本　中国藏书

　文化

　文化评述　文化随笔　文化理论　传统文化　世界各国文化　文化史　地域文化　神秘文化　文化研究　民俗文化　文化产业　民族文化　书的起源/书店　非物质文化遗产　文化事业　文化交流　比较文化学

　历史

　历史普及读物
　中国史
　世界史
　文物考古
　史家名著
　历史地理
　史料典籍
　历史随笔
　逸闻野史
　地方史志
　史学理论
　民族史
　专业史
　英文原版书-历史
　口述史

　传记

　文学

　艺术

　摄影
　绘画
　小人书/连环画
　书法/篆刻
　艺术设计
　影视/媒体艺术
　音乐
　艺术理论
　收藏/鉴赏
　建筑艺术
　工艺美术
　世界各国艺术概况
　民间艺术
　雕塑
　戏剧艺术/舞台艺术
　艺术舞蹈
　艺术类考试
　人体艺术
　英文原版书-艺术

　青春文学

　文学

　中国现当代随笔
　文集
　中国古诗词
　外国随笔
　文学理论
　纪实文学
　文学评论与鉴赏
　中国现当代诗歌
　外国诗歌
　名家作品
　民间文学
　戏剧
　中国古代随笔
　文学类考试
　英文原版书-文学

　法律

　小说
　世界名著
　作品集
　中国古典小说
　四大名著
　中国当代小说
　外国小说
　科幻小说
　侦探/悬疑/推理
　情感
　魔幻小说
　社会
　武侠
　惊悚/恐怖
　历史
　影视小说
　官场小说
　职场小说
　中国近现代小说
　财经
　军事

　童书

　成功/励志

　政治

　军事

　科普读物

　计算机/网络

　程序设计
　移动开发
　人工智能
　办公软件
　数据库
　操作系统/系统开发
　网络与数据通信
　CAD CAM CAE
　计算机理论
　行业软件及应用
　项目管理 IT人文
　计算机考试认证
　图形处理图形图像多媒体
　信息安全
　硬件
　项目管理IT人文
　网络与数据通信
　软件工程
　家庭与办公室用书

　建筑

　执业资格考试用书　室内设计/装潢装修　标准/规范　建筑科学　建筑外观设计　建筑施工与监理　城乡规划/市政工程　园林景观/环境艺术　工程经济与管理　建筑史与建筑文化　建筑教材/教辅　英文原版书-建筑

　医学

　中医
　内科学
　其他临床医学
　外科学
　药学
　医技学
　妇产科学
　临床医学理论
　护理学
　基础医学
　预防医学/卫生学
　儿科学
　医学/药学考试
　医院管理
　其他医学读物
　医学工具书

　自然科学

　数学
　生物科学
　物理学
　天文学
　地球科学
　力学
　科技史
　化学
　总论
　自然科学类考试
　英文原版书-自然科学

　工业技术

　环境科学
　电子通信
　机械/仪表工业
　汽车与交通运输
　电工技术
　轻工业/手工业
　化学工业
　能源与动力工程
　航空/航天
　水利工程
　金属学与金属工艺
　一般工业技术
　原子能技术
　安全科学
　冶金工业
　矿业工程
　工具书/标准
　石油/天然气工业
　原版书
　武器工业
　英文原版书-工业技

　农业/林业

　园艺　植物保护　畜牧/狩猎/蚕/蜂　林业　动物医学　农作物　农学(农艺学) 　水产/渔业　农业工程　农业基础科学　农林音像

　外语

　考试

　教材

　工具书

　中小学用书

　中小学教科书

　动漫/幽默

　烹饪/美食

　时尚/美妆

　旅游/地图

　家庭/家居

　亲子/家教

　两性关系

　育儿/早教

　保健/养生

　体育/运动

　手工/DIY

　休闲/爱好

　英文原版书

　港台图书

　研究生
　 工学
　 公共课
　 经济管理
　 理学
　 农学
　 文法类
　 医学

　音乐
　 音乐理论

　声乐　通俗音乐　音乐欣赏　钢琴　二胡　小提琴

點擊放大圖片

【正版圖書】強化學習：原理與Python實現肖智清著機械工業出
該商品所屬分類：圖書 -> 遼寧音響出版社
【市場價】	806-1168元
【優惠價】	504-730元
【作者】	肖智清
【出版社】	機械工業出版社
【ISBN】	9787111631774
【折扣說明】	一次購物滿999元台幣免運費+贈品一次購物滿2000元台幣95折+免運費+贈品一次購物滿3000元台幣92折+免運費+贈品一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】	①優質無紡布環保袋，做工棒！②品牌簽字筆 ③品牌手帕紙巾

版本	正版全新電子版PDF檔
您已选择：	正版全新
溫馨提示：如果有多種選項，請先選擇再點擊加入購物車。 . 電子圖書價格是0.69折，例如了得網價格是100元，電子書pdf的價格則是69元。 . 購買電子書不支持貨到付款，購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意，可以聯絡我們退款。謝謝。

內容介紹

字體縮小

字體放大

店鋪：遼寧音像出版社圖書專營店

出版社：機械工業出版社

ISBN：9787111631774

商品編碼：10029244310277

包裝：平裝

出版時間：2019-07-01

作者：肖智清

　　　　

　　　　

"

基本信息

書名:強化學習：原理與Python實現

定價

作者:肖智清著

出版社：機械工業出版社

出版日期：2019-07-01

ISBN：9787111631774

字數：

頁碼：239

版次：1

裝幀：平裝

開本：16開

商品重量：

編輯推薦

適讀人群：1.強化學習算法和研發人員 2. 深度學習研發和算法工程師 3. 大數據架構師 4.其他愛好者

（1）理論完備，涵蓋主流經典強化學習算法和深度強化學習算法，並配套理論基礎和性能分析。

（2）逐章配套Python代碼，深度強化學習配套代碼基於TensorFlow 2實現。在GitHub上展示代碼和運行結果。

（3）環境豐富，包括Gym庫內置環境、對Gym庫自定義擴展環境和Gym庫以外的環境，並全面兼容Windows、macOS和Linux三大操作繫統，書中給出環境配置方法。

（4）多個綜合案例，涵蓋AlphaGo改進版算法AlphaZero、基於仿真環境的自動駕駛等。

（5）對硬件配置要求低，理論講解部分代碼不需要GPU即可運行，綜合案例代碼隻需要普通的GPU即可運行。

內容提要

本書理論完備，涵蓋主流非深度強化學習算法和深度強化學習算法；實戰性強，基於Python、Gym、TensorFlow 2等構建，並有AlphaZero等綜合案例。全書共12章，主要內容如下。

章：介紹強化學習的基礎知識與強化學習環境庫Gym的使用，並給出完整的編程實例。

第2～9章：介紹強化學習的理論知識。以Markov決策過程為基礎模型，覆蓋了所有主流強化學習理論和算法，包括資格跡等經典算法和深度確定性梯度策略等深度強化學習算法。所有章節都提供了與算法配套的Python程序，使讀者完全掌握強化學習算法的原理與應用。

0～12章：介紹了多個熱門綜合案例，包括電動遊戲、棋盤遊戲和自動駕駛。算法部分涵蓋了在《自然》《科學》等期刊上發表的多個深度強化學習明星算法，包括AlphaGo的全新改進版AlphaZero。

目錄

前言

章初識強化學習 1

1.1強化學習及素 1

1.2強化學習的應用 3

1.3智能體/環境接口 4

1.4強化學習的分類 6

1.4.1按任務分類 6

1.4.2按算法分類 7

1.5如何學習強化學習 8

1.5.1學習路線 9

1.5.2學習資源 9

1.6案例：基於Gym庫的智能體/環境交互 9

1.6.1安裝Gym庫 10

1.6.2使用Gym庫 10

1.6.3小車上山 12

1.7本章小結 14

第2章Markov決策過程 16

2.1Markov決策過程模型 16

2.1.1離散時間Markov決策過程 16

2.1.2環境與動力 18

2.1.3智能體與策略 19

2.1.4獎勵、回報與價值函數 19

2.2Bellman期望方程 21

2.3策略及其性質 25

2.3.1策略與價值函數 25

2.3.2Bellman方程 25

2.3.3用Bellman方程求解策略 29

2.4案例：懸崖尋路 31

2.4.1實驗環境使用 31

2.4.2求解Bellman期望方程 32

2.4.3求解Bellman方程 33

2.5本章小結 35

第3章有模型數值迭代 37

3.1度量空間與壓縮映射 37

3.1.1度量空間及其完備性 37

3.1.2壓縮映射與Bellman算子 38

3.1.3Banach不動點定理 39

3.2有模型策略迭代 40

3.2.1策略評估 40

3.2.2策略改進 42

3.2.3策略迭代 44

3.3有模型價值迭代 45

3.4動態規劃 46

3.4.1從動態規劃看迭代算法 46

3.4.2異步動態規劃 47

3.5案例：冰面滑行 47

3.5.1實驗環境使用 48

3.5.2有模型策略迭代求解 49

3.5.3有模型價值迭代求解 51

3.6本章小結 52

第4章回合更新價值迭代 54

4.1同策回合更新 54

4.1.1同策回合更新策略評估 54

4.1.2帶起始探索的同策回合更新 58

4.1.3基於柔性策略的同策回合更新 60

4.2異策回合更新 62

4.2.1重要性采樣 62

4.2.2異策回合更新策略評估 64

4.2.3異策回合更新策略求解 65

4.3案例：21點遊戲 66

4.3.1實驗環境使用 66

4.3.2同策策略評估 67

4.3.3同策策略求解 70

4.3.4異策策略評估 72

4.3.5異策策略求解 73

4.4本章小結 74

第5章時序差分價值迭代 76

5.1同策時序差分更新 76

5.1.1時序差分更新策略評估 78

5.1.2SARSA算法 81

5.1.3期望SARSA算法 83

5.2異策時序差分更新 85

5.2.1基於重要性采樣的異策算法 85

5.2.2Q學習 86

5.2.3雙重Q學習 87

5.3資格跡 89

5.3.1λ回報 89

5.3.2TD(λ) 90

5.4案例：出租車調度 92

5.4.1實驗環境使用 93

5.4.2同策時序差分學習調度 94

5.4.3異策時序差分學習調度 97

5.4.4資格跡學習調度 99

5.5本章小結 100

第6章函數近似方法 101

6.1函數近似原理 101

6.1.1梯度下降 101

6.1.2半梯度下降 103

6.1.3帶資格跡的半梯度下降 105

6.2線性近似 107

6.2.1查找表與線性近似的關繫 107

6.2.2線性小二乘策略評估 107

6.2.3線性小二乘策略求解 109

6.3函數近似的收斂性 109

6.4深度Q學習 110

6.4.1經驗回放 111

6.4.2帶目標網絡的深度Q學習 112

6.4.3雙重深度Q網絡 114

6.4.4對偶深度Q網絡 114

6.5案例：小車上山 115

6.5.1實驗環境使用 116

6.5.2用線性近似求解策略 117

6.5.3用深度Q學習求解策略 120

6.6本章小結 123

第7章回合更新策略梯度方法 125

7.1策略梯度算法的原理 125

7.1.1函數近似與動作偏好 125

7.1.2策略梯度定理 126

7.2同策回合更新策略梯度算法 128

7.2.1簡單的策略梯度算法 128

7.2.2帶基線的簡單策略梯度算法 129

7.3異策回合更新策略梯度算法 131

7.4策略梯度更新和極大似然估計的關繫 132

7.5案例：車杆平衡 132

7.5.1同策策略梯度算法求解策略 133

7.5.2異策策略梯度算法求解策略 135

7.6本章小結 137

第8章執行者/評論者方法 139

8.1同策執行者/評論者算法 139

8.1.1動作價值執行者/評論者算法 140

8.1.2優勢執行者/評論者算法 141

8.1.3帶資格跡的執行者/評論者算法 143

8.2基於代理優勢的同策算法 143

8.2.1代理優勢 144

8.2.2鄰近策略優化 145

8.3信任域算法 146

8.3.1KL散度 146

8.3.2信任域 147

8.3.3自然策略梯度算法 148

8.3.4信任域策略優化 151

8.3.5Kronecker因子信任域執行者/評論者算法 152

8.4重要性采樣異策執行者/評論者算法 153

8.4.1基本的異策算法 154

8.4.2帶經驗回放的異策算法 154

8.5柔性執行者/評論者算法 157

8.5.1熵 157

8.5.2獎勵工程和帶熵的獎勵 158

8.5.3柔性執行者/評論者的網絡設計 159

8.6案例：雙節倒立擺 161

8.6.1同策執行者/評論者算法求解策略 162

8.6.2異策執行者/評論者算法求解策略 168

8.7本章小結 170

第9章連續動作空間的確定性策略 172

9.1同策確定性算法 172

9.1.1策略梯度定理的確定性版本 172

9.1.2基本的同策確定性執行者/評論者算法 174

9.2異策確定性算法 176

9.2.1基本的異策確定性執行者/評論者算法 177

9.2.2深度確定性策略梯度算法 177

9.2.3雙重延遲深度確定性策略梯度算法 178

9.3案例：倒立擺的控制 180

9.3.1用深度確定性策略梯度算法求解 181

9.3.2用雙重延遲深度確定性算法求解 184

9.4本章小結 187

0章綜合案例：電動遊戲 188

10.1Atari遊戲環境 188

10.1.1Gym庫的完整安裝 188

10.1.2遊戲環境使用 190

10.2基於深度Q學習的遊戲AI 191

10.2.1算法設計 192

10.2.2智能體的實現 193

10.2.3智能體的訓練和測試 197

10.3本章小結 198

1章綜合案例：棋盤遊戲 200

11.1雙人確定性棋盤遊戲 200

11.1.1五子棋和井字棋 200

11.1.2黑白棋 201

11.1.3圍棋 202

11.2AlphaZero算法 203

11.2.1回合更新樹搜索 203

11.2.2深度殘差網絡 206

11.2.3自我對弈 208

11.2.4算法流程 210

11.3棋盤遊戲環境boardgame2 210

11.3.1為Gym庫擴展自定義環境 211

11.3.2boardgame2設計 211

11.3.3Gym環境接口的實現 214

11.3.4樹搜索接口的實現 216

11.4AlphaZero算法實現 218

11.4.1智能體類的實現 218

11.4.2自我對弈的實現 223

11.4.3訓練智能體 224

11.5本章小結 225

2章綜合案例：自動駕駛 226

12.1AirSim開發環境使用 226

12.1.1安裝和運行AirSim 226

12.1.2用Python訪問AirSim 228

12.2基於強化學習的自動駕駛 229

12.2.1為自動駕駛設計強化學習環境 230

12.2.2智能體設計和實現 235

12.2.3智能體的訓練和測試 237

12.3本章小結 239

作者介紹

肖智清
強化學習一線研發人員，清華大學工學博士，現就職於全球知名投資銀行。擅長概率統計和機器學習，於近5年發表SCI/EI論文十餘篇，是多個國際性知名期刊和會議審稿人。在外多項程序設計和數據科學競賽上獲得冠軍。

序言

"

網友評論我們期待著您對此商品發表評論

相關商品

在線留言 商品價格為新臺幣

關於我們送貨時間安全付款會員登入加入會員我的帳戶網站聯盟

DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.