[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 強化學習 原理與Phthon實戰 圖書
    該商品所屬分類:圖書 -> 科技
    【市場價】
    806-1168
    【優惠價】
    504-730
    【作者】 肖智清 
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:機械工業出版社
    ISBN:9787111728917
    商品編碼:10082367515268

    品牌:文軒
    出版時間:2023-07-01
    代碼:129

    作者:肖智清

        
        
    "
    作  者:肖智清 著
    /
    定  價:129
    /
    出 版 社:機械工業出版社
    /
    出版日期:2023年07月01日
    /
    頁  數:1008
    /
    裝  幀:平裝
    /
    ISBN:9787111728917
    /
    主編推薦
    攜七大優勢,帶你一書學透強化學習,掌握ChatGPT背後的關鍵技術。1)內容完備:完整地介紹了主流強化學習理論,全面覆蓋主流強化學習算法,包括了資格跡等經典算法和 Zero等深度強化學習算法,且給出主要定理的證明過程。讓你參透ChatGPT背後的關鍵技術。2)表述一致:全書采用統一的數學符號,並兼容主流強化學習教程。3)配套豐富:每章都配有知識點總結、代碼和習題。4)環境全面:既有Gym的內置環境,也有在Gym基礎上進一步擴展的第三方環境,還帶領讀者一起實現了自定義的環境。5)兼容廣泛:所有代等
    目錄
    ●數學符號表
    前言
    第1章初識強化學習1
    1.1強化學習及素1
    1.2強化學習的應用3
    1.3智能體/環境接口4
    1.4強化學習的分類6
    1.4.1按任務分類6
    1.4.2按算法分類8
    1.5強化學習算法的性能指標9
    1.6案例:基於Gym庫的智能體/環境接口10
    1.6.1安裝Gym庫11
    1.6.2使用Gym庫11
    1.6.3小車上山13
    1.7本章小結18
    1.8練習與模擬面試19
    第2章Markov決策過程21
    2.1Markov決策過程模型21
    2.1.1離散時間Markov決策過程21
    2.1.2環境與動力24
    2.1.3策略26
    2.1.4帶的回報26
    2.2價值27
    2.2.1價值的定義28
    2.2.2價值的性質28
    2.2.3策略的偏序和改進34
    2.3帶的分布35
    2.3.1帶的分布的定義35
    2.3.2帶的分布的性質37
    2.3.3帶的分布和策略的等價性39
    2.3.4帶的分布下的期望40
    2.4很優策略與很優價值41
    2.4.1從很優策略到很優價值41
    2.4.2很優策略的存在性42
    2.4.3很優價值的性質與Bellman很優方程43
    2.4.4用線性規劃法求解很優價值48
    2.4.5用很優價值求解很優策略51
    2.5案例:懸崖尋路52
    2.5.1使用環境52
    2.5.2求解策略價值53
    2.5.3求解很優價值54
    2.5.4求解很優策略55
    2.6本章小結55
    2.7練習與模擬面試57
    第3章有模型數值迭代59
    3.1Bellman算子及其性質59
    3.2有模型策略迭代64
    3.2.1策略評估65
    3.2.2策略改進66
    3.2.3策略迭代67
    3.3價值迭代68
    3.4自益與動態規劃69
    3.5案例:冰面滑行70
    3.5.1使用環境71
    3.5.2有模型策略迭代求解73
    3.5.3有模型價值迭代求解76
    3.6本章小結76
    3.7練習與模擬面試77
    第4章回合更新價值迭代78
    4.1同策回合更新79
    4.1.1同策回合更新策略評估79
    4.1.2帶起始探索的同策回合更新84
    4.1.3基於柔性策略的同策回合更新86
    4.2異策回合更新89
    4.2.1重要性采樣89
    4.2.2異策回合更新策略評估92
    4.2.3異策回合更新很優策略求解93
    4.3實驗:21點遊戲94
    4.3.1使用環境94
    4.3.2同策策略評估96
    4.3.3同策很優策略求解98
    4.3.4異策策略評估101
    4.3.5異策很優策略求解102
    4.4本章小結103
    4、5練習與模擬面試104
    第5章時序差分價值迭代106
    5.1時序差分目標106
    5.2同策時序差分更新109
    5.2.1時序差分更新策略評估109
    5.2.2SARSA算法113
    5.2.3期望SARSA算法115
    5.3異策時序差分更新117
    5.3.1基於重要性采樣的異策算法117
    5.3.2Q學習119
    5.3.3雙重Q學習120
    5.4資格跡121
    5.4.1λ回報122
    5.4.2TD(λ)算法123
    5.5案例:的士調度125
    5.5.1使用環境126
    5.5.2同策時序差分學習127
    5.5.3異策時序差分學習130
    5.5.4資格跡學習132
    56本章小結134
    57練習與模擬面試135
    第6章函數近似方法137
    6.1函數近似原理138
    6.2基於梯度的參數更新139
    6.2.1隨機梯度下降139
    6.2.2半梯度下降141
    6.2.3帶資格跡的半梯度下降142
    6.3函數近似的收斂性144
    6.3.1收斂的條件144
    6.3.2Baird反例145
    6.4深度Q網絡147
    6.4.1經驗回放148
    6.4.2目標網絡151
    6.4.3雙重深度Q網絡152
    6.4.4決鬥深度Q網絡153
    6.5案例:小車上山154
    6.5.1使用環境155
    6.5.2用線性近似求解很優策略156
    6.5.3用深度Q網絡求解很優策略161
    6.6本章小結172
    6.7練習與模擬面試172
    第7章回合更新策略梯度方法174
    7.1策略梯度算法的原理174
    7.1.1函數近似策略174
    7.1.2策略梯度定理175
    7.1.3策略梯度和極大似然估計的關繫179
    7.2同策回合更新策略梯度算法179
    7.2.1簡單的策略梯度算法180
    7.2.2帶基線的簡單策略梯度算法180
    7.3異策回合更新策略梯度算法182
    7.4案例:車杆平衡183
    7.4.1用同策策略梯度算法求解很優策略184
    7.4.2用異策策略梯度算法求解很優策略189
    7.5本章小結195
    7.6練習與模擬面試196
    第8章執行者/評論者197
    8.1執行者/評論者方法197
    8.2同策執行者/評論者算法198
    8.2.1動作價值執行者/評論者算法198
    8.2.2優勢執行者/評論者算法199
    8.2.3帶資格跡的執行者/評論者算法200
    8.3基於代理優勢的同策算法201
    8.3.1性能差別引理201
    8.3.2代理優勢202
    8.3.3鄰近策略優化203
    8.4自然梯度和信賴域算法205
    8.4.1KL散度與Fisher信息矩陣206
    8.4.2代理優勢的信賴域208
    8.4.3自然策略梯度算法209
    8.4.4信賴域策略優化212
    8.5重要性采樣異策執行者/評論者算法213
    8.6案例:雙節倒立擺214
    8.6.1用同策執行者/評論者算法求解很優策略216
    8.6.2用基於代理優勢的同策算法求解很優策略226
    8.6.3用自然策略梯度和信賴域算法求解很優策略230
    8.6.4用重要性采樣異策執行者/評論者算法求解很優策略242
    8.7本章小結246
    8.8練習與模擬面試247
    第9章連續動作空間的確定性策略248
    9.1確定性策略梯度定理248
    9.2同策確定性算法250
    9.3異策確定性算法251
    9.3.1基本的異策確定性執行者/評論者算法251
    9.3.2深度確定性策略梯度算法253
    9.3.3雙重延遲深度確定性策略梯度算法254
    9.4探索過程255
    9.5案例:倒立擺的控制256
    9.5.1用深度確定性策略梯度算法求解257
    9.5.2用雙重延遲深度確定性算法求解263
    9.6本章小結268
    9.7練習與模擬面試268
    第10章優選熵強化學習270
    10.1優選熵強化學習與柔性強化學習理論270
    10.1.1獎勵工程和帶熵的獎勵270
    10.1.2柔性價值272
    10.1.3柔性策略改進定理和優選熵強化學習的迭代求解273
    10.1.4柔性很優價值275
    10.1.5柔性策略梯度定理276
    10.2柔性強化學習算法281
    10.2.1柔性Q學習281
    10.2.2柔性執行者/評論者算法282
    10.3自動熵調節284
    10.4案例:月球登陸器286
    10.4.1環境安裝286
    10.4.2使用環境287
    10.4.3用柔性Q學習求解LunarLander289
    10.4.4用柔性執行者/評論者求解LunarLander292
    10.4.5自動熵調節用於LunarLander297
    10.4.6求解LunarLander Continuous302
    10.5本章小結308
    10.6練習與模擬面試309
    第11章基於策略的無梯度算法310
    11.1無梯度算法310
    11.1.1進化策略算法310
    11.1.2增強隨機搜索算法311
    11.2無梯度算法和策略梯度算法的比較312
    11.3案例:雙足機器人313
    11.3.1獎勵截斷314
    11.3.2用進化算法求解315
    11.3.3用增強隨機搜索算法求解317
    11.4本章小結318
    11.5練習與模擬面試319
    第12章值分布強化學習320
    12.1價值分布及其性質320
    12.2效用優選化強化學習323
    12.3基於概率分布的算法326
    12.3.1類別深度Q網絡算法326
    12.3.2帶效用的類別深度Q網絡算法328
    12.4基於分位數的值分布強化學習329
    12.4.1分位數回歸深度Q網絡算法331
    12.4.2含蓄分位網絡算法333
    12.4.3帶效用的分位數回歸算法334
    12.5類別深度Q網絡算法和分位數回歸算法的比較335
    12.6案例:Atari電動遊戲Pong336
    12.6.1Atari遊戲環境的使用336
    12.6.2Pong遊戲338
    12.6.3包裝Atari遊戲環境339
    12.6.4用類別深度Q網絡算法玩遊戲340
    12.6.5用分位數回歸深度Q網絡算法玩遊戲345
    12.6.6用含蓄分位網絡算法玩遊戲349
    12.7本章小結356
    12.8練習與模擬面試356
    第13章最小化遺憾358
    13.1遺憾358
    13.2多臂 360
    13.2.1多臂 問題描述360
    13.2.2ε貪心算法361
    13.2.3置信上界361
    13.2.4Bayesian置信上界算法365
    13.2.5Thompson采樣算法368
    13.3置信上界價值迭代368
    13.4案例:Bernoulli獎勵多臂 376
    13.4.1創建自定義環境377
    13.4.2用ε貪心策略求解378
    13.4.3用第一置信上界求解379
    13.4.4用Bayesian置信上界求解380
    13.4.5用Thompson采樣求解381
    13.5本章小結382
    13.6練習與模擬面試382
    第14章樹搜索384
    14.1回合更新樹搜索385
    14.1.1選擇387
    14.1.2擴展和評估388
    14.1.3回溯389
    14.1.4決策390
    14.1.5訓練回合更新樹搜索用到的神經網絡390
    14.2回合更新樹搜索在棋盤遊戲中的應用393
    14.2.1棋盤遊戲393
    14.2.2自我對弈398
    14.2.3針對棋盤遊戲的網絡399
    14.2.4從AlphaGo到 Zero401
    14.3案例:井字棋403
    14.3.1棋盤遊戲環境boardgame2403
    14.3.2窮盡式搜索408
    14.3.3啟發式搜索410
    14.4本章小結418
    14.5練習與模擬面試418
    第15章模仿學習和人類反饋強化學習420
    15.1模仿學習420
    15.1.1f散度及其性質421
    15.1.2行為克隆427
    15.1.3生成對抗模仿學習429
    15.1.4逆強化學習431
    15.2人類反饋強化學習和生成性預訓練變換模型432
    15.3案例:機器人行走433
    15.3.1擴展庫PyBullet433
    15.3.2用行為克隆模仿學習435
    15.3.3用生成對抗模仿學習438
    15.4本章小結444
    15.5練習與模擬面試445
    第16章更多智能體/環境接口模型446
    16.1平均獎勵離散時間Markov決策過程446
    16.1.1平均獎勵447
    16.1.2差分價值450
    16.1.3很優策略453
    16.2連續時間Markov決策過程456
    16.3非齊次Markov決策過程459
    16.3.1非齊次狀態表示460
    16.3.2時間指標有界的情況461
    16.3.3時間指標無界的情況462
    16.4半Markov決策過程463
    16.4.1半Markov決策過程及其價值463
    16.4.2很優策略求解466
    16.4.3分層強化學習466
    16.5部分可觀測Markov決策過程467
    16.5.1離散時間部分可觀測Markov決策過程467
    16.5.2信念469
    16.5.3信念Markov決策過程473
    16.5.4信念價值476
    16.5.5有限部分可觀測Markov決策過程的信念價值479
    16.5.6使用記憶481
    16.6案例:老虎482
    16.6.1帶回報期望與平均獎勵的比較482
    16.6.2信念Markov決策過程484
    16.6.3非齊次的信念狀態價值485
    16.7本章小結487
    16.8練習與模擬面試489
    內容簡介
    全書分為三個部分:第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。第2~15章:基於獎勵離散時間Markov決策過程模型,介紹強化學習的主干理論和常見算法。采用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解算法,並為算法提供配套代碼實現。基礎理論的講解突出主干部分,算法講解全面覆蓋主流的強化學習算法,包括經典的非深度強化學習算法和近年流行的強化學習算法。Python實現和算法講解一一對應,對於深度強化學習算法還給出了基於TensorFlow2和PyTorch1的對照實現。第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型,半Markov模型、部分可觀測模型等,以便更好了解強化學習研究的全貌。



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    肖智清
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    肖智清
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部