[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 深度強化學習理論與實踐
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    440-638
    【優惠價】
    275-399
    【作者】 龍強、章勝 
    【所屬類別】 圖書  計算機/網絡  人工智能  深度學習與神經網絡 
    【出版社】清華大學出版社 
    【ISBN】9787302625544
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302625544
    叢書名:計算機技術開發與應用叢書

    作者:龍強、章勝
    出版社:清華大學出版社
    出版時間:2023年03月 


        
        
    "

    產品特色

    編輯推薦

    本書繫統介紹深度強化學習的理論和算法,並配有大量的案例。全書核心內容可以分為3部分,部分為經典強化學習,主要內容有動態規劃法,蒙特卡洛法、時序差分法;第二部分為深度強化學習,主要內容有值函數近似法、策略梯度法、策略梯度法進階;第三部分重點介紹了深度強化學習的經典應用——AlphaGo繫列算法。
    ★ 大多數每個算法配有一個或多個測試案例,便於讀者理解理論和算法;
    ★ 每個案例都配有編程實現的代碼,便於讀者理論聯繫實際,並親自上手實踐;
    ★ 為減輕讀者編寫代碼的難度,本書所有案例的代碼都是可以獨立運行的,並且盡量減少了對依賴包的使用。

     
    內容簡介

    本書比較全面、繫統地介紹了深度強化學習的理論和算法,並配有大量的案例和編程實現。全書核心內容可以分為3部分,部分為經典強化學習,包括第2、3、4章,主要內容有動態規劃法,蒙特卡洛法、時序差分法;第二部分為深度強化學習,包括第6、7、8章,主要內容有值函數近似法、策略梯度法、策略梯度法進階;第三部分重點介紹了深度強化學習的經典應用——AlphaGo繫列算法。另外,作為理論和算法的輔助,第1章介紹了強化學習的模型,第5章簡單介紹了深度學習和PyTorch編程框架。 本書可以作為理工科大學相關專業研究生的學位課教材,也可以作為人工智能、機器學習相關專業高年級本科生的選修課教材,還可以作為相關領域學術研究人員、教師和工程技術人員的參考資料。

    作者簡介

    龍強,博士、副教授、碩士研究生導師;就職於西南科技大學數理學院數據科學繫,中國運籌學會終生會員;主要從事化理論與算法、機器學習算法研究;在國際國內學術期刊上發表論文20餘篇,獲批國家發明專利3項,主持和參與國家自然科學基金3項,參與國家社會科學基金1項;講授“深度強化學習”“深度學習與神經網絡”“算法設計與分析”“化理論與算法”“機器學習”等課程。
    章勝,博士、副研究員、碩士研究生導師;就職於中國空氣動力研究與發展中心,中國空氣動力學學會會員;主要從事飛行器軌跡優化、非線性控制與智能控制研究。在國際及國內學術期刊上發表論文20篇,獲批國家發明專利5項,主持和參與國家自然科學基金、國家重點基礎研究發展計劃等項目15項。

    目錄
    第1章強化學習的模型(156min)
    1.1強化學習簡介
    1.1.1初識強化學習
    1.1.2強化學習的歷史
    1.1.3強化學習與機器學習的關繫
    1.2強化學習的模型
    1.2.1強化學習基本模型和要素
    1.2.2強化學習的執行過程
    1.2.3強化學習的數學模型——馬爾可夫決策過程
    1.2.4環境模型案例
    1.3Gym介紹
    1.3.1Gym簡介
    1.3.2Gym安裝
    1.3.3Gym的環境描述和案例

    第1章強化學習的模型(156min)


    1.1強化學習簡介


    1.1.1初識強化學習


    1.1.2強化學習的歷史


    1.1.3強化學習與機器學習的關繫


    1.2強化學習的模型


    1.2.1強化學習基本模型和要素


    1.2.2強化學習的執行過程


    1.2.3強化學習的數學模型——馬爾可夫決策過程


    1.2.4環境模型案例


    1.3Gym介紹


    1.3.1Gym簡介


    1.3.2Gym安裝


    1.3.3Gym的環境描述和案例


    1.3.4在Gym中添加自編環境


    1.3.5直接使用自編環境


    第2章動態規劃法(231min)


    2.1動態規劃法簡介


    2.2值函數和貝爾曼方程


    2.2.1累積獎勵


    2.2.2值函數


    2.2.3貝爾曼方程


    2.3策略評估


    2.4策略改進


    2.5值函數和策略


    2.6策略迭代和值迭代


    2.7動態規劃法求解強化學習案例


    第3章蒙特卡羅法(211min)


    3.1蒙特卡羅法簡介


    3.2蒙特卡羅策略評估


    3.2.1蒙特卡羅策略評估


    3.2.2增量式蒙特卡羅策略評估


    3.2.3蒙特卡羅策略評估案例


    3.2.4蒙特卡羅和動態規劃策略評估的對比


    3.3蒙特卡羅強化學習


    3.3.1蒙特卡羅策略改進


    3.3.2起始探索蒙特卡羅強化學習


    3.3.3ε貪婪策略蒙特卡羅強化學習


    3.3.4蒙特卡羅強化學習案例


    3.4異策略蒙特卡羅強化學習


    3.4.1重要性采樣


    3.4.2異策略蒙特卡羅策略評估


    3.4.3增量式異策略蒙特卡羅策略評估


    3.4.4異策略蒙特卡羅強化學習


    3.4.5異策略蒙特卡羅強化學習案例


    3.5蒙特卡羅樹搜索


    3.5.1MCTS的基本思想


    3.5.2MCTS的算法流程


    3.5.3基於MCTS的強化學習算法


    3.5.4案例和代碼


    第4章時序差分法(174min)


    4.1時序差分策略評估


    4.1.1時序差分策略評估原理


    4.1.2時序差分策略評估算法


    4.1.3時序差分策略評估案例


    4.1.4時序差分策略評估的優勢


    4.2同策略時序差分強化學習


    4.2.1Sarsa算法


    4.2.2Sarsa算法案例


    4.3異策略時序差分強化學習


    4.3.1Qlearning算法


    4.3.2期望Sarsa算法


    4.3.3Double Qlearning算法


    4.3.4Qlearning算法案例


    4.4n步時序差分強化學習


    4.4.1n步時序差分策略評估


    4.4.2nstep Sarsa算法


    4.5TD(λ)算法


    4.5.1前向TD(λ)算法


    4.5.2後向TD(λ)算法


    4.5.3Sarsa(λ)算法


    第5章深度學習與PyTorch(275min)


    5.1從感知機到神經網絡


    5.1.1感知機模型


    5.1.2感知機和布爾運算


    5.2深度神經網絡


    5.2.1網絡拓撲


    5.2.2前向傳播


    5.2.3訓練模型


    5.2.4誤差反向傳播


    5.3激活函數、損失函數和數據預處理


    5.3.1激活函數


    5.3.2損失函數


    5.3.3數據預處理


    5.4PyTorch深度學習軟件包


    5.4.1數據類型及類型的轉換


    5.4.2張量的維度和重組操作


    5.4.3組裝神經網絡的模塊


    5.4.4自動梯度計算


    5.4.5訓練數據自由讀取


    5.4.6模型的搭建、訓練和測試


    5.4.7模型的保存和重載


    5.5深度學習案例


    5.5.1函數近似


    5.5.2數字圖片識別


    第6章值函數近似算法(195min)


    6.1線性值函數近似算法


    6.1.1線性值函數近似時序差分算法


    6.1.2特征函數


    6.1.3線性值函數近似算法案例


    6.2神經網絡值函數近似法


    6.2.1DQN算法原理


    6.2.2DQN算法


    6.2.3DQN算法案例


    6.3Double DQN(DDQN)算法


    6.4Prioritized Replay DQN算法


    6.4.1樣本優先級


    6.4.2隨機優先級采樣


    6.4.3樣本重要性權重參數


    6.4.4Prioritized Replay DQN算法流程


    6.4.5Prioritized Replay DQN算法案例


    6.5Dueling DQN算法


    6.5.1Dueling DQN算法原理


    6.5.2Dueling DQN算法案例


    第7章策略梯度算法(176min)


    7.1策略梯度算法的基本原理


    7.1.1初識策略梯度算法


    7.1.2策略函數


    7.1.3策略目標函數


    7.1.4策略梯度算法的框架


    7.1.5策略梯度算法的評價


    7.2策略梯度定理


    7.2.1離散型策略梯度定理


    7.2.2連續型策略梯度定理


    7.2.3近似策略梯度和評價函數


    7.3蒙特卡羅策略梯度算法(REINFORCE)


    7.3.1REINFORCE的基本原理


    7.3.2REINFORCE的算法流程


    7.3.3REINFORCE隨機梯度的嚴格推導


    7.3.4帶基線函數的REINFORCE


    7.3.5REINFORCE實際案例及代碼實現


    7.4演員評論家策略梯度算法


    7.4.1算法原理


    7.4.2算法流程


    7.4.3算法代碼及案例


    第8章策略梯度法進階(135min)


    8.1異步優勢演員: 評論家算法


    8.1.1異步強化學習


    8.1.2A3C算法


    8.1.3A2C算法


    8.1.4案例和程序


    8.2深度確定性策略梯度算法


    8.2.1DDPG的基本思想


    8.2.2DDPG的算法原理


    8.2.3DDPG的算法結構和流程


    8.2.4案例和程序


    8.3近端策略優化算法


    8.3.1PPO的算法原理


    8.3.2PPO的算法結構和流程


    8.3.3案例和程序


    8.4柔性演員評論家算法


    8.4.1熵原理


    8.4.2柔性Q學習


    8.4.3SAC算法原理


    8.4.4SAC算法結構和流程


    8.4.5案例和程序


    第9章深度強化學習案例: AlphaGo繫列算法


    9.1AlphaGo算法介紹


    9.1.1AlphaGo中的深度神經網絡


    9.1.2AlphaGo中深度神經網絡的訓練


    9.1.3AlphaGo的MCTS


    9.1.4總結


    9.2AlphaGo Zero算法介紹


    9.2.1AlphaGo Zero的策略價值網絡


    9.2.2AlphaGo Zero的MCTS


    9.2.3AlphaGo Zero的算法流程


    9.3AlphaZero算法介紹


    9.3.1從圍棋到其他棋類需要解決的問題


    9.3.2AlphaZero相對於AlphaGo Zero的改進與調整


    9.3.3AlphaZero的算法流程


    9.4MuZero算法介紹


    9.4.1MuZero中的深度神經網絡


    9.4.2MuZero中的MCTS


    9.4.3MuZero的算法流程


    9.5AlphaGo繫列算法的應用與啟示


    參考文獻


     

    前言

    機器學習是人工智能的基礎和研究熱點,按照不同的學習範式分類,機器學習可以分為監督學習、非監督學習和強化學習三大板塊。其中,強化學習是一種模擬生物智能體學習決策過程的機器學習方法,其主要思想是智能體通過與環境的不斷交互獲得經驗,並從經驗中逐漸學習與環境交互的策略。近年來,隨著人工智能的發展,強化學習在自動控制、決策等領域獲得了廣泛應用。特別是在將深度學習和強化學習結合之後,深度強化學習已經成為當今機器學習研究的熱點之一。


    強化學習並不是一個全新的機器學習領域,它之前也被稱為再勵學習、評價學習和增強學習,是一種交互式學習方法。其前身可以追溯到動態規劃法,但經典強化學習方法因其理論和算法的局限,隻能處理極少數簡單的機器學習問題,因此並不被人所熟知。直到2016年基於深度強化學習的圍棋程序AlphaGo的橫空出世,並創歷史地擊敗了人類大師級選手,深度強化學習纔大張旗鼓地進入了公眾視野。現在,深度強化學習已經不僅是科研工作者的研究課題,而且是實實在在地在生產實踐中使用的技術手段。例如,韓國圍棋院使用基於深度強化學習的圍棋程序來訓練人類棋手,使人類棋手的棋藝取得了巨大進步; 谷歌公司的DeepMind團隊已經著手研究用深度強化學習技術來控制“托克馬克”裝置,為人類制造“小太陽”提供了新的解決方案; 筆者所在的團隊也在研究基於深度強化學習的無人機空中格鬥控制,這是無人機空戰的未來發展方向。


    本書比較全面、繫統地介紹了深度強化學習的理論和算法,並配有大量的案例和編程實現的代碼。全書的核心內容可以分為3部分,部分為經典強化學習,包括第2~4章,第2章介紹動態規劃法,提出了值迭代和策略迭代兩個基礎框架,這是強化學習的初雛形,也是所有深度強化學習框架的基礎; 第3章介紹蒙特卡羅法,將數理統計中的蒙特卡羅方法引入值迭代和策略迭代,這是經典強化學習走向實用性的一大步; 第4章介紹時序差分法,將動態規劃和蒙特卡羅法相結合,提出了適用範圍更廣、學習效率更高的強化學習算法。


    第二部分為深度強化學習,包括第6~8章,第6章介紹值函數近似算法和早期的深度強化學習方法,將函數近似的方法引入強化學習是結合深度學習和強化學習的理論基礎,為後續開發功能更強大的深度強化學習方法奠定了基礎; 第7章介紹策略梯度算法,這是動態規劃法中的策略迭代框架在深度強化學習中的體現,策略梯度法解決了用近似函數來表示策略的問題,大大拓展了深度強化學習的理論空間和應用範圍; 第8章介紹了基於策略梯度法的一些進階算法,這些算法都是目前前沿的深度學習算法框架。


    第三部分為深度強化學習的經典應用案例——AlphaGo繫列算法,包括第9章諸節,比較詳細地介紹了AlphaGo繫列算法的來龍去脈,以及各種方法的具體技術細節。


    另外,作為理論和算法的輔助,第1章介紹了強化學習的數學模型和由OpenAI開發的環境庫Gym,第5章簡單介紹了深度學習的理論和PyTorch編程框架。


    2021年暑假,筆者接到工作所在單位——西南科技大學數理學院的任務,要我開設一個深度強化學習暑期講習班。這是一個很艱巨的任務,雖然之前也零零散散地給我的研究生講過一些深度強化學習的內容,但很不成繫統,當時也沒有比較合適的教材可以使用,更別說現成的視頻、PPT、案例等教學資源了。經過了兩三個月的準備,講習班還是順利開班了,一起學習的有數理學院對深度強化學習感興趣的高年級本科生、學校相關專業的研究生,還有我的老師——重慶師範大學數學科學學院白富生教授推薦的研究生,他們在酷暑天從重慶趕來捧場,特別令我感動。本來也想將講義整理成書,正好接到了清華大學出版社趙佳霓編輯的出書邀約。於是,從2021年暑假開始,每天上午坐在書桌前寫上一段就成了這一年來雷打不動的工作,但從未寫過書的我還是低估了寫作的難度,因為深度強化學習的前沿知識更新速度還是很快的,大部分內容都沒有比較繫統的資料可以參考,所以隻能先閱讀近期發表的論文原著,理解並掌握了之後再繫統地寫出來,案例編程也是一項耗時耗力的工作,經常深夜一兩點家人們都已熟睡時,我還在調試程序,有時一連兩三周也不能寫上一節,真正讓我體會到了“兩句三年得,一吟雙淚流”的感覺。要特別感謝趙佳霓編輯在我寫作過程中給予的幫助,每次我發過去的書稿趙編輯都會很快反饋修改建議,提前幫我規範了很多格式和排版問題,讓我了在這方面的大量時間和精力。


    要感謝本書的另外一位作者,中國空氣動力研究與發展中心的章勝副研究員,章老師寫了第8章部分和第9章全部的初稿,並給其他章節提出了寶貴的修改建議,沒有他的幫助,本書不可能這麼快完稿。要感謝我的恩師吳至友教授、Adil Bagirov教授,以及在我求學道路上無私幫助過我的白富生、趙克全、吳昌質、杜學武等老師,是他們成就了現在的我。要感謝我的研究生趙玥茹、王民陽、王宇、吳敏,他們為本書的校對工作付出了大量時間。後,要特別感謝我的家人,特別是兩個孩子,他們時不時地會詢問:“爸爸,你的書寫得怎樣了?”這是我能夠堅持寫下去的巨大動力。


    後,由於個人能力有限,書中難免有不當和錯誤之處,還望讀者海涵和指正,不勝感激。



    龍強
    於綿陽 西南科技大學
    2022年10月30日


     

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部