[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

  •  文化

  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

     保健/养生
     体育/运动
     手工/DIY
     休闲/爱好
     英文原版书
     港台图书
     研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学
  • 強化學習與最優控制
    該商品所屬分類:圖書 -> 科技
    【市場價】
    1248-1808
    【優惠價】
    780-1130
    【作者】 德梅萃·P博塞卡斯 
    【出版社】清華大學出版社 
    【ISBN】9787302540328
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:清華大學出版社
    ISBN:9787302540328
    商品編碼:71815979136

    品牌:文軒
    出版時間:2020-06-01
    代碼:149

    作者:德梅萃·P.博塞卡斯

        
        
    "
    作  者:(美)德梅萃·P.博塞卡斯 著
    /
    定  價:149
    /
    出 版 社:清華大學出版社
    /
    出版日期:2020年06月01日
    /
    頁  數:373
    /
    裝  幀:平裝
    /
    ISBN:9787302540328
    /
    主編推薦
    "Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化繫統研究中心客座教授,電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和很優控制來解決,但它們的準確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。本書的等
    目錄
    ●1. Exact Dynamic Programming
    1.1. Deterministic Dynamic Programming
    1.1.1. Deterministic Problems
    1.1.2. The Dynamic Programming Algorithm
    1.1.3. Approximation in Value Space
    1.2. Stochastic Dynamic Programming
    1.3. Examples, Variations, and Simplifications
    1.3.1. Deterministic Shortest Path Problems
    1.3.2. Discrete Deterministic Optimization
    1.3.3. Problems with a Termination State
    1.3.4. Forecasts
    1.3.5. Problems with Uncontrollable State Components
    1.3.6. Partial State Information and Belief States
    1.3.7. Linear Quadratic Optimal Control
    1.3.8. Systems with Unknown Parameters - Adaptive Control
    1.4. Reinforcement Learning and Optimal Control - Some Terminology
    1.5. Notes and Sources
    2. Approximation in Value Space
    2.1. Approximation Approaches in Reinforcement Learning
    2.1.1. General Issues of Approximation in Value Space
    2.1.2. Off-Line and On-Line Methods
    2.1.3. Model-Based Simplification of the Lookahead Minimization
    2.1.4. Model-Free off-Line Q-Factor Approximation
    2.1.5. Approximation in Policy Space on Top of Approximation in Value Space
    2.1.6. When is Approximation in Value Space Effective?
    2.2. ltistep Lookahead
    2.2.1. ltistep Lookahead and Rolling Horizon
    2.2.2. ltistep Lookahead and Deterministic Problems
    2.3. Problem Approximation
    2.3.1. Enforced Decomposition
    2.3.2. Probabilistic Approximation - Certainty Equivalent Control
    2.4. Rollout and the Policy Improvement Principle
    2.4.1. On-Line Rollout for Deterministic Discrete Optimization
    2.4.2. Stochastic Rollout and Monte Carlo Tree Search
    2.4.3. Rollout with an Expert
    2.5. On-Line Rollout for Deterministic Infinite-Spaces Problems Optimization Heuristics
    2.5.1. Model Predictive Control
    2.5.2. Target Tubes and the Constrained Controllability Condition
    2.5.3. Variants of Model Predictive Control
    2.6. Notes and Sources
    3. Parametric Approximation
    3.1. Approximation Architectures
    3.1.1. Linear and Nonlinear Feature-Based Architectures
    3.1.2. Training of Linear and Nonlinear Architectures
    3.1.3. Incremental Gradient and Newton Methods
    3.2. Neural Networks
    3.2.1. Training of Neural Networks
    3.2.2. ltilayer and Deep Neural Networks
    3.3. Sequential Dynamic Programming Approximation
    3.4. Q-Factor Parametric Approximation
    3.5. Parametric Approximation in Policy Space by Classification
    3.6. Notes and Sources
    4. Infinite Horizon Dynamic Programming
    4.1. An Overview of Infinite Horizon Problems
    4.2. Stochastic Shortest Path Problems
    4.3. Discounted Problems
    4.4. Semi-Markov Discounted Problems
    4.5. Asynchronous Distributed Value Iteration
    4.6. Policy Iteration
    4.6.1. Exact Policy Iteration
    4.6.2. Optimistic and ltistep Lookahead Policy Iteration
    4.6.3. Policy Iteration for Q-factors
    4.7. Notes and Sources
    4.8. Appendix: Mathematical Analysis
    4.8.1. Proofs for Stochastic Shortest Path Problems
    4.8.2. Proofs for Discounted Problems
    4.8.3. Convergence of Exact and Optimistic Policy Iteration
    5. Infinite Horizon Reinforcement Learning
    5.1. Approximation in Value Space - Performance Bounds
    5.1.1. Limited Lookahead
    5.1.2. Rollout and Approximate Policy Improvement
    5.1.3. Approximate Policy Iteration
    5.2. Fitted Value Iteration
    5.3. Simulation-Based Policy Iteration with Parametric Approximation
    5.3.1. Self-Learning and Actor-Critic Methods
    5.3.2. Model-Based Variant of a Critic-Only Method
    5.3.3. Model-Free Variant of a Critic-Only Method
    5.3.4. Implementation Issues of Parametric Policy Iteration
    5.3.5. Convergence Issues of Parametric Policy Iteration Oscillations
    5.4. Q-Learning
    5.4.1. Optimistic Policy Iteration with Parametric Q-Factor Approximation - SARSA and DQN
    5.5. Additional Methods - Temporal Differences
    ……
    內容簡介
    本書的主要內容包括:第1章動態規劃的準確求解;第2章值空間的逼近;第3章參數逼近;第4章無限時間動態規劃;第5章無限時間強化學習;第6章集結技術。通過本書讀者可以較為全面地了解動態規劃、近似動態規劃和強化學習的理論框架、主流算法的工作原理和近期新發展。本書可用作人工智能或繫統與控制科學等相關專業的高年級本科生或研究生的教材,也適合開展相關研究工作的專業技術人員作為參考用書。
    作者簡介
    (美)德梅萃·P.博塞卡斯 著
    Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化繫統研究中心客座教授。電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    德梅萃·P博塞卡斯
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    德梅萃·P博塞卡斯
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部