[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  •  管理

     一般管理学
     市场/营销
     会计
     金融/投资
     经管音像
     电子商务
     创业企业与企业家
     生产与运作管理
     商务沟通
     战略管理
     商业史传
     MBA
     管理信息系统
     工具书
     外文原版/影印版
     管理类职称考试
     WTO
     英文原版书-管理
  •  投资理财

     证券/股票
     投资指南
     理财技巧
     女性理财
     期货
     基金
     黄金投资
     外汇
     彩票
     保险
     购房置业
     纳税
     英文原版书-投资理财
  •  经济

     经济学理论
     经济通俗读物
     中国经济
     国际经济
     各部门经济
     经济史
     财政税收
     区域经济
     统计 审计
     贸易政策
     保险
     经济数学
     各流派经济学说
     经济法
     工具书
     通货膨胀
     财税外贸保险类考试
     英文原版书-经济
  •  社会科学

     语言文字
     社会学
     文化人类学/人口学
     新闻传播出版
     社会科学总论
     图书馆学/档案学
     经典名家作品集
     教育
     英文原版书-社会科学
  •  哲学

     哲学知识读物
     中国古代哲学
     世界哲学
     哲学与人生
     周易
     哲学理论
     伦理学
     哲学史
     美学
     中国近现代哲学
     逻辑学
     儒家
     道家
     思维科学
     马克思主义哲学
     经典作品及研究
     科学哲学
     教育哲学
     语言哲学
     比较哲学
  •  宗教

  •  心理学

  •  古籍

     经部  史类  子部  集部  古籍管理  古籍工具书  四库全书  古籍善本影音本  中国藏书
  •  文化

     文化评述  文化随笔  文化理论  传统文化  世界各国文化  文化史  地域文化  神秘文化  文化研究  民俗文化  文化产业  民族文化  书的起源/书店  非物质文化遗产  文化事业  文化交流  比较文化学
  •  历史

     历史普及读物
     中国史
     世界史
     文物考古
     史家名著
     历史地理
     史料典籍
     历史随笔
     逸闻野史
     地方史志
     史学理论
     民族史
     专业史
     英文原版书-历史
     口述史
  •  传记

  •  文学

  •  艺术

     摄影
     绘画
     小人书/连环画
     书法/篆刻
     艺术设计
     影视/媒体艺术
     音乐
     艺术理论
     收藏/鉴赏
     建筑艺术
     工艺美术
     世界各国艺术概况
     民间艺术
     雕塑
     戏剧艺术/舞台艺术
     艺术舞蹈
     艺术类考试
     人体艺术
     英文原版书-艺术
  •  青春文学

  •  文学

     中国现当代随笔
     文集
     中国古诗词
     外国随笔
     文学理论
     纪实文学
     文学评论与鉴赏
     中国现当代诗歌
     外国诗歌
     名家作品
     民间文学
     戏剧
     中国古代随笔
     文学类考试
     英文原版书-文学
  •  法律

     小说
     世界名著
     作品集
     中国古典小说
     四大名著
     中国当代小说
     外国小说
     科幻小说
     侦探/悬疑/推理
     情感
     魔幻小说
     社会
     武侠
     惊悚/恐怖
     历史
     影视小说
     官场小说
     职场小说
     中国近现代小说
     财经
     军事
  •  童书

  •  成功/励志

  •  政治

  •  军事

  •  科普读物

  •  计算机/网络

     程序设计
     移动开发
     人工智能
     办公软件
     数据库
     操作系统/系统开发
     网络与数据通信
     CAD CAM CAE
     计算机理论
     行业软件及应用
     项目管理 IT人文
     计算机考试认证
     图形处理 图形图像多媒体
     信息安全
     硬件
     项目管理IT人文
     网络与数据通信
     软件工程
     家庭与办公室用书
  •  建筑

     执业资格考试用书  室内设计/装潢装修  标准/规范  建筑科学  建筑外观设计  建筑施工与监理  城乡规划/市政工程  园林景观/环境艺术  工程经济与管理  建筑史与建筑文化  建筑教材/教辅  英文原版书-建筑
  •  医学

     中医
     内科学
     其他临床医学
     外科学
     药学
     医技学
     妇产科学
     临床医学理论
     护理学
     基础医学
     预防医学/卫生学
     儿科学
     医学/药学考试
     医院管理
     其他医学读物
     医学工具书
  •  自然科学

     数学
     生物科学
     物理学
     天文学
     地球科学
     力学
     科技史
     化学
     总论
     自然科学类考试
     英文原版书-自然科学
  •  工业技术

     环境科学
     电子通信
     机械/仪表工业
     汽车与交通运输
     电工技术
     轻工业/手工业
     化学工业
     能源与动力工程
     航空/航天
     水利工程
     金属学与金属工艺
     一般工业技术
     原子能技术
     安全科学
     冶金工业
     矿业工程
     工具书/标准
     石油/天然气工业
     原版书
     武器工业
     英文原版书-工业技
  •  农业/林业

     园艺  植物保护  畜牧/狩猎/蚕/蜂  林业  动物医学  农作物  农学(农艺学)  水产/渔业  农业工程  农业基础科学  农林音像
  •  外语

  •  考试

  •  教材

  •  工具书

  •  中小学用书

  •  中小学教科书

  •  动漫/幽默

  •  烹饪/美食

  •  时尚/美妆

  •  旅游/地图

  •  家庭/家居

  •  亲子/家教

  •  两性关系

  •  育儿/早教

  •  保健/养生

  •  体育/运动

  •  手工/DIY

  •  休闲/爱好

  •  英文原版书

  •  港台图书

  •  研究生
     工学
     公共课
     经济管理
     理学
     农学
     文法类
     医学

  •  音乐
     音乐理论

     声乐  通俗音乐  音乐欣赏  钢琴  二胡  小提琴
  • 強化學習與最優控制
    該商品所屬分類:計算機/網絡 -> 計算機/網絡
    【市場價】
    739-1070
    【優惠價】
    462-669
    【作者】 美德梅萃·P 
    【所屬類別】 圖書  計算機/網絡  人工智能  機器學習 
    【出版社】清華大學出版社 
    【ISBN】9787302540328
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    開本:16開
    紙張:膠版紙
    包裝:平裝-膠訂

    是否套裝:否
    國際標準書號ISBN:9787302540328
    叢書名:國際知名大學原版教材——信息技術學科與電氣工程學科繫列

    作者:[美]德梅萃·P.
    出版社:清華大學出版社
    出版時間:2020年06月 


        
        
    "

    編輯推薦

    Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化繫統研究中心客座教授,電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和*控制來解決,但它們的精確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。
    本書的主題產生於*控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界,並架設一座具有任一領域背景的專業人士都可以訪問的橋梁。

     
    內容簡介

    本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和*控制來解決,但它們的精確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。 本書的主題產生於*控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界,並架設一座具有任一領域背景的專業人士都可以訪問的橋梁。

    作者簡介

    Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化繫統研究中心客座教授。電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。

    目錄
    1 Exact Dynamic Programming
    1.1 DeterministicDynamicProgramming 2
    1.1.1 DeterministicProblems 2
    1.1.2 TheDynamicProgrammingAlgorithm 7
    1.1.3 Approximation inValue Space 12
    1.2 StochasticDynamicProgramming 14
    1.3 Examples,Variations, and Simplifications 18
    1.3.1 Deterministic ShortestPathProblems 19
    1.3.2 DiscreteDeterministicOptimization 21
    1.3.3 Problemswith aTermination State 25
    1.3.4 Forecasts 26
    1.3.5 Problems with Uncontrollable State Components 29
    1.3.6 PartialState Information andBelief States 34
    1.3.7 LinearQuadraticOptimalControl 38

    1  Exact Dynamic Programming


    1.1  DeterministicDynamicProgramming           2


    1.1.1  DeterministicProblems              2


    1.1.2  TheDynamicProgrammingAlgorithm        7


    1.1.3  Approximation inValue Space           12


    1.2  StochasticDynamicProgramming             14


    1.3  Examples,Variations, and Simplifications         18


    1.3.1  Deterministic ShortestPathProblems        19


    1.3.2  DiscreteDeterministicOptimization         21


    1.3.3  Problemswith aTermination State         25


    1.3.4  Forecasts                     26


    1.3.5  Problems with Uncontrollable State Components   29


    1.3.6  PartialState Information andBelief States      34


    1.3.7  LinearQuadraticOptimalControl          38


    1.3.8  SystemswithUnknownParameters -Adaptive


    Control                     40


    1.4  ReinforcementLearning andOptimalControl - Some     


    Terminology                      43


    1.5  Notes and Sources                   45


    2  Approximation in Value Space


    2.1  ApproximationApproaches inReinforcementLearning    50


    2.1.1  General Issues ofApproximation inValue Space    54


    2.1.2  Off-Line andOn-LineMethods           56


    2.1.3  Model-Based Simplification of the Lookahead     


    Minimization                   57


    2.1.4  Model-Free off-Line Q-Factor Approximation    58


    2.1.5  Approximation inPolicy Space onTop of       


    ApproximationinValue Space           61


    2.1.6  When is Approximation in Value Space Effective?   62


    2.2  Multistep Lookahead                  64


    ??ii


    viii Contents


    2.2.1  Multistep Lookahead and Rolling Horizon      65


    2.2.2  Multistep Lookahead and Deterministic Problems   67


    2.3  Problem Approximation                 69


    2.3.1  Enforced Decomposition              69


    2.3.2  Probabilistic Approximation - Certainty Equivalent   


    Control                     76


    2.4  Rollout and the Policy Improvement Principle       83


    2.4.1  On-Line Rollout for Deterministic Discrete       


    Optimization                   84


    2.4.2  Stochastic Rollout and Monte Carlo Tree Search   95


    2.4.3  Rollout with an Expert             104


    2.5  On-Line Rollout for Deterministic Infinite-Spaces Problems -  


    Optimization Heuristics                106


    2.5.1  Model Predictive Control             108


    2.5.2  Target Tubes and the Constrained Controllability    


    Condition                   115


    2.5.3  Variants of Model Predictive Control       118


    2.6  Notes and Sources                  120


    3  Parametric Approximation


    3.1  Approximation Architectures              126


    3.1.1  Linear and Nonlinear Feature-Based Architectures  126


    3.1.2  Training of Linear and Nonlinear Architectures   134


    3.1.3  Incremental Gradient and Newton Methods     135


    3.2  Neural Networks                   149


    3.2.1  Training of Neural Networks           153


    3.2.2  Multilayer and Deep Neural Networks       157


    3.3  Sequential Dynamic Programming Approximation     161


    3.4  Q-Factor Parametric Approximation           162


    3.5  Parametric Approximation in Policy Space by        


    Classification                     165


    3.6  Notes and Sources                  171


    4  Infinite Horizon Dynamic Programming


    4.1  An Overview of Infinite Horizon Problems        174


    4.2  Stochastic Shortest Path Problems           177


    4.3  Discounted Problems                 187


    4.4  Semi-Markov Discounted Problems           192


    4.5  Asynchronous Distributed Value Iteration        197


    4.6  Policy Iteration                   200


    4.6.1  Exact Policy Iteration              200


    4.6.2  Optimistic and Multistep Lookahead Policy      


    Iteration                    205


    4.6.3  Policy Iteration for Q-factors           208


    Contents i??


    4.7  Notes and Sources                  209


    4.8  Appendix: MathematicalAnalysis           211


    4.8.1  Proofs for Stochastic ShortestPathProblems    212


    4.8.2  Proofs forDiscountedProblems          217


    4.8.3  ConvergenceofExact andOptimistic         


    Policy Iteration                218


    5  Infinite Horizon Reinforcement Learning


    5.1  Approximation in Value Space - Performance Bounds   222


    5.1.1  LimitedLookahead               224


    5.1.2  Rollout and Approximate Policy Improvement   227


    5.1.3  ApproximatePolicy Iteration           232


    5.2  FittedValue Iteration                 235


    5.3  Simulation-BasedPolicy IterationwithParametric      


    Approximation                    239


    5.3.1  Self-Learning andActor-CriticMethods      239


    5.3.2  Model-Based Variant of a Critic-Only Method   241


    5.3.3  Model-FreeVariant of aCritic-OnlyMethod    243


    5.3.4  Implementation Issues ofParametricPolicy      


    Iteration                    246


    5.3.5  Convergence Issues ofParametricPolicy Iteration -   


    Oscillations                   249


    5.4  Q-Learning                     253


    5.4.1  Optimistic Policy Iteration with Parametric Q-Factor  


    Approximation- SARSAandDQN        255


    5.5  AdditionalMethods -TemporalDifferences       256


    5.6  Exact andApproximateLinearProgramming      267


    5.7  Approximation inPolicy Space             270


    5.7.1  Training byCostOptimization -PolicyGradient,    


    Cross-Entropy,andRandomSearchMethods    276


    5.7.2  Expert-BasedSupervisedLearning        286


    5.7.3  ApproximatePolicy Iteration,Rollout, and      


    ApproximationinPolicySpace          288


    5.8  Notes and Sources                  293


    5.9  Appendix: MathematicalAnalysis           298


    5.9.1  Performance Bounds for Multistep Lookahead    299


    5.9.2  Performance Bounds for Rollout          301


    5.9.3  Performance Bounds for Approximate Policy      


    Iteration                    304


    6  Aggregation


    6.1  AggregationwithRepresentativeStates         308


    6.1.1  Continuous State and Control Space Discretization  p  314


    6.1.2  Continuous State Space - POMDP Discretization  315


    ?? Contents


    6.2  AggregationwithRepresentativeFeatures        317


    6.2.1  Hard Aggregation and Error Bounds        320


    6.2.2  AggregationUsingFeatures            322


    6.3  Methods for Solving theAggregateProblem       328


    6.3.1  Simulation-BasedPolicy Iteration         328


    6.3.2  Simulation-Based Value Iteration         331


    6.4  Feature-BasedAggregationwith aNeuralNetwork    332


    6.5  BiasedAggregation                  334


    6.6  Notes and Sources                  337


    6.7  Appendix: MathematicalAnalysis           340


    References                       345


    Index                          369

    前言
    Turning to the succor of modern computing machines, let us
    renounce all analytic tools.
    Richard Bellman [Bel57]
    From a teleological point of view the particular numerical solution
    of any particular set of equations is of far less importance than
    the understanding of the nature of the solution.
    Richard Bellman [Bel57]
    In this book we consider large and challenging multistage decision problems,
    which can be solved in principle by dynamic programming (DP for short),

    Turning to the succor of modern computing machines, let us


    renounce all analytic tools.


    Richard Bellman [Bel57]


    From a teleological point of view the particular numerical solution


    of any particular set of equations is of far less importance than


    the understanding of the nature of the solution.


    Richard Bellman [Bel57]


    In this book we consider large and challenging multistage decision problems,


    which can be solved in principle by dynamic programming (DP for short),


    but their exact solution is computationally intractable. We discuss solution


    methods that rely on approximations to produce suboptimal policies with


    adequate performance. These methods are collectively known by several


    essentially equivalent names: reinforcement learning, approximate dynamic


    programming, and neuro-dynamic programming. We will use primarily the


    most popular name: reinforcement learning.


    Our subject has benefited greatly from the interplay of ideas from


    optimal control and from artificial intelligence. One of the aims of the


    book is to explore the common boundary between these two fields and to


    form a bridge that is accessible by workers with background in either field.


    Another aim is to organize coherently the broad mosaic of methods that


    have proved successful in practice while having a solid theoretical and/or


    logical foundation. This may help researchers and practitioners to find


    their way through the maze of competing ideas that constitute the current


    state of the art.


    There are two general approaches for DP-based suboptimal control.


    The first is approximation in value space, where we approximate in some


    way the optimal cost-to-go function with some other function. The major


    alternative to approximation in value space is approximation in policy


    space, whereby we select the policy by using optimization over a suitably


    restricted class of policies, usually a parametric family of some form. In


    some schemes these two types of approximation may be combined, aiming


    to capitalize on the advantages of both. Generally, approximation in value


    space is tied more closely to the central DP ideas of value and policy iteration


    than approximation in policy space, which relies on gradient-like


    descent, a more broadly applicable optimization mechanism.


    While we provide a substantial treatment of approximation in policy


    space, most of the book is focused on approximation in value space. Here,


    the control at each state is obtained by optimization of the cost over a


    limited horizon, plus an approximation of the optimal future cost. The


    latter cost, which we generally denote by ? J, is a function of the state where


    we may be. It may be computed by a variety of methods, possibly involving


    simulation and/or some given or separately derived heuristic/suboptimal


    policy. The use of simulation often allows for implementations that do not


    require a mathematical model, a major idea that has allowed the use of DP


    beyond its classical boundaries.


    We discuss selectively four types of methods for obtaining J?:


    (a) Problem approximation: Here ? J is the optimal cost function of a related


    simpler problem, which is solved by exact DP. Certainty equivalent


    control and enforced decomposition schemes are discussed in


    some detail.


    (b) Rollout and model predictive control: Here ? J is the cost function of


    some known heuristic policy. The needed cost values to implement a


    rollout policy are often calculated by simulation. While this method


    applies to stochastic problems, the reliance on simulation favors deterministic


    problems, including challenging combinatorial problems


    for which heuristics may be readily implemented. Rollout may also


    be combined with adaptive simulation and Monte Carlo tree search,


    which have proved very effective in the context of games such as


    backgammon, chess, Go, and others.


    Model predictive control was originally developed for continuousspace


    optimal control problems that involve some goal state, e.g.,


    the origin in a classical control context. It can be viewed as a specialized


    rollout method that is based on a suboptimal optimization for


    reaching a goal state.


    (c) Parametric cost approximation: Here ? J is chosen from within a parametric


    class of functions, including neural networks, with the parameters


    “optimized” or “trained” by using state-cost sample pairs and


    some type of incremental least squares/regression algorithm. Approximate


    policy iteration and its variants are covered in some detail,


    including several actor and critic schemes. These involve policy evaluation


    with simulation-based training methods, and policy improve


    ......


    Dimitri P. Bertsekas


    June 2019

















     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部