[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

強化學習與最優控制
該商品所屬分類:圖書 -> 人工智能
【市場價】
1248-1808
【優惠價】
780-1130
【作者】 德梅萃·P博塞卡斯 
【出版社】清華大學出版社 
【ISBN】9787302540328
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



出版社:清華大學出版社
ISBN:9787302540328
商品編碼:71815979136

品牌:文軒
出版時間:2020-06-01
代碼:149

作者:德梅萃·P.博塞卡斯

    
    
"
作  者:(美)德梅萃·P.博塞卡斯 著
/
定  價:149
/
出 版 社:清華大學出版社
/
出版日期:2020年06月01日
/
頁  數:373
/
裝  幀:平裝
/
ISBN:9787302540328
/
主編推薦
"Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化繫統研究中心客座教授,電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。本書的目的是考慮大型且具有挑戰性的多階段決策問題,這些問題原則上可以通過動態規劃和很優控制來解決,但它們的準確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法,以產生具有足夠性能的次優策略。這些方法統稱為增強學習,也可以叫做近似動態規劃和神經動態規劃等。本書的等
目錄
●1. Exact Dynamic Programming
1.1. Deterministic Dynamic Programming
1.1.1. Deterministic Problems
1.1.2. The Dynamic Programming Algorithm
1.1.3. Approximation in Value Space
1.2. Stochastic Dynamic Programming
1.3. Examples, Variations, and Simplifications
1.3.1. Deterministic Shortest Path Problems
1.3.2. Discrete Deterministic Optimization
1.3.3. Problems with a Termination State
1.3.4. Forecasts
1.3.5. Problems with Uncontrollable State Components
1.3.6. Partial State Information and Belief States
1.3.7. Linear Quadratic Optimal Control
1.3.8. Systems with Unknown Parameters - Adaptive Control
1.4. Reinforcement Learning and Optimal Control - Some Terminology
1.5. Notes and Sources
2. Approximation in Value Space
2.1. Approximation Approaches in Reinforcement Learning
2.1.1. General Issues of Approximation in Value Space
2.1.2. Off-Line and On-Line Methods
2.1.3. Model-Based Simplification of the Lookahead Minimization
2.1.4. Model-Free off-Line Q-Factor Approximation
2.1.5. Approximation in Policy Space on Top of Approximation in Value Space
2.1.6. When is Approximation in Value Space Effective?
2.2. ltistep Lookahead
2.2.1. ltistep Lookahead and Rolling Horizon
2.2.2. ltistep Lookahead and Deterministic Problems
2.3. Problem Approximation
2.3.1. Enforced Decomposition
2.3.2. Probabilistic Approximation - Certainty Equivalent Control
2.4. Rollout and the Policy Improvement Principle
2.4.1. On-Line Rollout for Deterministic Discrete Optimization
2.4.2. Stochastic Rollout and Monte Carlo Tree Search
2.4.3. Rollout with an Expert
2.5. On-Line Rollout for Deterministic Infinite-Spaces Problems Optimization Heuristics
2.5.1. Model Predictive Control
2.5.2. Target Tubes and the Constrained Controllability Condition
2.5.3. Variants of Model Predictive Control
2.6. Notes and Sources
3. Parametric Approximation
3.1. Approximation Architectures
3.1.1. Linear and Nonlinear Feature-Based Architectures
3.1.2. Training of Linear and Nonlinear Architectures
3.1.3. Incremental Gradient and Newton Methods
3.2. Neural Networks
3.2.1. Training of Neural Networks
3.2.2. ltilayer and Deep Neural Networks
3.3. Sequential Dynamic Programming Approximation
3.4. Q-Factor Parametric Approximation
3.5. Parametric Approximation in Policy Space by Classification
3.6. Notes and Sources
4. Infinite Horizon Dynamic Programming
4.1. An Overview of Infinite Horizon Problems
4.2. Stochastic Shortest Path Problems
4.3. Discounted Problems
4.4. Semi-Markov Discounted Problems
4.5. Asynchronous Distributed Value Iteration
4.6. Policy Iteration
4.6.1. Exact Policy Iteration
4.6.2. Optimistic and ltistep Lookahead Policy Iteration
4.6.3. Policy Iteration for Q-factors
4.7. Notes and Sources
4.8. Appendix: Mathematical Analysis
4.8.1. Proofs for Stochastic Shortest Path Problems
4.8.2. Proofs for Discounted Problems
4.8.3. Convergence of Exact and Optimistic Policy Iteration
5. Infinite Horizon Reinforcement Learning
5.1. Approximation in Value Space - Performance Bounds
5.1.1. Limited Lookahead
5.1.2. Rollout and Approximate Policy Improvement
5.1.3. Approximate Policy Iteration
5.2. Fitted Value Iteration
5.3. Simulation-Based Policy Iteration with Parametric Approximation
5.3.1. Self-Learning and Actor-Critic Methods
5.3.2. Model-Based Variant of a Critic-Only Method
5.3.3. Model-Free Variant of a Critic-Only Method
5.3.4. Implementation Issues of Parametric Policy Iteration
5.3.5. Convergence Issues of Parametric Policy Iteration Oscillations
5.4. Q-Learning
5.4.1. Optimistic Policy Iteration with Parametric Q-Factor Approximation - SARSA and DQN
5.5. Additional Methods - Temporal Differences
……
內容簡介
本書的主要內容包括:第1章動態規劃的準確求解;第2章值空間的逼近;第3章參數逼近;第4章無限時間動態規劃;第5章無限時間強化學習;第6章集結技術。通過本書讀者可以較為全面地了解動態規劃、近似動態規劃和強化學習的理論框架、主流算法的工作原理和近期新發展。本書可用作人工智能或繫統與控制科學等相關專業的高年級本科生或研究生的教材,也適合開展相關研究工作的專業技術人員作為參考用書。
作者簡介
(美)德梅萃·P.博塞卡斯 著
Dimitri P. Bertseka,美國MIT終身教授,美國國家工程院院士,清華大學復雜與網絡化繫統研究中心客座教授。電氣工程與計算機科學領域國際知名作者,著有《非線性規劃》《網絡優化》《凸優化》等十幾本暢銷教材和專著。



"
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
【同作者商品】
德梅萃·P博塞卡斯
  本網站暫時沒有該作者的其它商品。
有該作者的商品通知您嗎?
請選擇作者:
德梅萃·P博塞卡斯
您的Email地址
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部