[ 收藏 ] [ 繁体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • 強化學習
    該商品所屬分類:圖書 -> 人工智能
    【市場價】
    585-848
    【優惠價】
    366-530
    【作者】 柯良軍王小強 
    【出版社】清華大學出版社 
    【ISBN】9787302532408
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:清華大學出版社
    ISBN:9787302532408
    商品編碼:66452982946

    品牌:文軒
    出版時間:2019-12-01
    代碼:69

    作者:柯良軍,王小強

        
        
    "



    作  者:柯良軍,王小強 著
    /
    定  價:69
    /
    出 版 社:清華大學出版社
    /
    出版日期:2019年12月01日
    /
    頁  數:177
    /
    裝  幀:平裝
    /
    ISBN:9787302532408
    /
    目錄
    ●第1章 緒論
    1.1 引言
    1.2 解決復雜問題的樸素思想
    1.2.1 數學建模與優化
    1.2.2 采樣和估計
    1.2.3 逼近
    1.2.4 迭代
    1.3 強化學習簡史
    1.4 本書主要內容及結構
    1.5 小結
    1.6 習題
    參考文獻
    第2章 基礎知識
    2.1 運籌學簡明基礎
    2.1.1 無約束非線性規劃優化方法
    2.1.2 KKT條件
    2.1.3 凸規劃的性質
    2.2 概率與統計簡明基礎
    2.2.1 概率論基本概念
    2.2.2 概率論的收斂定理
    2.2.3 統計學的基本概念
    2.2.4 優選似然估計法
    2.2.5 估計量的優良性評估
    2.2.6 采樣與隨機模擬
    2.2.7 Monte Carlo方法簡介
    2.2.8 重要采樣法
    2.3 小結
    2.4 習題
    參考文獻
    第一篇 基於模型的強化學習
    第3章 多搖臂問題
    3.1 動作值方法
    3.2 非平穩多搖臂問題
    3.3 UCB動作選擇
    3.4 梯度搖臂算法
    3.5 習題
    參考文獻
    第4章 Markov決策過程
    4.1 定義和記號
    4.2 有限Markov決策過程
    4.3 Bellman方程
    4.4 很優策略
    4.5 小結
    4.6 習題
    參考文獻
    第5章 動態規劃
    5.1 策略評估
    5.2 策略改進
    5.3 策略迭代
    5.4 值迭代
    5.5 異步動態規劃
    5.6 收斂性證明
    5.7 小結
    5.8 習題
    參考文獻
    第二篇 基於采樣-估計的強化學習
    第6章 策略評估
    6.1 基於Monte Carlo方法的策略評估
    6.1.1 同策略Monte Carlo策略評估
    6.1.2 異策略Monte Carlo策略評估
    6.2 基於時序差分方法的策略評估
    6.3 n步預測
    6.4 小結
    6.5 習題
    參考文獻
    第7章 策略控制
    7.1 同策略Monte Carlo控制
    7.2 同策略時序差分學習
    7.3 異策略學習
    7.4 基於TD(λ)的策略控制
    7.5 實例
    7.5.1 問題介紹
    7.5.2 MDP模型的要素
    7.5.3 策略評估
    7.5.4 策略控制
    7.6 小結
    7.7 習題
    參考文獻
    第8章 學習與規劃的整合
    8.1 模型和規劃
    8.2 Dyna:整合規劃、動作和學習
    8.3 幾個概念
    8.4 在決策關頭的規劃
    8.4.1 啟發式算法
    8.4.2 rollout算法
    8.4.3 Monte Carlo樹搜索
    8.5 小結
    8.6 習題
    參考文獻
    第三篇 基於逼近理論的強化學習
    第9章 值函數逼近
    9.1 基於隨機梯度下降法的值函數逼近
    9.2 基於隨機梯度下降法的Q-值函數逼近
    9.3 批處理
    9.3.1 線性最小二乘值函數逼近
    9.3.2 線性最小二乘Q-值函數逼近
    9.4 小結
    9.5 習題
    參考文獻
    第10章 策略逼近
    10.1 策略梯度法
    10.1.1 很優參數問題的目標函數
    10.1.2 策略梯度
    10.1.3 梯度計算
    10.1.4 REINFORCE算法
    10.2 方差減少方法
    10.2.1 利用一個評論
    10.2.2 利用基準線
    10.3 小結
    10.4 習題
    參考文獻
    第11章 信賴域策略優化
    11.1 預備知識
    11.2 單調改進一般性隨機策略的方法
    11.3 參數化策略的優化
    11.4 基於采樣的目標和約束估計
    11.5 實用算法
    11.6 小結
    11.7 習題
    參考文獻
    第四篇 深度強化學習
    第12章 深度學習
    12.1 神經網絡基礎
    12.1.1 神經網絡解決問題的基本流程
    12.1.2 激活函數
    12.1.3 損失函數
    12.1.4 優化算法
    12.2 典型深度神經網絡結構
    12.2.1 深度的作用
    12.2.2 卷積神經網絡
    12.2.3 循環神經網絡
    參考文獻
    第13章 深度Q-網絡
    13.1 DQN原理
    13.1.1 預處理
    13.1.2 網絡結構
    13.1.3 算法
    13.1.4 深度Q-網絡的訓練算法
    13.1.5 算法詳細說明
    13.2 DQN實例
    13.2.1 Atari 2600遊戲介紹
    13.2.2 DQN算法的實現
    13.3 小結
    13.4 習題
    參考文獻
    第14章 深度確定性策略梯度
    14.1 DDPG算法介紹
    14.1.1 DDPG算法的發展介紹
    14.1.2 DDPG算法的原理解析
    14.2 DDPG算法的實現
    14.2.1 oco的安裝及使用
    14.2.2 DDPG算法的實現解析
    14.2.3 DDPG算法的訓練和測試
    參考文獻
    第15章 多智能體強化學習
    15.1 多智能體強化學習介紹
    15.1.1 多智能體強化學習的發展簡述
    15.1.2 隨機博弈
    15.1.3 納什Q-學習
    15.2 平均場多智能體強化學習原理
    15.2.1 平均場近似理論
    15.2.2 平均場多智能體強化學習算法
    15.3 平均場多智能體實驗
    15.3.1 MAgent平臺
    15.3.2 混合合作-競爭的戰鬥遊戲介紹
    15.3.3 MF-Q和MF-AC算法的實現解析
    15.3.4 戰鬥遊戲的訓練與測試
    參考文獻
    內容簡介
    本書介紹強化學習原理、算法及其實現。內容涉及基於模型的強化學習、基於采樣-估計的強化學習、基於逼近理論的強化學習及深度強化學習等。本書以教學為目標進行選材,力求闡述嚴謹、重點突出、深入淺出,以便於教學與自學。本書面向所有對強化學習感興趣的讀者,可作為高等學校理工科高年級本科生、研究生強化學習課程教材或參考書。



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    柯良軍王小強
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    柯良軍王小強
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部