[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • 深度強化學習實踐(原書第2版) 圖書
    該商品所屬分類:圖書 -> 科技
    【市場價】
    1137-1648
    【優惠價】
    711-1030
    【作者】 馬克西姆·拉潘 
    【出版社】機械工業出版社 
    【ISBN】9787111687382
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:機械工業出版社
    ISBN:9787111687382
    商品編碼:10036266447822

    品牌:文軒
    出版時間:2021-08-01
    代碼:149

    作者:馬克西姆·拉潘

        
        
    "
    作  者:(俄羅斯)馬克西姆·拉潘 著 林然,王薇 譯
    /
    定  價:149
    /
    出 版 社:機械工業出版社
    /
    出版日期:2021年08月01日
    /
    頁  數:636
    /
    裝  幀:平裝
    /
    ISBN:9787111687382
    /
    主編推薦
    本書包括新的強化學習工具和技術,介紹了強化學習的基礎知識,以及如何動手編寫智能體以執行一繫列實際任務。 本書較上一版新增6章,專門介紹了強化學習的新發展,包括離散優化(解決魔方問題)、多智能體方法、Microsoft的TextWorld環境、高級探索技術等。學完本書,你將對這個新興領域的前沿技術有深刻的理解。 此外,你將獲得對深度Q-network、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等領域的可行洞見,還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人,並通過逐步代碼等
    目錄
    ●譯者序
    前言
    作者簡介
    審校者簡介
    第1章什麼是強化學習
    1.1機器學習分類
    1.1.1監督學習
    1.1.2非監督學習
    1.1.3強化學習
    1.2強化學習的復雜性
    1.3強化學習的形式
    1.3.1獎勵
    1.3.2智能體
    1.3.3環境
    1.3.4動作
    1.3.5觀察
    1.4強化學習的理論基礎
    1.4.1馬爾可夫決策過程
    1.4.2策略
    1.5總結
    第2章OpenAIGym
    2.1剖析智能體
    2.2硬件和軟件要求
    2.30penAIGymAPI
    2.3.1動作空間
    2.3.2觀察空間
    2.3.3環境
    2.3.4創建環境
    2.3.5車擺繫統
    2.4隨機CartPole智能體
    2.5Gym的額外功能:包裝器和監控器
    2.5.1包裝器
    2.5.2監控器
    2.6總結
    第3章使用PyTorch進行深度學習
    3.1張量
    3.1.1創建張量
    3.1.2零維張量
    3.1.3張量操作
    3.1.4GPU張量
    3.2梯度
    3.3NN構建塊
    3.4自定義層
    3.5最終黏合劑:損失函數和優化器
    3.5.1損失函數
    3.5.2優化器
    3.6使用TensorBoard進行監控
    3.6.1TensorBOard101
    3.6.2繪圖
    3.7示例:將GAN應用於Atari圖像
    3.8PyTorchlgnite
    3.9總結
    第4章交叉熵方法
    4.1RL方法的分類
    4.2交叉熵方法的實踐
    4.3交叉熵方法在CartPole中的應用
    4.4交叉熵方法在FrozenLake中的應用
    4.5交叉熵方法的理論背景
    4.6總結
    第5章表格學習和Bellman方程
    5.1價值、狀態和很優性
    5.2很好Bellman方程
    5.3動作的價值
    5.4價值迭代法
    5.5價值迭代實踐
    5.6Q-Iearning在FrozenLake中的應用
    5.7總結
    第6章深度Q.network
    6.1現實的價值迭代
    6.2表格Q-Iearning
    6.3深度Q-learning
    6.3.1與環境交互
    6.3.2SGD優化
    6.3.3步驟之間的相關性
    6.3.4馬爾可夫性質
    6.3.5DQN訓練的最終形式
    6.4DQN應用於Pong遊戲
    6.4.1包裝器
    6.4.2DQN模型
    6.4.3訓練
    6.4.4運行和性能
    6.4.5模型實戰
    6.5可以嘗試的事情
    6.6總結
    第7章高級強化學習庫
    7.1為什麼使用強化學習庫
    7.2PTAN庫
    7.2.1動作選擇器
    7.2.2智能體
    7.2.3經驗源
    7.2.4經驗回放緩衝區
    7.2.5TargetNet類
    7.2.6Ignite幫助類
    7.3PTAN版本的CartPole解決方案
    7.4其他強化學習庫
    7.5總結
    第8章DQN擴展
    8.1基礎DQN
    8.1.1通用庫
    8.1.2實現
    8.1.3結果
    8.2N步DQN
    ……
    內容簡介
    本書理論與實踐相結合,繫統闡述強化學習的基礎知識,以及如何動手編寫智能體以執行一繫列實際任務。通過閱讀本書,讀者將獲得深層Q網絡、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等主題領域的可行洞見,還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬件機器人,並通過一步步代碼優化在短短30分鐘的訓練後解決Pong環境。此外,本書還專門介紹了強化學習的新發展,包括離散優化(解決魔方問題)、多智能體方法、Microsoft的TextWorld環境、高級探索技術等。



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    馬克西姆·拉潘
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    馬克西姆·拉潘
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部