[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

  • 新类目

     管理
     投资理财
     经济
     社会科学
  • 深度強化學習 基於Python的理論及實踐 圖書
    該商品所屬分類:圖書 -> 大中專教材
    【市場價】
    1115-1616
    【優惠價】
    697-1010
    【作者】 勞拉·格雷澤龔輝倫 
    【折扣說明】一次購物滿999元台幣免運費+贈品
    一次購物滿2000元台幣95折+免運費+贈品
    一次購物滿3000元台幣92折+免運費+贈品
    一次購物滿4000元台幣88折+免運費+贈品
    【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
    版本正版全新電子版PDF檔
    您已选择: 正版全新
    溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
    *. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
    *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
    *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
    內容介紹



    出版社:機械工業出版社
    ISBN:9787111689331
    商品編碼:10038205179461

    品牌:文軒
    出版時間:2021-09-01
    代碼:119

    作者:勞拉·格雷澤,龔輝倫

        
        
    "
    作  者:(美)勞拉·格雷澤,(美)龔輝倫 著 許靜 等 譯
    /
    定  價:119
    /
    出 版 社:機械工業出版社
    /
    出版日期:2021年09月01日
    /
    頁  數:308
    /
    裝  幀:平裝
    /
    ISBN:9787111689331
    /
    主編推薦
    闡述深度強化機器學習理論和優化算法。圍繞深度強化學習的體繫特征進行深入淺出地講解探討,特點鮮明。本書采用端到端的方式引入深度強化學習,即從感性認識開始,而後解釋理論和算法,*後提供代碼實現和實用性技巧。
    目錄
    ●贊譽
    譯者序
    序言
    前言
    致謝
    第1章強化學習簡介1
    1.1強化學習1
    1.2強化學習中的MDP4
    1.3強化學習中的學習函數7
    1.4深度強化學習算法9
    1.4.1基於策略的算法9
    1.4.2基於值的算法10
    1.4.3基於模型的算法10
    1.4.4組合方法11
    1.4.5本書中的算法12
    1.4.6同策略和異策略算法12
    1.4.7小結12
    1.5強化學習中的深度學習13
    1.6強化學習與監督學習14
    1.6.1缺乏先知14
    1.6.2反饋稀疏性15
    1.6.3數據生成15
    1.7總結16
    第一部分基於策略的算法和基於值的算法
    第2章REINFORCE18
    2.1策略18
    2.2目標函數19
    2.3策略梯度19
    2.3.1策略梯度推導20
    2.4蒙特卡羅采樣22
    2.5REINFORCE算法23
    2.5.1改進的REINFORCE算法23
    2.6實現REINFORCE24
    2.6.1一種最小化REINFORCE的實現24
    2.6.2用PyTorch構建策略26
    2.6.3采樣動作28
    2.6.4計算策略損失29
    2.6.5REINFORCE訓練循環30
    2.6.6同策略內存回放31
    2.7訓練REINFORCE智能體33
    2.8實驗結果36
    2.8.1實驗:評估因子γ的影響36
    2.8.2實驗:評估基準線的影響37
    2.9總結39
    2.10擴展閱讀39
    2.11歷史回顧39
    第3章SARSA40
    3.1Q函數和V函數40
    3.2時序差分學習42
    3.2.1時間差分學習示例44
    3.3SARSA中的動作選擇48
    3.3.1探索和利用49
    3.4SARSA算法50
    3.4.1同策略算法51
    3.5實現SARSA52
    3.5.1動作函數:ε-貪婪52
    3.5.2計算Q損失52
    3.5.3SARSA訓練循環54
    3.5.4同策略批處理內存回放55
    3.6訓練SARSA智能體56
    3.7實驗結果58
    3.7.1實驗:評估學習率的影響58
    3.8總結60
    3.9擴展閱讀60
    3.10歷史回顧60
    第4章深度Q網絡62
    4.1學習DQN中的Q函數62
    4.2DQN中的動作選擇64
    4.2.1Boltzmann策略65
    4.3經驗回放67
    4.4DQN算法68
    4.5實現DQN69
    4.5.1計算Q損失70
    4.5.2DQN訓練循環70
    4.5.3內存回放71
    4.6訓練DQN智能體74
    4.7實驗結果77
    4.7.1實驗:評估網絡架構的影響77
    4.8總結78
    4.9擴展閱讀79
    4.10歷史回顧79
    第5章改進的深度Q網絡80
    5.1目標網絡80
    5.2雙重DQN算法82
    5.3優先級經驗回放85
    5.3.1重要性抽樣86
    5.4實現改進的DQN88
    5.4.1網絡初始化88
    5.4.2計算Q損失89
    5.4.3更新目標網絡90
    5.4.4包含目標網絡的DQN91
    5.4.5雙重DQN91
    5.4.6優先級經驗回放91
    5.5訓練DQN智能體玩Atari遊戲96
    5.6實驗結果101
    5.6.1實驗:評估雙重DQN與PER的影響101
    5.7總結104
    5.8擴展閱讀104
    第二部分組合方法
    第6章優勢演員-評論家算法106
    6.1演員106
    6.2評論家107
    6.2.1優勢函數107
    6.2.2學習優勢函數110
    6.3A2C算法111
    6.4實現A2C113
    6.4.1優勢估計113
    6.4.2計算值損失和策略損失115
    6.4.3演員-評論家訓練循環116
    6.5網絡架構117
    6.6訓練A2C智能體118
    6.6.1在Pong上使用n步回報的A2C算法118
    6.6.2在Pong上使用GAE的A2C算法121
    6.6.3在BipedalWalker上使用n步回報的A2C算法122
    6.7實驗結果124
    6.7.1實驗:評估n步回報的影響124
    6.7.2實驗:評估GAE中λ的影響126
    6.8總結127
    6.9擴展閱讀128
    6.10歷史回顧128
    第7章近端策略優化算法130
    7.1替代目標函數130
    7.1.1性能突然下降130
    7.1.2修改目標函數132
    7.2近端策略優化136
    7.3PPO算法139
    7.4實現PPO141
    7.4.1計算PPO的策略損失141
    7.4.2PPO訓練循環142
    7.5訓練PPO智能體143
    7.5.1在Pong上使用PPO算法143
    7.5.2在BipedalWalker上使用PPO算法146
    7.6實驗結果149
    7.6.1實驗:評估GAE中λ的影響149
    7.6.2實驗:評估裁剪變量ε的影響150
    7.7總結152
    7.8擴展閱讀152
    第8章並行方法153
    8.1同步並行153
    8.2異步並行154
    8.2.1Hogwild!算法155
    8.3訓練A3C智能體157
    8.4總結160
    8.5擴展閱讀160
    第9章算法總結161
    第三部分實踐細節
    第10章深度強化學習工程實踐164
    10.1軟件工程實踐164
    10.1測試164
    10.1.2代碼質量169
    10.1.3Git工作流170
    10.2調試技巧171
    10.2.1生命跡像172
    10.2.2策略梯度診斷172
    10.2.3數據診斷173
    10.2.4預處理器174
    10.2.5內存174
    10.2.6算法函數174
    10.2.7神經網絡175
    10.2.8算法簡化177
    10.2.9問題簡化177
    10.2.10超參數178
    10.2.11實驗室工作流178
    10.3Atari技巧179
    10.4深度強化學習小結181
    10.4.1超參數表181
    10.4.2算法性能比較184
    10.5總結186
    第11章SLM Lab187
    11.1SLM Lab算法實現187
    11.2spec文件188
    11.2.1搜索spec語法190
    11.3運行SLM Lab192
    11.3.1SLM Lab指令193
    11.4分析實驗結果193
    11.4.1實驗數據概述193
    11.5總結195
    第12章神經網絡架構196
    12.1神經網絡的類型196
    12.1.1多層感知機196
    12.1.2卷積神經網絡198
    12.1.3循環神經網絡199
    12.2選擇網絡族的指導方法199
    12.2.1MDP與POMDP200
    12.2.2根據環境選擇網絡202
    12.3網絡API204
    12.3.1輸入層和輸出層形狀推斷205
    12.3.2自動構建網絡207
    12.3.3訓練步驟209
    12.3.4基礎方法的使用210
    12.4總結211
    12.5擴展閱讀212
    第13章硬件213
    13.1計算機213
    13.2數據類型217
    13.3在強化學習中優化數據類型219
    13.4選擇硬件222
    13.5總結223
    第四部分環境設計
    第14章狀態226
    14.1狀態示例226
    14.2狀態完整性231
    14.3狀態復雜性231
    14.4狀態信息損失235
    14.4.1圖像灰度235
    14.4.2離散化235
    14.4.3散列衝突236
    14.信息損失236
    14.5預處理238
    14.5.1標準化239
    14.5.2圖像預處理240
    14.5.3時間預處理241
    14.6總結244
    第15章動作245
    15.1動作示例245
    15.2動作完整性247
    15.3動作復雜性248
    15.4總結251
    15.5擴展閱讀:日常事務中的動作設計252
    第16章獎勵255
    16.1獎勵的作用255
    16.2獎勵設計準則256
    16.3總結259
    第17章轉換函數260
    17.1可行性檢測260
    17.2真實性檢測262
    17.3總結263後記264
    附錄A深度強化學習時間線267
    附錄B示例環境269
    參考文獻274
    內容簡介
    本書圍繞深度強化學習進行講解,結構合理有序,內容重點突出,理論結合實踐,全面討論了深度強化學習的研究成果及實踐工具。本書分為四部分,共17章,涉及的主要內容包括:REINFORCE、SARSA、深度Q網絡、改進的深度Q網絡、優勢演員-評論家算法、近端策略優化算法、並行方法、深度強化學習工程實踐、SLMLab、神經網絡架構、硬件、狀態、動作、獎勵、轉換函數等。
    本書可以作為高等院校人工智能、計算機、大數據等相關專業的本科或研究生教材,也可以作為人工智能相關領域的硏究人員和技術人員的參考書籍。



    "
     
    網友評論  我們期待著您對此商品發表評論
     
    相關商品
    【同作者商品】
    勞拉·格雷澤龔輝倫
      本網站暫時沒有該作者的其它商品。
    有該作者的商品通知您嗎?
    請選擇作者:
    勞拉·格雷澤龔輝倫
    您的Email地址
    在線留言 商品價格為新臺幣
    關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
    DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
    返回頂部