[ 收藏 ] [ 简体中文 ]  
臺灣貨到付款、ATM、超商、信用卡PAYPAL付款,4-7個工作日送達,999元臺幣免運費   在線留言 商品價格為新臺幣 
首頁 電影 連續劇 音樂 圖書 女裝 男裝 童裝 內衣 百貨家居 包包 女鞋 男鞋 童鞋 計算機周邊

商品搜索

 类 别:
 关键字:
    

商品分类

深入淺出強化學習 編程實戰
該商品所屬分類:圖書 -> 科技
【市場價】
617-896
【優惠價】
386-560
【作者】 郭憲宋俊瀟方勇純 
【折扣說明】一次購物滿999元台幣免運費+贈品
一次購物滿2000元台幣95折+免運費+贈品
一次購物滿3000元台幣92折+免運費+贈品
一次購物滿4000元台幣88折+免運費+贈品
【本期贈品】①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
版本正版全新電子版PDF檔
您已选择: 正版全新
溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。
*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。
*. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。
*. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。
內容介紹



出版社:電子工業出版社
ISBN:9787121367465
商品編碼:66801099146

品牌:文軒
出版時間:2020-03-01
代碼:89

作者:郭憲,宋俊瀟,方勇純

    
    
"
作  者:郭憲,宋俊瀟,方勇純 著
/
定  價:89
/
出 版 社:電子工業出版社
/
出版日期:2020年03月01日
/
頁  數:264
/
裝  幀:平裝
/
ISBN:9787121367465
/
主編推薦
"本書是《深入淺出強化學習:原理入門》的姐妹篇。1 實戰性強:以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法並快速應用。2 繫統全面:在馬爾可夫理論框架下,介紹了基本的算法,涵蓋了基於值函數的算法,直接策略搜索方法,基於模型的強化學習方法等。3 前沿技術分析:剖析了AlphaZero強大技術背後的深度強化學習原理,並介紹了它在五子棋上的具體實現。4 操作性強:讀者可根據書中的代碼直接上手,並通過修改程序中的超參數,親自體會算法原理。"
目錄
●第0篇先導篇1
1一個極其簡單的強化學習實例2
1.1多臂2
1.1.1??greedy策略3
1.1.2玻爾茲曼策略.6
1.1.3UCB策略7
1.2多臂代碼實現7
2馬爾可夫決策過程13
2.1從多臂到馬爾可夫決策過程13
2.2馬爾可夫決策過程代碼實現23
篇基於值函數的方法31
3基於動態規劃的方法32
3.1策略迭代與值迭代.32
3.1.1策略迭代算法原理33
3.1.2值迭代算法原理35
3.2策略迭代和值迭代的代碼實現36
3.2.1鴛鴦環境的修改36
3.2.2策略迭代算法代碼實現37
3.2.3值迭代算法代碼實現.41
4基於蒙特卡洛的方法45
4.1蒙特卡洛算法原理46
4.2蒙特卡洛算法的代碼實現49
4.2.1環境類的修改和蒙特卡洛算法類的聲明49
4.2.2探索初始化蒙特卡洛算法實現52
4.2.3同策略蒙特卡洛算法實現.56
5基於時間差分的方法62
5.1從動態規劃到時間差分強化學習62
5.2時間差分算法代碼實現66
5.2.1時間差分算法類的聲明66
5.2.2SARSA算法.67
5.2.3Q-Learning算法70
6基於函數逼近的方法74
6.1從表格型強化學習到線性函數逼近強化學習74
6.1.1表格特征表示74
6.1.2固定稀疏表示75
6.1.3參數的訓練76
6.2基於線性函數逼近的Q-Learning算法實現76
6.3非線性函數逼近DQN算法代碼實現85
第2篇直接策略搜索的方法95
7策略梯度方法96
7.1算法基本原理及代碼架構96
7.1.1策略的表示問題97
7.1.2隨機策略梯度的推導98
7.1.3累積回報99
7.1.4代碼架構101
7.2離散動作:CartPole實例解析及編程實戰103
7.2.1CartPole簡介103
7.2.2問題分析及MDP模型.104
7.2.3采樣類的Python源碼實現105
7.2.4策略網絡模型分析106
7.2.5策略網絡類的Python源碼實現108
7.2.6策略網絡的訓練與測試110
7.2.7用策略梯度法求解Cartpole的主函數112
7.2.8CartPole仿真環境開發113
7.3連續動作Pendulum實例解析及編程實戰117
7.3.1Pendulum簡介118
7.3.2采樣類的Python源代碼實現118
7.3.3策略網絡模型分析.120
7.3.4策略網絡類的Python源碼實現121
7.3.5策略網絡的訓練與測試125
7.3.6用策略梯度法求解Pendulum的主函數126
7.3.7Pendulum仿真環境開發127
8Actor-Critic方法131
8.1Actor-Critic原理及代碼架構131
8.1.1Actor-Critic基本原理131
8.1.2Actor-Critic算法架構.133
8.2TD-AC算法133
8.2.1采樣類的Python源碼134
8.2.2策略網絡的Python源碼135
8.2.3策略訓練和測試138
8.2.4主函數及訓練效果140
8.3Minibatch-MC-AC算法141
8.3.1Minibatch-MC-AC算法框架141
8.3.2采樣類的Python源碼142
8.3.3策略網絡的Python源碼144
8.3.4策略的訓練和測試147
8.3.5主函數及訓練效果149
9PPO方法151
9.1PPO算法基本原理及代碼結構151
9.2Python源碼解析154
9.2.1采樣類154
9.2.2策略網絡156
9.2.3策略的訓練和測試159
9.2.4主函數及訓練效果160
10DDPG方法163
10.1DDPG基本163
10.2Python源碼解析167
10.2.1經驗緩存器類167
10.2.2策略網絡169
10.2.3訓練和測試173
10.2.4主函數及訓練效果175
第3篇基於模型的強化學習方法177
11基於模型預測控制的強化學習算法178
11.1基於模型的強化學習算法的基本原理178
11.1.1神經網絡擬合動力學模型179
11.1.2模型預測控制179
11.1.3基於模型的強化學習算法偽代碼180
11.2Python源碼實現及解析181
11.2.1數據收集類181
11.2.2數據采樣類181
11.2.3動力學網絡類182
11.2.4模型預測控制器類185
11.2.5模型訓練和預測函數186
11.2.6主函數188
12AlphaZero原理淺析190
12.1從AlphaGo到AlphaZero191
12.2蒙特卡洛樹搜索算法196
12.2.1博弈樹和極小極大搜索196
12.2.2再論多臂老虎機問題198
12.2.3UCT算法200
12.3基於自我對弈的強化學習206
12.3.1基於MCTS的自我對弈206
12.3.2策略價值網絡的訓練210
13AlphaZero實戰:從零學下五子棋214
13.1構建簡易的五子棋環境215
13.2建立整體算法流程223
13.3實現蒙特卡洛樹搜索229
13.4實現策略價值網絡235
13.5訓練實驗與效果評估240
附錄APyTorch入門246
A.1PyTorch基礎知識246
A.1.1Tensor246
A.1.2基礎操作247
A.1.3Tensor和NumPyarray間的轉化249
A.1.4Autograd:自動梯度249
A.2PyTorch中的神經網絡250
A.2.1如何定義神經網絡251
A.2.2如何訓練神經網絡254
A.2.3在CIFAR-10數據集上進行訓練和測試256
A.2.4模型的保存和加載259
參考文獻261
後記263
內容簡介
《深入淺出強化學習:編程實戰》是《深入淺出強化學習:原理入門》的姊妹篇,寫作的初衷是通過編程實例幫助那些想要學習強化學習算法的讀者更深入、更清楚地理解算法。
本書首先介紹馬爾可夫決策過程的理論框架,然後介紹基於動態規劃的策略迭代算法和值迭代算法,在此基礎上分3篇介紹了目前強化學習算法中基本的算法。篇講解基於值函數的強化學習算法,介紹了基於兩種策略評估方法(蒙特卡洛策略評估和時間差分策略評估)的強化學習算法,以及如何將函數逼近的方法引入強化學習算法中。第2篇講解直接策略搜索方法,介紹了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇講解基於模型的強化學習方法,介紹了基於MPC的方法、AlphaZero算法基本原理及在五子棋上的具體實現細節。建議讀者根據書中的代碼親自動手編程,並修改程序中的超參數,根據運行結果不斷體會算法原理。
作者簡介
郭憲,宋俊瀟,方勇純 著
郭憲,南開大學人工智能學院講師。2009年畢業於華中科技大學機械設計制造及自動化專業,同年保送到院瀋陽自動化研究所進行碩博連讀,2016年1月獲得工學博士學位,並到南開大學從事博士後研究工作,2018年7月任教於南開大學至今。目前主要研究方向和興趣是仿生機器人智能運動控制、強化學習和機器人博弈。__eol____eol__宋俊瀟,香港科技大學博士,目前就世界,擔任研究科學家,專注於決策智能相關算法的研究與開發。博士期間在GUO際期刊和會議發表論文9篇。2015年,獲得天池大數據黃金聯賽個人年度名(參賽隊伍總計15154支)。曾就職於網易遊戲,擔任數據挖掘研究員,負責個性化推薦算法及基於等



"
 
網友評論  我們期待著您對此商品發表評論
 
相關商品
【同作者商品】
郭憲宋俊瀟方勇純
  本網站暫時沒有該作者的其它商品。
有該作者的商品通知您嗎?
請選擇作者:
郭憲宋俊瀟方勇純
您的Email地址
在線留言 商品價格為新臺幣
關於我們 送貨時間 安全付款 會員登入 加入會員 我的帳戶 網站聯盟
DVD 連續劇 Copyright © 2024, Digital 了得網 Co., Ltd.
返回頂部