| | | 深入淺出強化學習 編程實戰 | 該商品所屬分類:圖書 -> 科技 | 【市場價】 | 617-896元 | 【優惠價】 | 386-560元 | 【作者】 | 郭憲宋俊瀟方勇純 | 【折扣說明】 | 一次購物滿999元台幣免運費+贈品 一次購物滿2000元台幣95折+免運費+贈品 一次購物滿3000元台幣92折+免運費+贈品 一次購物滿4000元台幣88折+免運費+贈品
| 【本期贈品】 | ①優質無紡布環保袋,做工棒!②品牌簽字筆 ③品牌手帕紙巾
| |
版本 | 正版全新電子版PDF檔 | 您已选择: | 正版全新 | 溫馨提示:如果有多種選項,請先選擇再點擊加入購物車。*. 電子圖書價格是0.69折,例如了得網價格是100元,電子書pdf的價格則是69元。 *. 購買電子書不支持貨到付款,購買時選擇atm或者超商、PayPal付款。付款後1-24小時內通過郵件傳輸給您。 *. 如果收到的電子書不滿意,可以聯絡我們退款。謝謝。 | | | | 內容介紹 | |
出版社:電子工業出版社 ISBN:9787121367465 商品編碼:66801099146 品牌:文軒 出版時間:2020-03-01 代碼:89 作者:郭憲,宋俊瀟,方勇純
" 作 者:郭憲,宋俊瀟,方勇純 著 定 價:89 出 版 社:電子工業出版社 出版日期:2020年03月01日 頁 數:264 裝 幀:平裝 ISBN:9787121367465 "本書是《深入淺出強化學習:原理入門》的姐妹篇。1 實戰性強:以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法並快速應用。2 繫統全面:在馬爾可夫理論框架下,介紹了基本的算法,涵蓋了基於值函數的算法,直接策略搜索方法,基於模型的強化學習方法等。3 前沿技術分析:剖析了AlphaZero強大技術背後的深度強化學習原理,並介紹了它在五子棋上的具體實現。4 操作性強:讀者可根據書中的代碼直接上手,並通過修改程序中的超參數,親自體會算法原理。" ●第0篇先導篇1 1一個極其簡單的強化學習實例2 1.1多臂2 1.1.1??greedy策略3 1.1.2玻爾茲曼策略.6 1.1.3UCB策略7 1.2多臂代碼實現7 2馬爾可夫決策過程13 2.1從多臂到馬爾可夫決策過程13 2.2馬爾可夫決策過程代碼實現23 篇基於值函數的方法31 3基於動態規劃的方法32 3.1策略迭代與值迭代.32 3.1.1策略迭代算法原理33 3.1.2值迭代算法原理35 3.2策略迭代和值迭代的代碼實現36 3.2.1鴛鴦環境的修改36 3.2.2策略迭代算法代碼實現37 3.2.3值迭代算法代碼實現.41 4基於蒙特卡洛的方法45 4.1蒙特卡洛算法原理46 4.2蒙特卡洛算法的代碼實現49 4.2.1環境類的修改和蒙特卡洛算法類的聲明49 4.2.2探索初始化蒙特卡洛算法實現52 4.2.3同策略蒙特卡洛算法實現.56 5基於時間差分的方法62 5.1從動態規劃到時間差分強化學習62 5.2時間差分算法代碼實現66 5.2.1時間差分算法類的聲明66 5.2.2SARSA算法.67 5.2.3Q-Learning算法70 6基於函數逼近的方法74 6.1從表格型強化學習到線性函數逼近強化學習74 6.1.1表格特征表示74 6.1.2固定稀疏表示75 6.1.3參數的訓練76 6.2基於線性函數逼近的Q-Learning算法實現76 6.3非線性函數逼近DQN算法代碼實現85 第2篇直接策略搜索的方法95 7策略梯度方法96 7.1算法基本原理及代碼架構96 7.1.1策略的表示問題97 7.1.2隨機策略梯度的推導98 7.1.3累積回報99 7.1.4代碼架構101 7.2離散動作:CartPole實例解析及編程實戰103 7.2.1CartPole簡介103 7.2.2問題分析及MDP模型.104 7.2.3采樣類的Python源碼實現105 7.2.4策略網絡模型分析106 7.2.5策略網絡類的Python源碼實現108 7.2.6策略網絡的訓練與測試110 7.2.7用策略梯度法求解Cartpole的主函數112 7.2.8CartPole仿真環境開發113 7.3連續動作Pendulum實例解析及編程實戰117 7.3.1Pendulum簡介118 7.3.2采樣類的Python源代碼實現118 7.3.3策略網絡模型分析.120 7.3.4策略網絡類的Python源碼實現121 7.3.5策略網絡的訓練與測試125 7.3.6用策略梯度法求解Pendulum的主函數126 7.3.7Pendulum仿真環境開發127 8Actor-Critic方法131 8.1Actor-Critic原理及代碼架構131 8.1.1Actor-Critic基本原理131 8.1.2Actor-Critic算法架構.133 8.2TD-AC算法133 8.2.1采樣類的Python源碼134 8.2.2策略網絡的Python源碼135 8.2.3策略訓練和測試138 8.2.4主函數及訓練效果140 8.3Minibatch-MC-AC算法141 8.3.1Minibatch-MC-AC算法框架141 8.3.2采樣類的Python源碼142 8.3.3策略網絡的Python源碼144 8.3.4策略的訓練和測試147 8.3.5主函數及訓練效果149 9PPO方法151 9.1PPO算法基本原理及代碼結構151 9.2Python源碼解析154 9.2.1采樣類154 9.2.2策略網絡156 9.2.3策略的訓練和測試159 9.2.4主函數及訓練效果160 10DDPG方法163 10.1DDPG基本163 10.2Python源碼解析167 10.2.1經驗緩存器類167 10.2.2策略網絡169 10.2.3訓練和測試173 10.2.4主函數及訓練效果175 第3篇基於模型的強化學習方法177 11基於模型預測控制的強化學習算法178 11.1基於模型的強化學習算法的基本原理178 11.1.1神經網絡擬合動力學模型179 11.1.2模型預測控制179 11.1.3基於模型的強化學習算法偽代碼180 11.2Python源碼實現及解析181 11.2.1數據收集類181 11.2.2數據采樣類181 11.2.3動力學網絡類182 11.2.4模型預測控制器類185 11.2.5模型訓練和預測函數186 11.2.6主函數188 12AlphaZero原理淺析190 12.1從AlphaGo到AlphaZero191 12.2蒙特卡洛樹搜索算法196 12.2.1博弈樹和極小極大搜索196 12.2.2再論多臂老虎機問題198 12.2.3UCT算法200 12.3基於自我對弈的強化學習206 12.3.1基於MCTS的自我對弈206 12.3.2策略價值網絡的訓練210 13AlphaZero實戰:從零學下五子棋214 13.1構建簡易的五子棋環境215 13.2建立整體算法流程223 13.3實現蒙特卡洛樹搜索229 13.4實現策略價值網絡235 13.5訓練實驗與效果評估240 附錄APyTorch入門246 A.1PyTorch基礎知識246 A.1.1Tensor246 A.1.2基礎操作247 A.1.3Tensor和NumPyarray間的轉化249 A.1.4Autograd:自動梯度249 A.2PyTorch中的神經網絡250 A.2.1如何定義神經網絡251 A.2.2如何訓練神經網絡254 A.2.3在CIFAR-10數據集上進行訓練和測試256 A.2.4模型的保存和加載259 參考文獻261 後記263 《深入淺出強化學習:編程實戰》是《深入淺出強化學習:原理入門》的姊妹篇,寫作的初衷是通過編程實例幫助那些想要學習強化學習算法的讀者更深入、更清楚地理解算法。 本書首先介紹馬爾可夫決策過程的理論框架,然後介紹基於動態規劃的策略迭代算法和值迭代算法,在此基礎上分3篇介紹了目前強化學習算法中基本的算法。篇講解基於值函數的強化學習算法,介紹了基於兩種策略評估方法(蒙特卡洛策略評估和時間差分策略評估)的強化學習算法,以及如何將函數逼近的方法引入強化學習算法中。第2篇講解直接策略搜索方法,介紹了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇講解基於模型的強化學習方法,介紹了基於MPC的方法、AlphaZero算法基本原理及在五子棋上的具體實現細節。建議讀者根據書中的代碼親自動手編程,並修改程序中的超參數,根據運行結果不斷體會算法原理。 郭憲,宋俊瀟,方勇純 著 郭憲,南開大學人工智能學院講師。2009年畢業於華中科技大學機械設計制造及自動化專業,同年保送到院瀋陽自動化研究所進行碩博連讀,2016年1月獲得工學博士學位,並到南開大學從事博士後研究工作,2018年7月任教於南開大學至今。目前主要研究方向和興趣是仿生機器人智能運動控制、強化學習和機器人博弈。__eol____eol__宋俊瀟,香港科技大學博士,目前就世界,擔任研究科學家,專注於決策智能相關算法的研究與開發。博士期間在GUO際期刊和會議發表論文9篇。2015年,獲得天池大數據黃金聯賽個人年度名(參賽隊伍總計15154支)。曾就職於網易遊戲,擔任數據挖掘研究員,負責個性化推薦算法及基於等
" | | | | | |