了得網計算機/網絡_正版強化學習第2版人工神經網絡人工智能計算機理論和方法

●目錄章導論？？？？？ 1 1.1 強化學習？？？？？ 1 1.2 示例？？？？？ 4 1.3 強化學習要素？？？？？ 5 1.4 局限性與適用範圍？？？？？ 7 1.5 擴展實例：井字棋？？？？？？？？ 8 1.6 本章小結？？？？？ 12 1.7 強化學習的早期歷史？？？？？ 13 第I部分表格型求解方法？？？？？ 23 第2章多臂賭博機？？？？？ 25 2.1 一個 k 臂賭博機問題？？？？？ 25 2.2 動作-價值方法？？？？？？ 27 2.3 10 臂測試平臺？？？？？ 28 2.4 增量式實現？？？？？ 30 2.5 跟蹤一個非平穩問題？？？？？？ 32 2.6 樂觀初始值？？？？？ 34 2.7 基於置信度上界的動作選擇？？？？？？ 35 2.8 梯度賭博機算法？？？？？ 37 2.9 關聯搜索 (上下文相關的賭博機) ？？？？？？ 40 2.10 本章小結？？？？？ 41 第3章有限馬爾可夫決策過程？？ 45 3.1 “智能體-環境”交互接口？？？？？ 45 3.2 目標和收益？？？？？？？？？？？ 51 3.3 回報和分幕？？？？？？ 52 3.4 分幕式和持續性任務的統一表示法？？？？ 54 3.5 策略和價值函數？？？？？？ 55 3.6 最優策略和最優價值函數？？？？ 60 3.7 最優性和近似算法？？？？？？？？？？？？？ 65 3.8 本章小結？？？？？ 66 第4章動態規劃？？？？ 71 4.1 策略評估 (預測) ？？？？？ 72 4.2 策略改進？？？？ 75 4.3 策略迭代？？？？ 78 4.4 價值迭代？？？？ 80 4.5 異步動態規劃？？？ 83 4.6 廣義策略迭代？？ 84 4.7 動態規劃的效率？？？？ 85 4.8 本章小結？？？？ 86 第5章蒙特卡洛方法？？？ 89 5.1 蒙特卡洛預測？？？ 90 5.2 動作價值的蒙特卡洛估計？？？？？？？？ 94 5.3 蒙特卡洛控制？？？？？？ 95 5.4 沒有試探性出發假設的蒙特卡洛控制？？？？？？？？ 98 5.5 基於重要度采樣的離軌策略？？？？？？？？ 101 5.6 增量式實現？？？ 107 5.7 離軌策略蒙特卡洛控制？？？？？？？？？？？？ 108 5.8 ？敏感的重要度采樣？？？？？？？110 5.9 ？每次決策型重要度采樣？？？？？？ 112 5.10 本章小結？？？？？？ 113 第 6 章時序差分學習？？？？？ 117 6.1 時序差分預測？？ 117 6.2 時序差分預測方法的優勢？？？？？ 122 6.3 TD(0) 的最優性？？？？？？？？？？？？ 124 6.4 Sarsa：同軌策略下的時序差分控制？？？？？？ 127 6.5 Q 學習：離軌策略下的時序差分控制？？？？？ 129 6.6 期望 Sarsa ？？？？ 131 6.7 優選化偏差與雙學習？？？？？？？？ 133 6.8 遊戲、後位狀態和其他特殊例子？？？？ 135 6.9 本章小結？？？？ 136 第7章 n 步自舉法？？？？ 139 7.1 n 步時序差分預測？？？？？？？？？ 140 7.2 n 步 Sarsa ？？？？？ 144 7.3 n 步離軌策略學習？？？？？？？？146 7.4 ？帶控制變量的每次決策型方法？？？？？148 7.5 不需要使用重要度采樣的離軌策略學習方法：n 步樹回溯算法？？？？？150 7.6 ？一個統一的算法：n 步 Q(σ) ？？？？？153 7.7 本章小結？？？？？？155 第8章基於表格型方法的規劃和學習？？？？？？ 157 8.1 模型和規劃？？？？ 157 8.2 Dyna：集成在一起的規劃、動作和學習？？？？？？ 159 8.3 當模型錯誤的時候？？？？？？？ 164 8.4 優先遍歷？？？？？？ 166 8.5 期望更新與采樣更新的對比？？？？？ 170 8.6 軌跡采樣？？？？ 173 8.7 實時動態規劃？？？ 176 8.8 決策時規劃？？？ 179 8.9 啟發式搜索？？？？？ 180 8.10 預演算法？？？？ 182 8.11 蒙特卡洛樹搜索？？？？？？？？ 184 8.12 本章小結？？？？？ 187 8.13 第I部分總結？？？？？？？？ 188 第II部分表格型近似求解方法？？？？？？？？？？ 193 第9章基於函數逼近的同軌策略預測？？？？？？？？？ 195 9.1 價值函數逼近？？？？？ 195 9.2 預測目標 (VE ) ？？？？？？？？ 196 9.3 隨機梯度和半梯度方法？？？？？ 198 9.4 線性方法？？？？？？？？？？ 202 9.5 線性方法的特征構造？？？？？？？？？？ 207 9.5.1 多項式基？？？？？？ 208 9.5.2 傅立葉基？？？？？？？ 209 9.5.3 粗編碼？？？？？？？？？？ 212 9.5.4 瓦片編碼？？？？？214 9.5.5 徑向基函數？？？？？？？？？ 218 9.6 手動選擇步長參數？？？？？？？？？ 219 9.7 非線性函數逼近：人工神經網絡？？？？？？？ 220 9.8 最小二乘時序差分？？？？？？？？ 225 9.9 基於記憶的函數逼近？？？？？？？ 227 9.10 基於核函數的函數逼近？？？？？？ 229 9.11 深入了解同軌策略學習：“興趣”與“強調” ？？？？？？ 230 9.12 本章小結？？？？？？？ 232 0章基於函數逼近的同軌策略控制？？？？？？？？ 239 10.1 分幕式半梯度控制？？？？ 239 10.2 半梯度 n 步 Sarsa？？？？？？？？？？ 242 10.3 平均收益：持續性任務中的新的問題設定？？？？？ 245 10.4 棄用？？？？？？？？？ 249 10.5 差分半梯度 n 步 Sarsa ？？？？？ 251 10.6 本章小結？？？？？？？？ 252 1 章？基於函數逼近的離軌策略方法？？？？？ 253 11.1 半梯度方法？？？？？ 254 11.2 離軌策略發散的例子？？？？？ 256 11.3 致命三要素？？？？？ 260 11.4 線性價值函數的幾何性質？？？？？？？？？？ 262 11.5 對貝爾曼誤差做梯度下降？？？？？？？？？ 266 11.6 貝爾曼誤差是不可學習的？？？？？？？？？ 270 11.7 梯度 TD 方法？？？？？？？？？？ 274 11.8 強調 TD 方法？？？？ 278 11.9 減小方差？？？？？？？？？？ 279 11.10 本章小結？？？？？？？？？？？ 280 2章資格跡？？？？？？？？？ 283 12.1 λ-回報？？？？？？？？？？ 284 12.2 TD(λ)？？？？？？ 287 12.3 n-步截斷 λ- 回報方法？？？291 12.4 重做更新：在線 λ-回報算法？？？？？？？ 292 12.5 真實的在線 TD(λ) ？？？？？？？ 294 12.6 ？蒙特卡洛學習中的荷蘭跡？？？？？？？ 296 12.7 Sarsa(λ)？？？？？？？？？ 298 12.8 變量 λ 和 γ ？？？？？？？ 303 12.9 帶有控制變量的離軌策略資格跡？？？？？？？？ 304 12.10 從 Watkins 的 Q(λ) 到樹回溯 TB(λ)？？？？？？？？ 308 12.11 采用資格跡保障離軌策略方法的穩定性？？？？？ 310 12.12 實現中的問題？？？？？？？？？？？？？？？ 312 12.13 本章小結？？？？？？？？？？？？？？？？ 312 3章策略梯度方法？？？？？ 317 13.1 策略近似及其優勢？？？？？？？？ 318 13.2 策略梯度定理？？？？ 320 13.3 REINFORCE：蒙特卡洛策略梯度？？？？？？？ 322 13.4 帶有基線的 REINFORCE ？？？？？？？ 325 13.5 “行動器-評判器”方法？？？？？？？？ 327 13.6 持續性問題的策略梯度？？？？？？？？ 329 13.7 針對連續動作的策略參數化方法？？？？？？ 332 13.8 本章小結？？？？？？？？？？ 333 第III部分表格型深入研究？？？？？？？？ 337 4章心理學？？？？？？？？？？ 339 14.1 預測與控制？？？？？？？？？？？？？ 340 14.2 經典條件反射？？？？？？？？？？ 341 14.2.1 阻塞與不錯條件反射？？？？？？？？ 342 14.2.2 Rescorla-Wagner 模型？？？？？？？ 344 14.2.3 TD 模型？？？？？ 347 14.2.4 TD 模型模擬？？？？？？？？？？ 348 14.3 工具性條件反射？？？？？？？ 355 14.4 延遲強化？？？？ 359 14.5 認知圖？？？？？？ 361 14.6 習慣行為與目標導向行為？？？？？？？？362 14.7 本章小結？？？？？？？ 366 5章神經科學？？？？？？ 373 15.1 神經科學基礎？？？？？？？？ 374 15.2 收益信號、強化信號、價值和預測誤差？？？？？ 375 15.3 收益預測誤差假說？？？？？？？？？ 377 15.4 多巴胺？？？？？？？ 379 15.5 收益預測誤差假說的實驗支持？？？？？？？ 382 15.6 TD 誤差/多巴胺對應？？？？？？？？ 385 15.7 神經“行動器-評判器” ？？？？？？？？ 390 15.8 行動器與評判器學習規則？？？？？？？ 393 15.9 享樂主？？？？？？？？？？ 397 15.10 集體強化學習？？？？？？？？ 399 15.11 大腦中的基於模型的算法？？？？？ 402 15.12 成癮？？？？？？？？？ 403 15.13 本章小結？？？？？？ 404 第 16 章應用及案例分析？？？？？？ 413 16.1 TD-Gammon ？？？？？？ 413 16.2 Samuel 的跳棋程序？？？？？？？？ 418 16.3 Watson 的每日雙倍投注？？？？？？？？？？？ 421 16.4 優化內存控制？？？？？？？？？ 424 16.5 人類級別的視頻遊戲？？？？？？？？？？？ 428 16.6 主宰圍棋遊戲？？？？？？？？？？ 433 16.6.1 AlphaGo ？？？？？？？？？ 436 16.6.2 AlphaGo Zero ？？？？？？？？？439 16.7 個性化網絡服務？？？？？ 442 16.8 熱氣流滑翔？？？？？？？ 446 7章前沿技術？？？？？？？？？？？？？？？ 451 17.1 廣義價值函數和輔助任務？？？？？ 451 17.2 基於選項理論的時序摘要？？？？？？？？？？？？？ 453 17.3 觀測量和狀態？？？？？？？？？ 456 17.4 設計收益信號？？？？？？？？？？？ 460 17.5 遺留問題？？？？？ 464 17.6 人工智能的未來？？？？？？？？ 467 參考文獻？？？？？？？ 473

商品搜索

商品分类

【醫學】

【各大出版社】