了得網圖書_強化學習原理與Phthon實戰圖書

作者:肖智清著

定價:129

出版社:機械工業出版社

出版日期:2023年07月01日

頁數:1008

裝幀:平裝

ISBN:9787111728917

攜七大優勢，帶你一書學透強化學習，掌握ChatGPT背後的關鍵技術。1）內容完備：完整地介紹了主流強化學習理論，全面覆蓋主流強化學習算法，包括了資格跡等經典算法和 Zero等深度強化學習算法，且給出主要定理的證明過程。讓你參透ChatGPT背後的關鍵技術。2）表述一致：全書采用統一的數學符號，並兼容主流強化學習教程。3）配套豐富：每章都配有知識點總結、代碼和習題。4）環境全面：既有Gym的內置環境，也有在Gym基礎上進一步擴展的第三方環境，還帶領讀者一起實現了自定義的環境。5）兼容廣泛：所有代等

●數學符號表
前言
第1章初識強化學習1
1.1強化學習及素1
1.2強化學習的應用3
1.3智能體/環境接口4
1.4強化學習的分類6
1.4.1按任務分類6
1.4.2按算法分類8
1.5強化學習算法的性能指標9
1.6案例：基於Gym庫的智能體/環境接口10
1.6.1安裝Gym庫11
1.6.2使用Gym庫11
1.6.3小車上山13
1.7本章小結18
1.8練習與模擬面試19
第2章Markov決策過程21
2.1Markov決策過程模型21
2.1.1離散時間Markov決策過程21
2.1.2環境與動力24
2.1.3策略26
2.1.4帶的回報26
2.2價值27
2.2.1價值的定義28
2.2.2價值的性質28
2.2.3策略的偏序和改進34
2.3帶的分布35
2.3.1帶的分布的定義35
2.3.2帶的分布的性質37
2.3.3帶的分布和策略的等價性39
2.3.4帶的分布下的期望40
2.4很優策略與很優價值41
2.4.1從很優策略到很優價值41
2.4.2很優策略的存在性42
2.4.3很優價值的性質與Bellman很優方程43
2.4.4用線性規劃法求解很優價值48
2.4.5用很優價值求解很優策略51
2.5案例：懸崖尋路52
2.5.1使用環境52
2.5.2求解策略價值53
2.5.3求解很優價值54
2.5.4求解很優策略55
2.6本章小結55
2.7練習與模擬面試57
第3章有模型數值迭代59
3.1Bellman算子及其性質59
3.2有模型策略迭代64
3.2.1策略評估65
3.2.2策略改進66
3.2.3策略迭代67
3.3價值迭代68
3.4自益與動態規劃69
3.5案例：冰面滑行70
3.5.1使用環境71
3.5.2有模型策略迭代求解73
3.5.3有模型價值迭代求解76
3.6本章小結76
3.7練習與模擬面試77
第4章回合更新價值迭代78
4.1同策回合更新79
4.1.1同策回合更新策略評估79
4.1.2帶起始探索的同策回合更新84
4.1.3基於柔性策略的同策回合更新86
4.2異策回合更新89
4.2.1重要性采樣89
4.2.2異策回合更新策略評估92
4.2.3異策回合更新很優策略求解93
4.3實驗：21點遊戲94
4.3.1使用環境94
4.3.2同策策略評估96
4.3.3同策很優策略求解98
4.3.4異策策略評估101
4.3.5異策很優策略求解102
4.4本章小結103
4、5練習與模擬面試104
第5章時序差分價值迭代106
5.1時序差分目標106
5.2同策時序差分更新109
5.2.1時序差分更新策略評估109
5.2.2SARSA算法113
5.2.3期望SARSA算法115
5.3異策時序差分更新117
5.3.1基於重要性采樣的異策算法117
5.3.2Q學習119
5.3.3雙重Q學習120
5.4資格跡121
5.4.1λ回報122
5.4.2TD(λ)算法123
5.5案例：的士調度125
5.5.1使用環境126
5.5.2同策時序差分學習127
5.5.3異策時序差分學習130
5.5.4資格跡學習132
56本章小結134
57練習與模擬面試135
第6章函數近似方法137
6.1函數近似原理138
6.2基於梯度的參數更新139
6.2.1隨機梯度下降139
6.2.2半梯度下降141
6.2.3帶資格跡的半梯度下降142
6.3函數近似的收斂性144
6.3.1收斂的條件144
6.3.2Baird反例145
6.4深度Q網絡147
6.4.1經驗回放148
6.4.2目標網絡151
6.4.3雙重深度Q網絡152
6.4.4決鬥深度Q網絡153
6.5案例：小車上山154
6.5.1使用環境155
6.5.2用線性近似求解很優策略156
6.5.3用深度Q網絡求解很優策略161
6.6本章小結172
6.7練習與模擬面試172
第7章回合更新策略梯度方法174
7.1策略梯度算法的原理174
7.1.1函數近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和極大似然估計的關繫179
7.2同策回合更新策略梯度算法179
7.2.1簡單的策略梯度算法180
7.2.2帶基線的簡單策略梯度算法180
7.3異策回合更新策略梯度算法182
7.4案例：車杆平衡183
7.4.1用同策策略梯度算法求解很優策略184
7.4.2用異策策略梯度算法求解很優策略189
7.5本章小結195
7.6練習與模擬面試196
第8章執行者/評論者197
8.1執行者/評論者方法197
8.2同策執行者/評論者算法198
8.2.1動作價值執行者/評論者算法198
8.2.2優勢執行者/評論者算法199
8.2.3帶資格跡的執行者/評論者算法200
8.3基於代理優勢的同策算法201
8.3.1性能差別引理201
8.3.2代理優勢202
8.3.3鄰近策略優化203
8.4自然梯度和信賴域算法205
8.4.1KL散度與Fisher信息矩陣206
8.4.2代理優勢的信賴域208
8.4.3自然策略梯度算法209
8.4.4信賴域策略優化212
8.5重要性采樣異策執行者/評論者算法213
8.6案例：雙節倒立擺214
8.6.1用同策執行者/評論者算法求解很優策略216
8.6.2用基於代理優勢的同策算法求解很優策略226
8.6.3用自然策略梯度和信賴域算法求解很優策略230
8.6.4用重要性采樣異策執行者/評論者算法求解很優策略242
8.7本章小結246
8.8練習與模擬面試247
第9章連續動作空間的確定性策略248
9.1確定性策略梯度定理248
9.2同策確定性算法250
9.3異策確定性算法251
9.3.1基本的異策確定性執行者/評論者算法251
9.3.2深度確定性策略梯度算法253
9.3.3雙重延遲深度確定性策略梯度算法254
9.4探索過程255
9.5案例：倒立擺的控制256
9.5.1用深度確定性策略梯度算法求解257
9.5.2用雙重延遲深度確定性算法求解263
9.6本章小結268
9.7練習與模擬面試268
第10章優選熵強化學習270
10.1優選熵強化學習與柔性強化學習理論270
10.1.1獎勵工程和帶熵的獎勵270
10.1.2柔性價值272
10.1.3柔性策略改進定理和優選熵強化學習的迭代求解273
10.1.4柔性很優價值275
10.1.5柔性策略梯度定理276
10.2柔性強化學習算法281
10.2.1柔性Q學習281
10.2.2柔性執行者/評論者算法282
10.3自動熵調節284
10.4案例：月球登陸器286
10.4.1環境安裝286
10.4.2使用環境287
10.4.3用柔性Q學習求解LunarLander289
10.4.4用柔性執行者/評論者求解LunarLander292
10.4.5自動熵調節用於LunarLander297
10.4.6求解LunarLander Continuous302
10.5本章小結308
10.6練習與模擬面試309
第11章基於策略的無梯度算法310
11.1無梯度算法310
11.1.1進化策略算法310
11.1.2增強隨機搜索算法311
11.2無梯度算法和策略梯度算法的比較312
11.3案例：雙足機器人313
11.3.1獎勵截斷314
11.3.2用進化算法求解315
11.3.3用增強隨機搜索算法求解317
11.4本章小結318
11.5練習與模擬面試319
第12章值分布強化學習320
12.1價值分布及其性質320
12.2效用優選化強化學習323
12.3基於概率分布的算法326
12.3.1類別深度Q網絡算法326
12.3.2帶效用的類別深度Q網絡算法328
12.4基於分位數的值分布強化學習329
12.4.1分位數回歸深度Q網絡算法331
12.4.2含蓄分位網絡算法333
12.4.3帶效用的分位數回歸算法334
12.5類別深度Q網絡算法和分位數回歸算法的比較335
12.6案例：Atari電動遊戲Pong336
12.6.1Atari遊戲環境的使用336
12.6.2Pong遊戲338
12.6.3包裝Atari遊戲環境339
12.6.4用類別深度Q網絡算法玩遊戲340
12.6.5用分位數回歸深度Q網絡算法玩遊戲345
12.6.6用含蓄分位網絡算法玩遊戲349
12.7本章小結356
12.8練習與模擬面試356
第13章最小化遺憾358
13.1遺憾358
13.2多臂 360
13.2.1多臂問題描述360
13.2.2ε貪心算法361
13.2.3置信上界361
13.2.4Bayesian置信上界算法365
13.2.5Thompson采樣算法368
13.3置信上界價值迭代368
13.4案例：Bernoulli獎勵多臂 376
13.4.1創建自定義環境377
13.4.2用ε貪心策略求解378
13.4.3用第一置信上界求解379
13.4.4用Bayesian置信上界求解380
13.4.5用Thompson采樣求解381
13.5本章小結382
13.6練習與模擬面試382
第14章樹搜索384
14.1回合更新樹搜索385
14.1.1選擇387
14.1.2擴展和評估388
14.1.3回溯389
14.1.4決策390
14.1.5訓練回合更新樹搜索用到的神經網絡390
14.2回合更新樹搜索在棋盤遊戲中的應用393
14.2.1棋盤遊戲393
14.2.2自我對弈398
14.2.3針對棋盤遊戲的網絡399
14.2.4從AlphaGo到 Zero401
14.3案例：井字棋403
14.3.1棋盤遊戲環境boardgame2403
14.3.2窮盡式搜索408
14.3.3啟發式搜索410
14.4本章小結418
14.5練習與模擬面試418
第15章模仿學習和人類反饋強化學習420
15.1模仿學習420
15.1.1f散度及其性質421
15.1.2行為克隆427
15.1.3生成對抗模仿學習429
15.1.4逆強化學習431
15.2人類反饋強化學習和生成性預訓練變換模型432
15.3案例：機器人行走433
15.3.1擴展庫PyBullet433
15.3.2用行為克隆模仿學習435
15.3.3用生成對抗模仿學習438
15.4本章小結444
15.5練習與模擬面試445
第16章更多智能體/環境接口模型446
16.1平均獎勵離散時間Markov決策過程446
16.1.1平均獎勵447
16.1.2差分價值450
16.1.3很優策略453
16.2連續時間Markov決策過程456
16.3非齊次Markov決策過程459
16.3.1非齊次狀態表示460
16.3.2時間指標有界的情況461
16.3.3時間指標無界的情況462
16.4半Markov決策過程463
16.4.1半Markov決策過程及其價值463
16.4.2很優策略求解466
16.4.3分層強化學習466
16.5部分可觀測Markov決策過程467
16.5.1離散時間部分可觀測Markov決策過程467
16.5.2信念469
16.5.3信念Markov決策過程473
16.5.4信念價值476
16.5.5有限部分可觀測Markov決策過程的信念價值479
16.5.6使用記憶481
16.6案例：老虎482
16.6.1帶回報期望與平均獎勵的比較482
16.6.2信念Markov決策過程484
16.6.3非齊次的信念狀態價值485
16.7本章小結487
16.8練習與模擬面試489

全書分為三個部分：第1章：從零開始介紹強化學習的背景知識，介紹環境庫Gym的使用。第2~15章：基於獎勵離散時間Markov決策過程模型，介紹強化學習的主干理論和常見算法。采用數學語言推導強化學習的基礎理論，進而在理論的基礎上講解算法，並為算法提供配套代碼實現。基礎理論的講解突出主干部分，算法講解全面覆蓋主流的強化學習算法，包括經典的非深度強化學習算法和近年流行的強化學習算法。Python實現和算法講解一一對應，對於深度強化學習算法還給出了基於TensorFlow2和PyTorch1的對照實現。第16章：介紹其他強化學習模型，包括平均獎勵模型、連續時間模型、非齊次模型，半Markov模型、部分可觀測模型等，以便更好了解強化學習研究的全貌。

商品搜索

商品分类

【醫學】

【各大出版社】