●《智能科學技術著作叢書》序
前言
章 緒論
1.1 概念與內涵
1.2 國內外研究現狀與發展趨勢
1.2.1 國內外研究現狀
1.2.2 發展趨勢分析
1.3 《星際爭霸》AI比賽
1.4 小結
思考題
第2章 多智能即時策略對抗基礎
2.1 多智能體即時策略對抗形式化描述
2.2 多智能體強化學習基礎
2.2.1 完全合作任務算法
2.2.2 完全競爭任務算法
2.2.3 混合競爭與合作任務算法
2.3 解決方法
2.3.1 基於知識驅動的啟發式方法
2.3.2 基於數據驅動的學習方法
2.4 強化學習算法研究流程
2.5 即時策略對抗研究環境
2.6 對抗場景與算法性能基準
2.7 小結
思考題
第3章 多智能體雙向協調網絡
3.1 算法架構
3.2 訓練方法
3.3 實驗設計與結果分析
3.4 小結
思考題
第4章 反事實多智能體策略梯度
4.1 算法架構
4.2 學習算法
4.3 實驗設計與結果分析
4.4 小結
思考題
第5章 共享參數多智能體策略下降Sarsa(λ)算法
5.1 算法架構
5.2 訓練方法
5.3 實驗設計與結果分析
5.4 小結
思考題
第6章 進化策略算法
6.1 進化策略
6.2 基於進化策略的多智能體動作策略模型
6.3 實驗設計與結果分析
6.4 小結
思考題
第7章 《星際爭霸》AI研究環境搭建
7.1 Anaconda與PyCharm工具
7.2 《星際爭霸》AI研究環境搭建方式一:Win-Linux模式
7.2.1 Windows服務器端安裝
7.2.2 Linux客戶端安裝
7.2.3 運行示例代碼測試環境安裝的正確性
7.3 《星際爭霸》AI研究環境搭建方式二:單Linux模式
7.3.1 基於Linux的環境搭建
7.3.2 運行示例代碼測試環境安裝的正確性
7.4 小結
思考題
第8章 《星際爭霸》即時策略對抗AI開發基礎
8.1 Gym接口規範
8.2 基於Gym接口規範的《星際爭霸》對抗環境開發
8.3 最簡單的多智能體對抗策略實例―隨機攻擊
8.4 小結
思考題
第9章 基於知識驅動的啟發式策略開發實戰
9.1 《星際爭霸》Gym環境設計
9.2 攻擊最近敵方策略設計
9.3 攻擊最弱最近敵方策略設計
9.4 實驗設計與結果分析
9.4.1 不同決策頻率對勝率的影響
9.4.2 不同初始陣型對勝率的影響
9.4.3 不同對戰規模對勝率的影響
9.4.4 不同策略間相互對抗勝率
9.5 小結
思考題
0章 多智能體強化學習方法開發實戰
10.1 BiCNet《星際爭霸》Gym環境設計實現
10.2 訓練算法實現
10.3 運行模型
10.4 實驗設計與結果分析
10.5 小結
思考題
附錄A 深度神經網絡與強化學習簡介
A.1 深度神經網絡
A.1.1 多層感知器
A.1.2 卷積神經網絡
A.1.3 循環神經網絡
A.2 強化學習
A.2.1 時間差分學習
A.2.2 蒙特卡羅方法
A.2.3 策略梯度方法
附錄B 《星際爭霸》遊戲基礎
B.1 遊戲種族與兵種
B.1.1 人族
B.1.2 神族
B.1.3 蟲族
B.2 遊戲地圖制作與編輯
B.2.1 角色戰鬥力修改
B.2.2 遊戲中觸發器修改
參考文獻
內容簡介
《多智能體即時策略對抗方法與實踐》以即時策略遊戲《星際爭霸》作為研究案例,闡述目前遊戲智能中解決復雜環境下不接近信息動態博弈問題的方法,為多智能體即時策略對抗技術的開發實踐提供指導。《多智能體即時策略對抗方法與實踐》共10章,主要內容包括:緒論、多智能體即時策略對抗基礎、多智能體雙向協調網絡、反事實多智能體策略梯度、共享參數多智能體策略下降Sarsa(λ)算法、進化策略算法、《星際爭霸》AI研究環境搭建、《星際爭霸》即時策略對抗AI開發基礎、基於知識驅動的啟發式策略開發實戰、多智能體強化學習方法開發實戰。《多智能體即時策略對抗方法與實踐》為深入研究此類問題提供了全局視野、基本理論和實踐方法,為後續研究奠定了良好的基礎。