作 者:高揚 著
定 價:99
出 版 社:電子工業出版社
出版日期:2019年09月01日
頁 數:384
裝 幀:簡裝
ISBN:9787121367472
用簡單的例子幫你理解復雜的強化學習概念,用幽默的語言幫你邁過強化學習的門檻。對深度學習和強化學習的初學者及工程實踐人員來說,本書是知識框架搭建和工程入門方面的優秀參考書。
●傳統篇第1章 強化學習是什麼 21.1 題設 31.1.1 多智能纔叫智能 51.1.2 人工智能的定義 51.2 強化學習的研究對像 71.2.1 強化學習的應用場合 71.2.2 強化學習的建模 111.3 本章小結 17第2章 強化學習的脈絡 182.1 什麼是策略 182.2 什麼樣的策略是好的策略 192.3 什麼是模型 212.4 如何得到一個好的策略 232.4.1 直接法 232.4.2 間接法 252.5 馬爾可夫決策過程 292.5.1 狀態轉移 302.5.2 策略與評價 312.5.3 策略優化 362.6 Model-Based和Model-Free 362.6.1 Model-Based 362.6.2 規劃問題 372.6.3 Model-Free 382.7 本章小結 38第3章 動態規劃 403.1 狀態估值 403.2 策略優化 423.3 本章小結 43第4章 蒙特卡羅法 454.1 歷史由來 454.2 狀態估值 474.3 兩種估值方法 494.3.1 首次訪問蒙特卡羅策略估值 494.3.2 每次訪問蒙特卡羅策略估值 494.3.3 增量平均 504.4 弊端 514.5 本章小結 52第5章 時間差分 535.1 SARSA算法 535.1.1 SARSA算法的偽代碼 545.1.2 SARSA算法的優點和缺點 575.2 Q-Learning算法 575.2.1 Q-Learning算法的偽代碼 585.2.2 Q-Learning算法的優點和缺點 595.3 On-Policy和Off-Policy 615.4 On-Line學習和Off-Line學習 625.5 比較與討論 635.6 本章小結 65現代篇第6章 深度學習 686.1 PyTorch簡介 696.1.1 歷史淵源 706.1.2 支持 716.2   746.3 線性回歸 776.4 激勵函數 806.4.1 Sigmoid函數 816.4.2 Tanh函數 826.4.3 ReLU函數 826.4.4 Linear函數 836.5 神經網絡 846.6 網絡訓練 856.6.1 輸入 866.6.2 輸出 866.6.3 網絡結構 876.6.4 損失函數 886.6.5 求解極小值 906.6.6 線性回歸 906.6.7 凸函數 936.6.8 &nb)凸函數 986.6.9 導數補充 1016.6.10 導數怎麼求 1036.6.11 “串聯” 1056.6.12 模型的工作 1076.6.13 理解損失函數 1086.7 深度學習的優勢 1086.7.1 線性和非線性的疊加 1096.7.2 不用再提取特征 1116.7.3 處理線性不可分 1126.8 手寫數字識別公開數據集 1146.9 全連接網絡 1176.9.1 輸入與輸出 1186.9.2 代碼解讀 1196.9.3 運行結果 1256.10 卷積神經網絡 1256.10.1 代碼解讀 1256.10.2 理解卷積神經網絡的結構 1326.10.3 卷積核的結構 1346.11 循環神經網絡 1356.11.1 網絡結構 1366.11.2 應用案例 1406.11.3 代碼解讀 1436.12 其他注意事項 1486.12.1 並行計算 1486.12.2 梯度消失和梯度爆炸 1526.12.3 歸一化 1576.12.4 超參數的設置 1596.12.5 正則化 1616.12.6 不專享的模型 1706.13 深度神經網絡的發展趨勢 1716.14 本章小結 178第7章 Gym――不要錢的試驗場 1807.1 簡介 1807.2 安裝 1827.3 類別 1837.4 接口 1887.5 本章小結 191第8章 DQN算法族 1928.1 2013版DQN 1928.1.1 模型結構 1928.1.2 訓練過程 1958.1.3 Replay Memory 1978.1.4 小結 1988.2 2015版DQN 1988.2.1 模型結構 1988.2.2 訓練過程 1998.2.3 Target網絡 2008.2.4 小結 2018.3 Double DQN 2018.3.1 模型結構 2028.3.2 訓練過程 2028.3.3 效果 2038.3.4 小結 2048.4 Dueling DQN 2048.4.1 模型結構 2058.4.2 效果 2078.4.3 小結 2088.5 優先回放DQN 2088.6 本章小結 209第9章 PG算法族 2119.1 策略梯度 2119.2 DPG 2139.3 Actor-Critic 2149.4 DDPG 2149.5 本章小結 218第10章 A3C 21910.1 模型結構 21910.1.1 A3C Q-Learning 21910.1.2 A3C Actor-Critic 22210.2 本章小結 224第11章 UNREAL 22611.1 主任務 22611.2 像素控制任務 22711.3 獎勵值預測 22911.4 值函數回放 23011.5 損失函數 23111.6 本章小結 232擴展篇第12章 NEAT 23612.1 遺傳算法 23712.1.1 進化過程 23712.1.2 算法流程 23812.1.3 背包問題 23912.1.4 極大(小)值問題 24712.2 NEAT原理 25512.2.1 基因組 25512.2.2 變異和遺傳 25612.3 NEAT示例 25812.4 本章小結 262第13章 SerpentAI 26313.1 簡介 26313.2 安裝和配置 26413.3 示例 26513.3.1 創建Game Plugin 26513.3.2 創建Game Agent 26813.3.3 訓練Context Classifier 27113.3.4 訓練Agent 28213.4 本章小結 286第14章 案例詳解 28714.1 AlphaGo 28714.1.1 AlphaGo的前世今生 28714.1.2 “深藍”是誰 28814.1.3 圍棋到底有多復雜 29014.1.4 論文要義 29414.1.5 成績 30214.1.6 開源項目 30314.2 AlphaGo Zero 30414.2.1 改進之處 30414.2.2 成績 30814.2.3 開源項目 30914.3 試驗場大觀 31114.3.1 StarCraftⅡ 31114.3.2 VizDoom 32014.3.3 Universe 32314.3.4 DOTA2 32414.4 本章小結 329第15章 擴展討論 33115.1 TRPO 33115.2 反向強化學習 33215.3 模型壓縮 33315.3.1 剪枝 33515.3.2 量化 33615.3.3 結構壓縮 33715.4 本章小結 339 後記 341附錄A 342A.1 安裝Ubuntu 342A.2 安裝CUDA環境 347A.3 安裝PyTorch 348A.4 下載本書示例代碼 349A.5 安裝PyCharm 350A.5.1 方法一 350A.5.2 方法二 351A.6 安裝Jupyter Notebook 351A.7 安裝相關Python依賴包 352A.7.1 安裝Box2D 352A.7.2 安裝 oCo 352A.7.3 安裝SerpentAI 355A.7.4 安裝Spritex 359A.7.5 安裝StarCraftⅡ 360A.7.6 安裝VizDoom 363A.8 安裝OpenCV 364A.9 Python語言簡介 364A.9.1 安裝Python 365A.9.2 Hello World 365A.9.3 行與縮進 365A.9.4 變量類型 366A.9.5 循環語句 367A.9.6 函數 368A.9.7 模塊 369A.9.8 小結 369A.10 本書涉及的主要開源軟件版本 369參考文獻 371
本書以“平民”的起點,從“零”開始,基於PyTorch框架,介紹深度學習和強化學習的技術與技巧,逐層鋪墊,營造良好的帶入感和親近感,把學習曲線拉平,使得沒有學過微積分等高級理論的程序員一樣能夠讀得懂、學得會。同時,本書配合漫畫插圖來調節閱讀氣氛,並對每個原理都進行了對比講解和實例說明。本書適合對深度學習和強化學習感興趣的技術人員、希望對深度學習和強化學習進行入門了解的技術人員及深度學習和強化學習領域的初級從業人員閱讀。
高揚 著
"高揚,金山辦公軟件人工智能組技術負責人,歷任歡聚時代人工智能算法專家,金山軟件西山居大數據架構師等職。重慶工商大學研究生導師,電子工業出版社博文視點大數據技術圖書專家委員會專家委員,有多年海外工作經驗。有多部白話繫列大數據與機器學習相關著作。葉振斌,現任網易遊戲伏羲人工智能實驗室高級深度學習研發工程師。多年從事機器學習,特別是強化學習智能算法的研究及開發工作。擁有豐富的軟件開發經驗,豐富的人工智能算法訓練平臺開發經驗。於2014年獲東北大學軟件工程專業學士學位,2017年獲重慶大學計算機科學與技術專業碩士學位。"
"前言當人工智能的熱潮席卷全世界的時候,當我們一次又一次為各種人工智能新作而驚嘆的時候,我們不約而同地將目光投向了深度學習領域。我們對這個既新鮮又傳統的領域有一種憧憬,甚至我們之中的許多人會在某一刻認為這可能是未來機器覺醒前的萌芽。說深度學習新鮮,是因為它在近幾年的發展確實獲得了令人矚目的成果,不論是在計算機視覺(Computer Vision,CV)領域,還是在自動語音識別(Automatic Speech Recognition,ASR)領域,抑或推薦繫統應用領域,都邁上了一個靠前的新臺階。這當然得益於計算機硬件處理能力的提升,包括CPU的速度、內存的大小、磁盤的容量;得益於新型並行計算框架的逐步成熟,例如CUDA(Compute Unified Device Architecture);得益於廣大熱衷於貢獻高質量開源軟件繫統的大廠的扛鼎力作,例如TensorFlow、Py等