了得網研究生_【按需印刷】-強化學習原理及其應用

內容簡介

POD產品說明：
1. 本產品為按需印刷（POD）圖書，實行先付款，後印刷的流程。您在頁面購買且完成支付後，訂單轉交出版社。出版社根據您的訂單采用數字印刷的方式，單獨為您印制該圖書，屬於定制產品。
2. 按需印刷的圖書裝幀均為平裝書（含原為精裝的圖書）。由於印刷工藝、彩墨的批次不同，顏色會與老版本略有差異，但通常會比老版本的顏色更準確。原書內容含彩圖的，統一變成黑白圖，原書含光盤的，統一無法提供光盤。
3. 按需印刷的圖書制作成本高於傳統的單本成本，因此售價高於原書定價。
4. 按需印刷的圖書，出版社生產周期一般為15個工作日（特殊情況除外）。請您耐心等待。
5. 按需印刷的圖書，屬於定制產品，不可取消訂單，無質量問題不支持退貨。POD產品說明：
1. 本產品為按需印刷（POD）圖書，實行先付款，後印刷的流程。您在頁面購買且完成支付後，訂單轉交出版社。出版社根據您的訂單采用數字印刷的方式，單獨為您印制該圖書，屬於定制產品。
2. 按需印刷的圖書裝幀均為平裝書（含原為精裝的圖書）。由於印刷工藝、彩墨的批次不同，顏色會與老版本略有差異，但通常會比老版本的顏色更準確。原書內容含彩圖的，統一變成黑白圖，原書含光盤的，統一無法提供光盤。
3. 按需印刷的圖書制作成本高於傳統的單本成本，因此售價高於原書定價。
4. 按需印刷的圖書，出版社生產周期一般為15個工作日（特殊情況除外）。請您耐心等待。
5. 按需印刷的圖書，屬於定制產品，不可取消訂單，無質量問題不支持退貨。

編輯推薦

《強化學習原理及其應用》可供理工科高等院校計算機科學、信息科學、人工智能和自動化技術及相關專業的教師與研究生閱讀，也可供自然科學和工程領域中的研究人員參考。

《智能科學技術著作叢書》序
序
前言
第1章強化學習概述
1.1強化學習模型及其基本要素
1.1.1強化學習模型
1.1.2強化學習基本要素
1.2強化學習的發展歷史
1.2.1試錯學習
1.2.2動態規劃與*控制
1.2.3時間差分學習
1.3強化學習研究概述
1.3.1分層強化學習研究現狀
1.3.2近似強化學習研究現狀
1.3.3啟發式回報函數設計研究現狀
1.3.4探索和利用平衡研究現狀
1.3.5基於譜圖理論的強化學習研究現狀
1.4強化學習方法的應用
1.4.1 自適應優化控制中的應用
1.4.2調度管理中的應用
1.4.3人工智能問題求解中的應用
1.5本書主要內容及安排
參考文獻
第2章強化學習基礎理論
2.1馬爾科夫決策過程概述
2.1.1馬爾科夫決策過程
2.1.2策略和值函數
2.2基於模型的動態規劃方法
2.2.1線性規劃
2.2.2策略迭代
2.2.3值迭代
2.2.4廣義策略迭代
2.3模型未知的強化學習
2.3.1強化學習基礎
2.3.2蒙特卡羅法
2.3.3時間差分TD法
2.3.4 Q學習與SARSA學習
2.3.5 Dyna學習框架
2.3.6直接策略方法
2.3.7 Actor—Critic學習
2.4近似強化學習
2.4.1帶值函數逼近的TD學習
2.4.2近似值迭代
2.4.3近似策略迭代
2.4.4*小二乘策略迭代
2.5本章小結
參考文獻
第3章基於支持向量機的強化學習
3.1支持向量機原理
3.1.1機器學習
3.1.2核學習
3.1.3 SVM的思想
3.1.4 SVM的重要概念
3.2基於半參數支持向量機的強化學習
3.2.1基於半參數回歸模型的Q學習結構
3.2.2半參數回歸模型的學習
3.2.3仿真研究
3.3基於概率型支持向量機的強化學習
3.3.1基於概率型支持向量機分類機的Q學習
3.3.2概率型支持向量分類機
3.3.3仿真研究
3.4本章小結
參考文獻
第4章基於狀態一動作圖測地高斯基的策略迭代強化學習
4.1強化學習中的基函數選擇
……
第5章基於抽像狀態的貝葉斯強化學習電梯群組調度
第6章基於增量*小二乘時間差分的Actor—Critic學習
第7章融合經驗數據的Actor—Critic強化學習
第8章基於資格跡的回報型增量自然Actor—Critic學習
第9章基於參數探索的EM策略搜索
第10章基於譜圖理論的強化學習基礎
第11章基於拉普拉斯特征映射的啟發式策略選擇
第12章基於拉普拉斯特征映射的Dyna規劃
第13章基於譜方法的強化學習遷移研究
附錄

文摘

第 1章強化學習概述
學習是人類智能的重要表現之一，人之所以能適應環境的變化並不斷提高解決問題的能力，其原因在於人能通過學習積累經驗，總結規律，以增長知識和纔能，從而更好地改善自己的決策與行為。使計算機具有學習的能力，模擬或實現人類學習活動為目的的機器學習，是人工智能的一個重要研究領域，它的研究對於人工智能的進一步發展有著舉足輕重的作用。機器學習
(machine learning)一般定義為一個繫統的自我改進的過程，以知識的自動獲取和產生為研究目標
[1]。機器學習的研究吸收了不同學科的成果和概念，包含了心理學、生理學、生物學、控制論、信息論、統計學以及人工智能在內的多種學科的交叉，具有很強的挑戰性。

在機器學習範疇，依據從繫統中獲得反饋的不同，機器學習可以分為監督學習、無監督學習和強化學習三大類 [2]。
監督學習
(supervised learning)，也稱有導師的學習。這種學習方式需要外界存在一個 “教師
”，它可對給定的一組輸入提供應有的輸出結果，而這種已知的輸入–輸出數據稱為訓練樣本集，學習的目的是減少繫統產生的實際輸出和期望輸出之間的誤差，所產生的誤差反饋給繫統以指導學習。例如，在神經網絡學習中，使用的是*小誤差學習規則。在這種方法中，學習繫統完成的是與環境沒有交互的記憶和知識重組的功能。典型的監督學習方法包括以
BP算法為代表的監督式神經網絡學習、歸納學習和基於實例的學習等。
無監督學習 (unsupervised
learning)，又稱無導師學習。它是指繫統在不存在外部教師指導的情形下來構建其內部表征。這種類型的學習完全是開環的，例如在自組織特征映射神經網絡中，網絡的權值調節不受任何外來教師指導，但在網絡內部能對基性能進行自適應調節。無監督學習中，繫統的輸入僅包含環境的狀態信息，而不存在與環境的交互。無監督學習方法主要包括各種自組織學習方法，如聚類學習、自組織神經網絡學習等。

研究者發現，生物進化過程中為適應環境而進行的學習有兩個特點：一是人從來不是靜止的被動地等待，而是主動地對環境作試探；二是環境對試探動作產生的反饋是評價性的，生物根據環境的評價來調整以後的行為，是一種從環境狀態到行為映射的學習，具有以上特點的學習就是強化學習
(reinforcement learning)，或稱再勵學習、增強學習 [3,4]。
這裡需要指出的是，強化學習是一種與監督學習、無監督學習對等的學習模式，而不是一種具體的計算方法，如神經網絡、模糊推理、遺傳算法等，但是這些計算方法可以與強化學習相結合。作為一種重要的機器學習方法，強化學習因不需要給定各種狀態下的教師信號，則對於求解復雜的優化決策問題具有廣泛的應用前景。

1.1強化學習模型及其基本要素
1.1.1強化學習模型
強化學習要解決的是這樣的問題：一個能夠感知環境的自治智能體
(Agent)，如何通過學習選擇能夠達到目標的*動作，即強化學習
Agent的任務就是學習從環境到動作的映射。強化學習不同於連接主義學習中的監督學習，主要表現在教師信號上，強化學習中由環境提供的強化信號是對
Agent所產生動作的好壞作一種評價 (通常為標量信號 )，而不是告訴 Agent如何去產生正確的動作。由於外部環境提供了很少的信息，
Agent必須靠自身的經歷進行學習。通過這種方式， Agent在行動–評價的環境中獲得知識，改進行動方案以適應環境。
Agent為適應環境而采取的學習如果具有如下特征，則稱為強化學習。
(1) Agent不是靜止的、被動的等待，而是主動對環境做出試探 [4]；

(2)
環境對試探動作反饋的信息是評價性的 (好或壞)；

(3) Agent在行動 –評價的環境中獲得知識，改進行動方案以適應環境，達到預期目的。
強化學習把學習看做是試探的過程，標準的
Agent強化學習模型如圖 1-1所示[3,4]。在圖 1-1中，強化學習 Agent接收環境狀態的輸入
s，根據內部的推理機制，輸出相應的行為動作 a。環境在動作 a的作用下，變遷到新的狀態 s礦，同時產生一個強化信號 (立即回報 )r(獎勵或懲罰
)反饋給
Agent，Agent根據強化信號和環境當前狀態選擇下一個動作，選擇的原則是使受到正的回報的概率增大。選擇的動作不僅影響立即回報值，而且影響下一時刻的狀態及*終強化值。在學習過程中，強化學習技術的基本原理是：如果繫統某個動作導致環境正的回報，那麼繫統以後產生這個動作的趨勢便會加強，反之繫統產生這個動作的趨勢便減弱。這和生理學中的條件反射原理是接近的。

可以看出，Agent在與環境進行交互時，在每一時刻循環發生如下事件序列：
(1) Agent感知當前的環境狀態 s；

(2)
針對當前的狀態和強化信號值，Agent選擇一個動作 a執行；

(3)當 Agent所選擇的動作作用於環境時，環境發生變化，即環境狀態轉移至新狀態 s礦並給出強化信號 r；
(4)強化信號 r反饋給 Agent。

圖 1-1強化學習模型
強化學習具有如下特點[3]：
(1)
強化學習是一種弱的學習方式，體現為：
Agent通過與環境不斷地試錯交互來進行學習；強化信號可能是稀疏且合理延遲的；不要求 (或要求較少 )先驗知識；
Agent在學習中所使用的反饋是一種數值回報形式，不要求有提供正確答案的教師，即環境返回的強化信號是 r，而不像監督學習中給出的教師信號 (s,
a)；

(2)
強化學習是一種增量式學習，並可以在線使用；

(3)
強化學習可以應用於不確定性環境；

(4)
強化學習的體繫結構是可擴展的。目前，強化學習繫統已擴展至規劃的合並、智能探索、監督學習和結構控制等領域。

1.1.2強化學習基本要素
由強化學習模型可以看出，一個強化學習繫統除了
Agent和環境之外，主要還有 4素：策略、值函數、回報函數和環境模型 (非必需 )。這 4素及其關繫如圖 1-2所示
[5]。強化學習繫統所面臨的環境由環境模型定義，但由於模型中狀態轉移概率函數和回報函數未知，
Agent隻能夠依賴於每次通過試錯所獲得的立即回報來選擇策略。而在選擇行為策略過程中，要考慮到環境模型的不確定性和目標的長遠性，因此在策略和立即回報之間構造值函數
(即狀態的效用函數 )，用於策略的選擇。

圖 1-2強化學習基本要素及其關繫
1.策略
策略 (policy)定義了 Agent在給定時刻的行為方式，直接決定了 Agent的動作，是強化學習的核心。策略的定義如下：
定義
1.1(策略 ) Agent在與環境交互過程中選擇動作的方法稱為策略 π : S × A → [0, 1]，S為狀態空間， A為動作空間，
π(s, a)表示在狀態 s下選擇動作 a的概率。策略的一個退化形式為 π : S → A，稱為確定性策略，表示在狀態 s下動作
π(s)的執行概率為 1，其他動作的概率執行均為 0。
關於任意狀態所能選擇的策略組成的集合 F，稱為允許策略集合， π ∈
F。在允許策略集合中存在的使問題具有*效果的策略 π.稱為*策略。策略與心理學中的刺激 –反射
(stimulus-response)規則相對應，在某些情況下策略可能是一個簡單的函數或者查找表 (lookup
table)；而在另一些情況下則可能需要大量的計算，例如搜索過程等。強化學習方法確定了 Agent怎樣根據經驗改變其策略。

2.回報函數
回報函數
(reward function)定義了一個強化學習問題的目標，它將感知的環境狀態 (或狀態 –動作對 )映射到一個強化信號
r，對產生的動作的好壞作一種評價。強化信號通常是一個標量，例如用正數表示獎賞，而用負數表示懲罰。強化學習的目的就是使
Agent*終得到的總的回報值達到*。回報函數往往是確定的、客觀的，可以作為改變策略的標準。

3.值函數
回報函數表明眼前哪些是好的，是一種
“近視 ”的表達信號，而值函數 (value function)(即狀態的效用函數，又稱評價函數 )則是 “遠視
”的表征，它表達了從長遠的角度來看哪些是好的。狀態的值所表示的意義，大致來說，是從該狀態起智能體所能積累的回報的總和。回報是環境給出的立即評價，而值函數則是隨後一繫列狀態所對應的回報的累積。回報和值函數的聯繫是：沒有回報就沒有值函數，估計值函數的目的是為了獲得更多的回報。舉例來說，一個狀態可能產生一個較低的立即回報，但是從長遠看來可能會帶來豐厚的回報和。因此，在選擇行為時，通常會依據值函數做出決策而不是回報函數。選擇那些能帶來*值函數的行為，而不是選擇那些能帶來*回報的行為。但如何確定值函數要比確定回報函數困難得多，回報通常是由環境直接給出的，但值函數一般來說要進行估計。事實上，幾乎所有強化學習算法的核心都是如何有效地估計值函數。

4.環境模型
環境模型 (model of
environment)是某些強化學習繫統的一個可選的組成部分。環境模型就是模擬環境的行為方式。例如，給定一個狀態和動作，模型可以預測下一個狀態和回報。利用環境的模型，
Agent在做決策的同時可以考慮未來可能發生但尚未實際經歷的情形，從而進行規劃
(planning)。將模型和規劃加入到強化學習繫統是一個比較新的發展方向，它聯繫了強化學習與動態規劃等其他基於模型或部分模型的方法，形成了一些較實用的新方法。

1.2強化學習的發展歷史
強化學習的發展主要包括 3條主線：試錯
(trial-and-error)學習、動態規劃與*控制和時間差分 (temporal di.erence，TD)學習 (圖
1-3)。在經歷了各自不同的進程之後，*終在 20世紀 80年代形成了現代強化學習的基本框架[6,8]。

圖 1-3強化學習的發展主線
1.2.1試錯學習
*條主線源於動物學習的心理學，通過試錯達到學習的目的。這條主線貫穿於人工智能早期的研究工作中，也是使
20世紀 80年初期強化學習復蘇的重要因素。*早簡潔表述 “試錯學習 ”的是 Thorndike，他於 1911年提出了 “響應定律”(law
of e.ect)。Thorndike[9]認為：
“對於同一環境所做的幾個響應，當那些伴隨或緊跟著的響應使動物意願得到滿足且其他的條件相同時，對環境的聯繫將會被加強，所以，當環境重現時，這些響應重現的概率將更大。當那些同時或緊跟著的響應使動物的意願受挫且在相同的其他條件下，與環境的聯繫將會削弱，所以，當環境重現時，它們出現的概率將越小。得到的滿足程度越大，響應和環境的聯繫加強得越多。而不滿足的程度越大，響應與環境的聯繫削弱得越多。
”
從上述描述可以看出，
Thorndike思想的本質是：強調行為的結果有優劣之分並成為行為選擇的依據，同時指出能夠導致正回報的行為選擇概率將增加，而導致負回報的行為選擇概率則降低。
Thorndike的思想包含了試錯的
2個重要特點：選擇性和聯想性。選擇性就是嘗試學習不同動作並比較不同結果；聯想性是指將可選擇的動作與特定的狀態聯繫在一起。進化學習中的自然選擇具有選擇性，但不具有聯想性；監督學習則僅具有聯想性而不具有選擇性。另外，
“響應定律 ”還反映了強化學習的另兩個重要特性，即搜索和記憶。
雖然在心理學和其他學科上，響應定律都曾引起過非常多的爭論，但是這些年來，由於其基本思想已被實驗所證實，而且從直覺上看非常正確，所以該定律十分具有影響力。這是一種將搜索與記憶相結合的方法，它能夠在多種試驗動作中搜索，然後記住效果*好的動作。相對於監督學習原則來說，
“響應定律 ”是一種依靠選擇的學習原則。
*早進行試錯學習研究的可能是 Minsky、Farley和 Clark等於 1954年開始的。 Minsky在他的博士論文中描述了一種叫作 SNARC(stochasti

商品搜索

商品分类

【醫學】

【各大出版社】

編輯推薦

目錄

文摘