強化學(xué)習(xí)基本知識_第1頁
強化學(xué)習(xí)基本知識_第2頁
強化學(xué)習(xí)基本知識_第3頁
強化學(xué)習(xí)基本知識_第4頁
強化學(xué)習(xí)基本知識_第5頁
免費預(yù)覽已結(jié)束,剩余4頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、強化學(xué)習(xí)基礎(chǔ)知識作為人工智能領(lǐng)域、機器學(xué)習(xí)(Machine Learnig)熱點研究內(nèi)容之一的強化學(xué)習(xí)(Reinforcement Learning,RL) ,旨在通過在無外界“教師”參與的情況下,智能體 (Agent) 自身通過不斷地與環(huán)境交互、試錯,根據(jù)反饋評價信號調(diào)整動作,得到最優(yōu)的策略以適應(yīng)環(huán)境。一、 Markov 決策過程(MDP)強化學(xué)習(xí)的來源是馬爾科夫決策過程: M=<S,A,P,R>Markov性的意思是x取x(1),x(2),x(3)x(n)所得到x(n+m)的分布與x只取x(n)所得到的 x(n+m) 的分布相同,既是說未來狀態(tài)的分布只與當(dāng)前狀態(tài)有關(guān),而與過去狀

2、態(tài)無關(guān)。 (無后 效性)若轉(zhuǎn)移概率函數(shù) P (s,a,s')和回報函數(shù)r(s,a,s)與決策時間t無關(guān),即不隨時間t的變化 而變化,則 MDP 稱為平穩(wěn) MDP。當(dāng)前狀態(tài)s所選取的動作是由策略h決定:S*A 0,1 A= (s)在狀態(tài)s下用策略 所選取的動作。動作后的結(jié)果是由值函數(shù)以評估,它是由 Bellman 公式得到。(折扣因子(0,1) )值函數(shù) V (s)h(s,a)R(s,a) P(s,a,s')V (s')u Us' S動作狀態(tài)值函數(shù) Q (s,a) R(s,a) P(s,a,s') Q (s',a')s' Sa

3、9; A對于確定性策略 ,有 V (s) Q (s, (s) ;一個狀態(tài)轉(zhuǎn)移概率對于不確定性策略,有V (s) (s,a)Q (s,a)多個狀態(tài)轉(zhuǎn)移概率aA強化學(xué)習(xí)的最終目的是找到最優(yōu)策略,選擇值函數(shù)最大的動作。最優(yōu)值函數(shù) V (s) max R(s,a) P(s,a,s')V*(s') s' S或者1r ,r、-. r / tr r、 t . i r . k、r,,_ *_最優(yōu)動作狀態(tài)值函數(shù) Q (s, a) R(s,a) P(s, a, s')max Q (s', a' )s' S或者兼而有之為了避免局部最優(yōu)需要進行隨機探索, 為了逼

4、近既定目標(biāo)需要抽取最優(yōu)策略, 所以算法中存在一個探索與利用的平衡。達(dá)到平衡有兩種方法:greedy 策略和 Boltzmann 分布方法(平衡離散域)對于電磁微閥控制s當(dāng)前四個微閥狀態(tài)a操作四個微閥的動作,0為關(guān)閉,1為開啟s 動作后微閥的新狀態(tài)P(s,a,s)斗犬態(tài)s調(diào)控微閥使其達(dá)到新狀態(tài)s'的概率V (s)在調(diào)控后這個狀態(tài)的累計獎賞值R(s, a) 本次動作的立即獎賞值,根據(jù)各點溫度及標(biāo)準(zhǔn)差的計算評估得到(s,a)調(diào)節(jié)微閥的各種策略二、基于模型的動態(tài)規(guī)劃算法動態(tài)規(guī)劃是一個多階段的決策問題,在最優(yōu)決策問題中,常規(guī)動態(tài)規(guī)劃算法主要分為下面四類:第一類是線性規(guī)劃法 ,根據(jù) Bellman

5、 方程將值函數(shù)的求取轉(zhuǎn)化為一個線性規(guī)劃問題;線性規(guī)劃方程包含 |S| 個變量, |S|*|A| 個不等式約束,其計算復(fù)雜度為多項式時間。max V (s)sSs.t.V(s) R(s,a) P(s,a,s')V(s'), s S, a As' S第二類是策略迭代 , 仍然是基于 Bellman 最優(yōu)方程的算法, 通過策略評估與策略迭代的交替進行來求取最優(yōu)策略;k策略迭代分為策略評估和策略改進兩部分:在評估部分,對于一個給定的策略k ,根k1據(jù)Bellman公式求解V k (s)和Q k (s,a)。對于評估部分,用貪婪策略得到改進的策略第三類是值函數(shù)迭代法, 其本質(zhì)為有

6、限時段的動態(tài)規(guī)劃算法在無限時段上的推廣, 是一種逐次逼近算法;將 Bellman 公式改寫為Vt 1(s) max P(s,a,s')( R(s, a, s')Vt(s'), s S ,就a A s' S可跳過策略改進步驟,直接用迭代法逼近最優(yōu)值函數(shù)V*, 從而求取最優(yōu)策略*第四類是廣義策略迭代法 ,綜合了策略迭代和值迭代方法特點。廣義策略評估是策略評估與策略改進相結(jié)合的學(xué)習(xí)過程。 策略評估總是試圖讓策略和相 應(yīng)的值函數(shù)一致, 而策略改進總是破壞策略評估得到的一致性。 最終策略和值函數(shù)都不再變化是迭代結(jié)束。下圖在兩個維度上(兩條線表示)描述了廣義策略迭代的逼近過

7、程,學(xué)習(xí)的最終目的是獲得最優(yōu)策略,具體的學(xué)習(xí)過程可以在值函數(shù)唯獨和策略策略維度上靈活的變化。值函數(shù)迭代方法只在值函數(shù)維度上工作,而策略迭代方法在值函數(shù)維度和策略維度上交叉進行。許多動態(tài)規(guī)劃與強化學(xué)習(xí)算法的思想都來源于廣義策略迭代。初始狀態(tài)一一|決策1| |決策2| .一一|決策n| 結(jié)束狀態(tài)三、模型未知的強化學(xué)習(xí)對于求解模型未知的 MDP問題,通常有如下3類解決思路:第一類是學(xué)習(xí) MDP的相關(guān) 模型,然后用動態(tài)規(guī)劃算法予以求解,此類方法稱為間接強化學(xué)習(xí);第二類方法不需要估計 MDP的模型,直接利用采樣對值函數(shù)或策略函數(shù)進行評估,此類方法成為直接強化學(xué)習(xí)算 法;第三類是前兩類方法的混合。1.蒙特

8、卡羅方法蒙特卡洛方法是一種以部分估計整體, 利用隨機數(shù)來解決問題的方法, 其通過統(tǒng)計模擬 或抽樣以獲得問題的近似解。該方法只是用于場景中存在終止?fàn)顟B(tài)的任務(wù)。MC策略評估主要是利用大數(shù)定律,以各個狀態(tài)的回報值的樣本平均來估計值函數(shù),最終發(fā)現(xiàn)最優(yōu)策略。V (s) average(Re turn (s)得到的回報金額已賦給第一次訪問的S,也可以將每次訪問到終止?fàn)顟B(tài)Sr的回報平均后賦予給s的值函數(shù)。鑒于MC策略評估只有在只有在無窮次迭代時才能精確計算Q ,因此有人提出了改進策略,在一幕賦值完成后將 Qk用貪婪算法來更新以得到改進策略k 1 ,這樣有利于維持探索與利用的平衡,也提高了 Q的精確度。(s)

9、 argmaxQ(s, a)a A但是面對著以上方法只利用不探索的缺陷將貪婪策略進行的改進,引入了基于£策略的在線MC控制策略,主要做了兩個改動:第一個是將初始策略用e-貪婪策略來選擇;第二個是利用£ -貪婪策略來進行策略更新。° 、 一“ 11即對于每一個a A ,(s,a)/|A|,a a*/|A|,a a*Q (s, '(s)(s,a)Q (s,a)Q (s,a) (1a A| A|a A)max Q (s, a)a a A在線策略MC控制算法中,產(chǎn)生樣本的行為策略'核和進行Q值估計的評估策略是同一策略,而在離線策略學(xué)習(xí)中兩者是獨立的,評估策

10、略用e-貪婪策略進行改進。而行為策略可以根據(jù)具體情況靈活設(shè)計。蒙特卡羅學(xué)習(xí)方法優(yōu)點是不必依賴于馬爾科夫決策過程,在模型未知時也能選擇出感興趣的狀態(tài)以求其值函數(shù),而不必遍歷所有值函數(shù)。2.時間差分TD算法時間差分指的是對同一個變量在連續(xù)兩個時刻觀測到的值的差異。假設(shè)在時刻t,系統(tǒng)的狀態(tài)st的值函數(shù)表示為 V(st), rt為在當(dāng)前狀態(tài)下根據(jù)某種動作選擇策略采取動作at后,使得狀態(tài)發(fā)生變化轉(zhuǎn)移至新狀態(tài)st+i時得到的即時獎賞。狀態(tài)st下新的值函數(shù)的估計值:V'(st) rtV(St i)那么,時刻t的時間差分為:t rtV(st 1) V(st)TD方法通過預(yù)測每個動作的長期結(jié)果來給先前動

11、作賦予獎勵或懲罰,即依賴于后續(xù)狀 態(tài)的值函數(shù)來更新先前狀態(tài)值函數(shù)的自舉方法,主要應(yīng)用于預(yù)測問題。只向后追蹤一步的預(yù)測問題TD(0)的迭代公式為(0Wa長表示學(xué)習(xí)率因子)V(st) V(st)t V(st)(rtV(sti) V(st)追蹤多步的預(yù)測問題 TD()的迭代公式為V(st) V(st)t V(st)(rt V(sti) V(st)e(st)e(st)為狀態(tài)的資格跡。對某一特定狀態(tài),其資格跡隨狀態(tài)被訪問次數(shù)的增加而增加,該狀態(tài)對整體的影響越大。資格跡定義方式分為增量型和替代型兩類。3.Q學(xué)習(xí)和sarsa學(xué)習(xí)Q學(xué)習(xí)不同于TD時序差分算法在于它用狀態(tài)-動作值函數(shù)Q(s,a)作為評估函數(shù),而

12、不是值函數(shù)V(s)。它只需采取-貪心策略選擇動作而無需知道模型就可以保證收斂,是目前最有效的強化學(xué)習(xí)算法。在 Q 學(xué)習(xí)中 Q 都是估計值而不是實際值,是從不同動作的估計值中選擇最大Q 值函數(shù)進行更新。相對于 Q學(xué)習(xí)利用模擬 Q值進行迭代的離線學(xué)習(xí),SARS得習(xí)更像是一種在線學(xué)習(xí),是嚴(yán)格根據(jù)策略 實時更新,行為決策與值函數(shù)迭代是同時進行的。它們之間的區(qū)別是更新Q(s,a)時,一個用的是根據(jù)以往經(jīng)驗預(yù)測的最優(yōu)策略,一個用的是當(dāng)前實際動作狀態(tài)值函數(shù)。Q'(st,at) Q(st,at)(rtmaxQ(st 1, a) Q(st ,a) Q-learning aQ'(st,at) Q(

13、st,at)(rtQ(st 1 ,a) Q(st ,a) SarsaQ 學(xué)習(xí)的優(yōu)化方法當(dāng)傳統(tǒng)的強化學(xué)習(xí)的問題空間SX A變得龐大的時候,有兩個嚴(yán)重的問題影響了強化學(xué)習(xí)的實用性 .其一是速率問題:SX A數(shù)據(jù)量龐大,因此強化學(xué)習(xí)算法常常收斂較慢。其二是復(fù)用問題:無論是值函數(shù) V(s)還是動作彳1函數(shù)Q(s,a)或者是策略兀,強化學(xué)習(xí)的結(jié)果總是依賴于 SX A的具體表示,這意味著只要問題略微改變,以前的學(xué)習(xí)結(jié)果就變得毫無用處.但對于某些實際問題,由于訓(xùn)練代價較高,學(xué)習(xí)結(jié)果的可復(fù)用性是非常重要的。這兩方面激勵了強化學(xué)習(xí)的遷移。 遷移學(xué)習(xí)就是復(fù)用過去的學(xué)習(xí)經(jīng)驗和結(jié)果以加速對于 新任務(wù)的學(xué)習(xí)。傳統(tǒng)的強化

14、學(xué)習(xí)方法適于處理小規(guī)模的離散狀態(tài)或離散動作學(xué)習(xí)任務(wù)而不能求解連續(xù)狀態(tài)空間和連續(xù)動作空間的問題。1 .Dyna-Q 學(xué)習(xí)對于環(huán)境復(fù)雜、信息量大、必須快速學(xué)習(xí)的情況,例如礦井下的線路規(guī)劃, Q 學(xué)習(xí)學(xué)習(xí)效率會很低,它需要采集環(huán)境中的“足夠多” 的狀態(tài)動作對和相應(yīng)值函數(shù)才能收斂,所花費時間過長,不能及時指定路線。針對這個問題,提出了改進策略,將Dyna學(xué)習(xí)框架加入到 Q學(xué)習(xí)中可以利用少許真實數(shù)據(jù)建立環(huán)境估計模型,然后用規(guī)劃法產(chǎn)生虛擬樣本并更新值函數(shù),這樣可以以增加計算復(fù)雜度來降低時間復(fù)雜度。圖1 Dyna學(xué)習(xí)框聚原理Dyna-Q學(xué)習(xí)與Q學(xué)習(xí)算法過程的區(qū)別是真實樣本T不僅要更新值函數(shù)、策略函數(shù),還要更

15、新環(huán)境的估計模型P,模型訓(xùn)練好便可產(chǎn)生虛擬樣本自行更新,轉(zhuǎn)在線為離線,集試錯于認(rèn)知,將得魚變成了得漁,提高了學(xué)習(xí)效率。但要處理好學(xué)習(xí)與規(guī)劃的平衡問題。2 .最小二乘時間差分 Q算法(LSTDQQ學(xué)習(xí)的查找表形式只適用于求解小規(guī)模、離散空間問題,而對于實際大規(guī)?;蜻B續(xù)空間問題,智能體不能遍歷所有狀態(tài), 而用最小二乘法策略迭代法即可解決,它主要通過估計值來逼近動彳值函數(shù) Q (s,a)。其矩陣描述形式為:(?其中, T(s1,a1),., T(s,a),., T (S|s|,a|A|)T表示大小為 |S|A|*k 的基函數(shù)矩陣。通過最小二乘不動點逼近法來學(xué)習(xí)參數(shù),有(I P' ) 1 R其中,P'是大小為|S|A|*|S|的矩陣,P'(s,a),s'尸P(s,a,s),大小為|S|A|*|S| 矩陣,(s',(s',a')(s')。輸出 或 (s) arg max (s, a)Ta A最小二乘策略迭代框架如下:3 .解決維數(shù)災(zāi)難的方法高維空間訓(xùn)練形成的分類器,相當(dāng)于在低維空間的一個復(fù)雜的非線性分類器,這種分類器過多的強調(diào)了訓(xùn)練集的準(zhǔn)確率甚至于對一些錯誤/異常的數(shù)據(jù)也進行了學(xué)習(xí),而正確的數(shù)據(jù)卻無法覆蓋整個特征空間, 維數(shù)越多,接近球心樣本越稀疏。 這導(dǎo)致訓(xùn)練數(shù)據(jù)量嚴(yán)重不足, 要是這時產(chǎn)生一個錯誤的新數(shù)據(jù)就會在預(yù)測時產(chǎn)生極

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論