強化學習 課件 第4章 基于價值的強化學習_第1頁
強化學習 課件 第4章 基于價值的強化學習_第2頁
強化學習 課件 第4章 基于價值的強化學習_第3頁
強化學習 課件 第4章 基于價值的強化學習_第4頁
強化學習 課件 第4章 基于價值的強化學習_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章基于價值的強化學習北京大學余欣航目錄狀態(tài)-動作價值函數SarsaQ-learningDQN狀態(tài)-動作價值函數環(huán)境已知的MDP問題

環(huán)境未知的MDP問題

與環(huán)境交互

如何學習

時間差分學習(Temporal-Differencelearning)

狀態(tài)-動作價值函數的引入

狀態(tài)-動作價值函數

SarsaSarsa

估計作為目標值預測值Q表(Q-table)

…-2102-1101-1……Q表Sarsa算法流程

Sarsa舉例

Step1:初始化Q表上下左右開始0000一個香蕉0000空區(qū)域0000兩個香蕉0000炸彈區(qū)域0000三個香蕉0000

Q表

上下左右開始0000.1一個香蕉0000空區(qū)域0000兩個香蕉0000炸彈區(qū)域0000三個香蕉0000Q表Step5:利用Q表求出最佳策略上下左右開始-11.5-12一個香蕉-1-301空區(qū)域-130-1兩個香蕉0-1-1-3炸彈區(qū)域0000三個香蕉0000Q表中狀態(tài)??所在行的最大值所對應的動作??即為當前狀態(tài)下的最佳策略Q表n-stepSarsa

Q-learningQ-learning

目標值預測值Q-learning算法流程

Q-learning舉例

Step1:初始化Q表上下左右開始0000一個香蕉0000空區(qū)域0000兩個香蕉0000炸彈區(qū)域0000三個香蕉0000

Q表Step2:狀態(tài)??下選擇動作??

上下左右開始0000.1一個香蕉0000空區(qū)域0000兩個香蕉0000炸彈區(qū)域0000三個香蕉0000Q表Step4:利用Q表求出最佳策略上下左右開始-11.5-12一個香蕉-1-301空區(qū)域-130-1兩個香蕉0-1-1-3炸彈區(qū)域0000三個香蕉0000

Q表Q-learning與SarsaSarsa和Q-learning是兩種常用的無模型強化學習算法兩種算法均基于Q表,適合狀態(tài)和動作離散的問題Sarsa中從環(huán)境產生數據的策略和更新Q值的策略相同(on-policy);Q-learning中從環(huán)境產生數據的策略和更新Q值策略不同(off-policy)Q-learning通常收斂更快,實際中更常用懸崖尋路問題目標是從起點移動到終點可以采取上、下、左、右四種動作進行移動到達除懸崖以外的方格獎勵為-1到達懸崖獎勵為-100并返回起點離開方格的動作會保持當前狀態(tài)不動并獎勵-1懸崖尋路問題:Q-learning和Sarsa的表現Q-leaning:沿著最短路徑進行Q值的學習,容易進入懸崖,導致每次迭代的累積獎勵較少迭代速度較快Sarsa:沿著較長但安全的路徑進行Q值的學習,每次迭代的累積獎勵較多迭代速度較慢Q-learningSarsaDQNQ表的局限性在Q-learning和Sarsa中,狀態(tài)和動作離散,使用Q表來保存Q值當狀態(tài)或動作數量很大或者為連續(xù)值時,使用Q表不再有效吃豆人馬里奧兄弟

值函數近似

Q表值函數近似

Q-tableDeepQNetwork一種結合了深度學習和Q-learning的強化學習算法適合狀態(tài)數量很大,動作數量較少的問題,例如Atari游戲使用深度神經網絡近似Q值MnihV,KavukcuogluK,SilverD,etal.Playingatariwithdeepreinforcementlearning[J].arXivpreprintarXiv:1312.5602,2013.DeepQNetwork

如何訓練

DQN算法流程

DQN的改進使用神經網絡近似Q值時,強化學習過程并不穩(wěn)定甚至會發(fā)散,主要原因有:數據存在一定相關性數據非平穩(wěn)分布目標Q值和預測Q值存在參數聯(lián)系針對上述問題,后續(xù)學者對DQN做出了一些改進:經驗回放(experiencereplay):應對數據相關性和非平穩(wěn)分布問題目標網絡(targetnetwork):引入新網絡計算目標Q值,減輕與預測Q值的參數聯(lián)系MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.經驗回放樣本緩存區(qū)(replaybuffer):與環(huán)境交互時,將產生的數據存儲在緩存區(qū)中均勻地隨機采樣一批數據提供給神經網絡進行訓練若緩存區(qū)數據已滿,用新數據覆蓋最舊的數據帶經驗回放的DQN算法流程

目標網絡目標Q值和預測Q值之間存在參數聯(lián)系,每次更新的目標都是固定上次更新的參數得來的,優(yōu)化目標跟著優(yōu)化過程一直在變,迭代難以收斂:引入一個與原始網絡結構一樣的模型,稱為目標網絡(targetnetwork),原模型稱為表現網絡(behaviornetwork),目標網絡計算Q-learning中的目標Q值,每當完成一定輪數迭代,表現網絡的參數同步給目標網絡targetnetworkbehaviornetworkUpdatetargetQpredictQMSE預測Q值(predictQ):目標Q值(targetQ):

帶經驗回放和目標網絡的DQN算法流程

DQN的表現右圖展示的是DQN在50多種Atari游戲上的表現圖中可以看到:DQN幾乎在所有游戲的表現上都高于歷史最好的強化學習方法對于半數以上的游戲,DQN的表現已經超越了人類狀態(tài)與動作連續(xù)的MDPDQN能處理離散動作空間的MDP問題,但不能處理連續(xù)動作空間的MDP問題例如自動駕駛問題:狀態(tài)連續(xù):傳感器捕捉到的當前路況圖像動作連續(xù):操作方向盤、踩油門、剎車等動作,方向盤轉動的角度與加速度都是連續(xù)的NAF

GuS,LillicrapT,SutskeverI,etal.Continuousdeepq-learningwithmodel-basedacceleration[C]//InternationalConferenceonM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論