版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
強化學習理論及自動駕駛應用實踐第十章DeepLearningAndAutonomousDriving深度學習與自動駕駛應用DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第2頁10.4策略梯度強化學習方法10.1強化學習概述10.3表格型強化學習方法10.2強化學習基礎(chǔ)理論10.5實踐項目目錄ContentDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第3頁10.1強化學習概述機器學習回顧無監(jiān)督學習監(jiān)督學習機器學習分類回歸……聚類……DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第4頁10.1強化學習概述機器學習與其他機器學習的關(guān)系DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第5頁10.1強化學習概述機器學習系統(tǒng)兩部分三要素環(huán)境智能體狀態(tài)/觀測值動作獎勵DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第6頁10.1強化學習概述MountainCar環(huán)境:整個游戲智能體:小車動作:向左施力、向右施力、不施力獎勵信號:是否到達右側(cè)山峰旗幟處狀態(tài):小車的位置MountainCar兩部分三要素環(huán)境智能體狀態(tài)/觀測值動作獎勵DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第7頁10.1強化學習概述強化學習目標智能體唯一目標:最大化長期總收益策略價值函數(shù)價值函數(shù)環(huán)境建模(可選)DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第8頁10.1強化學習概述監(jiān)督學習玩MountainCar神經(jīng)網(wǎng)絡各方向施力的概率反向傳播在MountainCar中,無法定義正確動作的標簽。即使定義了標簽,數(shù)據(jù)之間的序貫性也使得模型難以訓練DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第9頁10.1強化學習概述強化學習玩MountainCar右施力右施力右施力不施力右施力不施力左施力左施力勝利右施力左施力左施力不施力右施力失敗左施力左施力不施力右施力右施力右施力失敗右施力右施力左施力右施力左施力不施力右施力勝利可能的序列:讓智能體嘗試游玩,對狀態(tài)、動作進行采樣,游戲結(jié)束后對每個動作進行獎懲DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第10頁10.1強化學習概述強化學習面臨的問題右施力右施力右施力不施力右施力不施力左施力左施力勝利右施力左施力左施力不施力右施力失敗左施力左施力不施力右施力右施力右施力失敗右施力右施力左施力右施力左施力不施力右施力勝利可能的序列:1.輸入的數(shù)據(jù)間具有強烈的序貫性2.訓練過程中存在獎勵延遲現(xiàn)象DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第11頁10.1強化學習概述強化學習學習方式探索與利用舊飯店吃好吃的探索新飯店優(yōu)秀的探店博主應用層DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第12頁10.1強化學習概述按環(huán)境模型分類環(huán)境建模(可選)基于模型無模型1.動態(tài)規(guī)劃2.…1.Q-learning2.DQN3.…DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第13頁10.1強化學習概述按學習目標分類對智能體的訓練可以分為基于價值和基于策略策略價值函數(shù)價值函數(shù)DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第14頁10.1強化學習概述按學習目標分類確定性策略隨機性策略DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第15頁10.1強化學習概述強化學習分類強化學習有模型無模型基于價值基于策略動態(tài)規(guī)劃……Q-learning……策略梯度……DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第16頁10.2強化學習基礎(chǔ)理論馬爾可夫過程(MP)馬爾科夫性質(zhì):一個隨機過程在給定現(xiàn)在狀態(tài)和所有過去狀態(tài)的情況下,其未來狀態(tài)的條件概率分布僅依賴于當前狀態(tài)馬爾科夫過程:一個滿足馬爾科夫性質(zhì)的隨機過程。其未來的轉(zhuǎn)移和過去是獨立的DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第17頁10.2強化學習基礎(chǔ)理論機器人回收問題回收機器人狀態(tài)高電平低電平動作搜索等待充電DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第18頁10.2強化學習基礎(chǔ)理論馬爾可夫決策過程(MDP)
p=1r=0a=充電高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1sas’P(s’|s,a)R(s,a,s’)高搜索高α1高搜索低1-α1低搜索高1-β-3低搜索低β1高等待高1-1高等待低0-1低等待高0-1低等待低1-1低充電高10低充電低00狀態(tài)轉(zhuǎn)移過程折扣累計回報
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第19頁10.2強化學習基礎(chǔ)理論值函數(shù)狀態(tài)值函數(shù)動作值函數(shù)s0(r1,s1)(r3,s3)s0(r2,s2)(r4,s4)
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第20頁10.2強化學習基礎(chǔ)理論有模型方法α與β均為已知參數(shù),問題的全局信息已知。智能體無需與環(huán)境進行互動。此時問題為一動態(tài)規(guī)劃問題,可以很方便求解。通過策略迭代方法或值迭代方法求解狀態(tài)值函數(shù)V,從而獲得最優(yōu)解。有模型強化學習策略評估策略改善動態(tài)規(guī)劃DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第21頁10.2強化學習基礎(chǔ)理論動態(tài)規(guī)劃障礙物R:-1終點R:1/people/karpathy/reinforcejs/gridworld_dp.htmlDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第22頁10.2強化學習基礎(chǔ)理論動態(tài)規(guī)劃策略評估策略更新DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第23頁10.2強化學習基礎(chǔ)理論動態(tài)規(guī)劃策略評估策略更新DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第24頁10.2強化學習基礎(chǔ)理論動態(tài)規(guī)劃算法收斂優(yōu)點缺點1.難以處理連續(xù)動作與連續(xù)狀態(tài)問題2.需要環(huán)境模型完全已知,這在實踐中幾乎無法做到1.在數(shù)學上可以精確表達與分析2.處理小規(guī)模問題時,表現(xiàn)穩(wěn)定且收斂速度較快DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第25頁10.3表格型強化學習方法無模型方法p=1r=0a=充電高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1α與β均為未知參數(shù),這時需要智能體與環(huán)境進行交互,從而選擇合適的策略使得獎勵最大化無模型強化學習
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第26頁10.3表格型強化學習方法表格型思想搜索等待充電高000低000Q表格狀態(tài)值函數(shù)動作值函數(shù)DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第27頁10.3表格型強化學習方法蒙特卡洛思想
累計折扣收益累計折扣收益期望近似狀態(tài)值函數(shù)蒙特卡洛方法難以應用于無終止的問題,但其思想可以與其他方法結(jié)合DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第28頁10.3表格型強化學習方法時序差分(TD)蒙特卡洛方法
時序差分法TD(0)
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第29頁10.3表格型強化學習方法基于時序差分法的Sarsa算法時序差分法TD(0)
Sarsa算法
TDtargetSarsa算法需要用到s,a,r,s’,a’五個參數(shù),故名SarsaTDerrorDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第30頁10.3表格型強化學習方法基于時序差分法的Q-learningQ-learningSarsa算法
異策略off-policy相較于Sarsa,Q-learing更具有試探性
同策略on-policyDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第31頁10.3表格型強化學習方法尋路問題
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第32頁10.3表格型強化學習方法尋路問題
【解】可將該網(wǎng)格游戲看成是一個馬爾科夫決策過程,其中狀態(tài)空間包括當前位置、陷阱位置、目標位置以及空位置,并將兩個陷阱位置設為同一個狀態(tài),決策空間包括上下左右四個動作,分別用0,1,2,3表示,如下圖所示。
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第33頁10.3表格型強化學習方法尋路問題(Sarsa)
第1次迭代:設置初始位置的狀態(tài)動作值函數(shù)取值均為0,如下表所示:
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第34頁10.3表格型強化學習方法尋路問題(Sarsa)
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第35頁10.3表格型強化學習方法尋路問題(Sarsa)
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第36頁10.3表格型強化學習方法尋路問題(Sarsa)
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第37頁10.3表格型強化學習方法尋路問題算法結(jié)果DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第38頁10.3表格型強化學習方法值函數(shù)近似替代方法表格型Q函數(shù)線性Q函數(shù)非線性Q函數(shù)深度學習Q函數(shù)簡單復雜
TDerror損失函數(shù)最小化Sarsa算法
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第39頁10.3表格型強化學習方法DQN目標函數(shù)經(jīng)驗回放機制網(wǎng)絡設計
預測網(wǎng)絡目標網(wǎng)絡
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第40頁10.3表格型強化學習方法DQNQ表格神經(jīng)網(wǎng)絡DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第41頁10.3表格型強化學習方法DQNDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第42頁10.3表格型強化學習方法DDQN通過Q-eval選取最大Q值對應動作根據(jù)動作計算Q-target目標函數(shù):Q-eval–Q-target
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第43頁10.3表格型強化學習方法DDQNDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第44頁10.3表格型強化學習方法DRQNReplayMemory經(jīng)驗池存儲內(nèi)存有限LSTM記憶DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第45頁10.3策略梯度強化學習方法基于策略的強化學習方法Q-learning
由價值函數(shù)產(chǎn)生策略基于策略
價值不同采取動作概率不同DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第46頁10.3策略梯度強化學習方法隨機性策略與確定性策略隨機性策略確定性策略輸出動作概率分布輸出確定動作DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第47頁10.3策略梯度強化學習方法隨機性策略方法梯度下降法蒙特卡洛思想目標函數(shù)
評價函數(shù)策略梯度定理
評價函數(shù)動作值函數(shù)
DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第48頁10.3策略梯度強化學習方法Actor-Critic蒙特卡洛梯度下降法蒙特卡洛方法帶來較大的噪聲和誤差,無法相對準確地描述動作值函數(shù)
演員評論家算法
ActorCriticDeepLearningAndAutonomousDriving深度學習與自動駕駛應用第49頁10.3策略梯度強化學習方法Actor-CriticMC-AC算法A3C算法/princewen/tensorflow_practice/tree/master/RL/Basic-AC-DemoA2C算法DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第50頁10.3策略梯度強化學習方法MountainCarTRPO算法AC算法訓練過程中采用固定步長使得算法存在發(fā)散的可能性PPO算法獎勵函數(shù)單調(diào)不減重要性采樣保守策略迭代KL散度替換訓練步長TRPO的近似版本目標函數(shù)引入KL散度目標函數(shù)修剪項DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第51頁10.3策略梯度強化學習方法DQN與AC的優(yōu)缺點DQNAC確定性策略和off-policy隨機性策略和on-policy算法收斂快無法處理連續(xù)問題可以處理連續(xù)問題算法收斂慢DeepLearningAndAutonomousDriving深度學習與自動駕駛應用第52頁10.3策略梯度強化學習方法DDPGDQNACDDPGDPG早前的研究
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)業(yè)安全生產(chǎn)管理辦法
- 動物救助捐贈管理計劃
- 體育賽事巴士租賃合同
- 神經(jīng)外科人才聘用合同模板
- 2022年大學森林資源專業(yè)大學物理下冊月考試卷C卷-附解析
- 2022年大學生物科學專業(yè)大學物理二月考試題C卷-附解析
- 25樓地面采暖工程施工合同
- 2022年大學數(shù)學專業(yè)大學物理二期末考試試卷D卷-附解析
- 2022年大學口腔醫(yī)學專業(yè)大學物理二期末考試試卷-附解析
- 新生兒濕疹護理健康宣教
- 【課件】第4課 畫外之意-中國傳統(tǒng)花鳥畫、人物畫 課件-2022-2023學年高中美術(shù)人教版(2019)美術(shù)鑒賞
- 堤壩拋石固腳施工方案(標準版)
- 醫(yī)療器械不良事件報告表
- 災難救援現(xiàn)場的檢傷分類方法
- 探秘瀾滄江-湄公河流域的河流地貌(公共課件)
- 盤扣支架施工合同
- 建筑工程各種材料臺賬樣表格模板
- 配餐學校供餐企業(yè)交接餐檢查記錄表
- 通風隊崗位說明書XXXX117
- 初中體育與健康人教九年級(2023年修訂) 田徑初三跨欄教案
- DB13T 5216-2020 建設用地土壤污染風險篩選值
評論
0/150
提交評論