人工智能 課件 第六章 強(qiáng)化學(xué)習(xí)_第1頁
人工智能 課件 第六章 強(qiáng)化學(xué)習(xí)_第2頁
人工智能 課件 第六章 強(qiáng)化學(xué)習(xí)_第3頁
人工智能 課件 第六章 強(qiáng)化學(xué)習(xí)_第4頁
人工智能 課件 第六章 強(qiáng)化學(xué)習(xí)_第5頁
已閱讀5頁,還剩128頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能第6章強(qiáng)化學(xué)習(xí)本章簡介強(qiáng)化學(xué)習(xí)是一種旨在通過智能體與環(huán)境的交互來最大化獎(jiǎng)勵(lì),從而實(shí)現(xiàn)特定目標(biāo)的機(jī)器學(xué)習(xí)方法。基本原理是,當(dāng)某個(gè)動(dòng)作策略導(dǎo)致環(huán)境給出正獎(jiǎng)勵(lì)信號(hào)時(shí),智能體會(huì)增強(qiáng)該動(dòng)作策略的趨勢(shì)。智能體的目標(biāo)是在每個(gè)狀態(tài)中找到最優(yōu)策略,以達(dá)成預(yù)期的折扣獎(jiǎng)勵(lì)和最大值。在強(qiáng)化學(xué)習(xí)中,智能體根據(jù)獎(jiǎng)勵(lì)信號(hào)和當(dāng)前狀態(tài)選擇動(dòng)作,并通過試探評(píng)價(jià)過程逐步優(yōu)化策略。本章介紹了多種強(qiáng)化學(xué)習(xí)算法,關(guān)鍵在于設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),以幫助算法區(qū)分行動(dòng)的好壞。近年來,隨著計(jì)算能力的提高,深度強(qiáng)化學(xué)習(xí)成為發(fā)展趨勢(shì)。本章提綱6.1強(qiáng)化學(xué)習(xí)基本思想6.2強(qiáng)化學(xué)習(xí)系統(tǒng)6.3強(qiáng)化學(xué)習(xí)方法6.4強(qiáng)化學(xué)習(xí)實(shí)例本章提綱6.1強(qiáng)化學(xué)習(xí)基本思想6.2強(qiáng)化學(xué)習(xí)系統(tǒng)6.3強(qiáng)化學(xué)習(xí)方法6.4強(qiáng)化學(xué)習(xí)實(shí)例強(qiáng)化學(xué)習(xí)概念強(qiáng)化學(xué)習(xí)發(fā)展歷程研究現(xiàn)狀和展望本節(jié)小結(jié)6.1強(qiáng)化學(xué)習(xí)基本思想強(qiáng)化學(xué)習(xí)原理智能體的目標(biāo)是發(fā)現(xiàn)最優(yōu)策略以達(dá)成預(yù)期的折扣獎(jiǎng)勵(lì)和最大值,選擇動(dòng)作影響立即的強(qiáng)化值和環(huán)境的下一狀態(tài);強(qiáng)化學(xué)習(xí)是試探評(píng)價(jià)過程,可以用于訓(xùn)練智能體。強(qiáng)化學(xué)習(xí)分類強(qiáng)化學(xué)習(xí)標(biāo)準(zhǔn)模型是馬爾可夫決策過程,分基于模型、無模型、主動(dòng)強(qiáng)化學(xué)習(xí)被動(dòng)強(qiáng)化學(xué)習(xí);變體包括逆向強(qiáng)化學(xué)習(xí)、階層強(qiáng)化學(xué)習(xí)和部分可觀測(cè)系統(tǒng)的強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)概述強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方法,解決智能體在與環(huán)境的交互中,以最大化的“獎(jiǎng)勵(lì)”實(shí)現(xiàn)特定目標(biāo);基本原理是,正獎(jiǎng)勵(lì)信號(hào)會(huì)加強(qiáng)智能體產(chǎn)生動(dòng)作策略的趨勢(shì)。0302016.1.1強(qiáng)化學(xué)習(xí)概念強(qiáng)化學(xué)習(xí)算法求解強(qiáng)化學(xué)習(xí)問題所使用的算法可分為策略搜索算法和值函數(shù)算法兩類;不同于監(jiān)督和非監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)不要求預(yù)先給定任何數(shù)據(jù),通過接收環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)獲得學(xué)習(xí)信息。強(qiáng)化學(xué)習(xí)過程強(qiáng)化學(xué)習(xí)理論側(cè)重在線學(xué)習(xí),并試圖在探索-利用間保持平衡;環(huán)境對(duì)動(dòng)作提供評(píng)價(jià),智能體通過試錯(cuò)學(xué)習(xí)指導(dǎo)動(dòng)作,目標(biāo)是使智能體獲得最大的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)設(shè)計(jì)標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)中,智能體通過獲取環(huán)境狀態(tài),采取動(dòng)作獲得獎(jiǎng)勵(lì)來調(diào)整策略;優(yōu)化系統(tǒng)性能;積極獎(jiǎng)勵(lì)加強(qiáng)動(dòng)作趨勢(shì),隨機(jī)單元搜索正確動(dòng)作;設(shè)計(jì)訓(xùn)練流程復(fù)雜。6.1.1強(qiáng)化學(xué)習(xí)概念強(qiáng)化學(xué)習(xí)應(yīng)用強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人控制、自然語言處理、智能游戲等領(lǐng)域;阿爾法圍棋是第一個(gè)擊敗人類職業(yè)圍棋選手的人工智能機(jī)器人,由谷歌旗下DeepMind公司開發(fā)。阿爾法圍棋阿爾法圍棋使用了強(qiáng)化學(xué)習(xí)算法優(yōu)化策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),通過模擬對(duì)弈評(píng)估棋步優(yōu)劣,調(diào)整參數(shù)學(xué)會(huì)最優(yōu)決策;深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合形成了深度強(qiáng)化學(xué)習(xí)理論。阿爾法圍棋戰(zhàn)績2016年到2017年,阿爾法圍棋與圍棋世界冠軍李世石對(duì)戰(zhàn)獲勝,在中國棋類網(wǎng)站上以“大師”為注冊(cè)賬號(hào)與中日韓數(shù)十位圍棋高手對(duì)決,連續(xù)60局無一敗績。新版阿爾法圍棋2017年10月18日,DeepMind團(tuán)隊(duì)公布了更強(qiáng)大的新版阿爾法圍棋;它能產(chǎn)生大量自我對(duì)弈棋局,為下一代版本提供了訓(xùn)練數(shù)據(jù),這個(gè)過程不斷循環(huán)迭代。010203046.1.1強(qiáng)化學(xué)習(xí)概念早期研究階段在早期研究階段,強(qiáng)化學(xué)習(xí)主要是一種理論研究方法,使用傳統(tǒng)控制理論和動(dòng)態(tài)規(guī)劃解決智能體學(xué)習(xí)問題,如理查德·貝爾曼的動(dòng)態(tài)規(guī)劃理論應(yīng)用于迷宮求解和背包問題等簡單問題。強(qiáng)化學(xué)習(xí)的發(fā)展在發(fā)展中,斯坦福大學(xué)的JohnH.Conway提出了Q-learning理論,時(shí)序差分學(xué)習(xí)算法得到探索;DeepMind等公司提出DeepQ-Network、PolicyGradient等里程碑成果。深度強(qiáng)化學(xué)習(xí)崛起深度學(xué)習(xí)成為主流方法,通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)有效處理和表達(dá),開發(fā)出深度強(qiáng)化學(xué)習(xí)算法;DeepQ-Network可以學(xué)習(xí)復(fù)雜決策任務(wù),策略梯度和演員-評(píng)論家算法取得巨大發(fā)展。6.1.2強(qiáng)化學(xué)習(xí)發(fā)展歷程深度強(qiáng)化學(xué)習(xí)開始被廣泛應(yīng)用于復(fù)雜現(xiàn)實(shí)場景中,如智能交通、自然語言處理、機(jī)器人等領(lǐng)域;技術(shù)公司如Google、Microsoft等將其應(yīng)用于產(chǎn)品中,如自動(dòng)駕駛汽車、智能音箱等。深度強(qiáng)化學(xué)習(xí)在IOT、娛樂游戲、教育、金融等領(lǐng)域展現(xiàn)出了很大的潛力;從探索到深度強(qiáng)化學(xué)習(xí)的崛起,始終站在人工智能領(lǐng)域的前沿,為智能系統(tǒng)的追求做出了重要貢獻(xiàn)。強(qiáng)化學(xué)習(xí)應(yīng)用強(qiáng)化學(xué)習(xí)潛力6.1.2強(qiáng)化學(xué)習(xí)發(fā)展歷程深度強(qiáng)化學(xué)習(xí):深度神經(jīng)網(wǎng)絡(luò)引入強(qiáng)化學(xué)習(xí),構(gòu)建高績效模型,適用于連續(xù)、高維、非線性問題;代表性算法包括深度Q網(wǎng)絡(luò)、深度確定性策略梯度等,在游戲、機(jī)器人等領(lǐng)域取得優(yōu)秀成果。元強(qiáng)化學(xué)習(xí):標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)求解特定MDP的最優(yōu)策略,但訓(xùn)練成本高且環(huán)境變化后需重新訓(xùn)練;元學(xué)習(xí)引入經(jīng)驗(yàn)積累,迅速適應(yīng)新任務(wù);Meta-RL學(xué)的是適應(yīng)新任務(wù)的學(xué)習(xí)算法,把學(xué)習(xí)RL算法本身當(dāng)做RL問題。多智能體強(qiáng)化學(xué)習(xí):傳統(tǒng)強(qiáng)化學(xué)習(xí)假設(shè)獨(dú)立的交互,現(xiàn)實(shí)場景中智能體需協(xié)作或競爭,多智能體強(qiáng)化學(xué)習(xí)模型面臨穩(wěn)定性和非平衡性問題;獨(dú)立決策器、協(xié)作Q學(xué)習(xí)等算法使其在博弈等領(lǐng)域廣泛應(yīng)用。逆強(qiáng)化學(xué)習(xí):傳統(tǒng)強(qiáng)化學(xué)習(xí)智能體需優(yōu)化獎(jiǎng)勵(lì)函數(shù),但設(shè)計(jì)需要領(lǐng)域知識(shí)和經(jīng)驗(yàn);逆強(qiáng)化學(xué)習(xí)從環(huán)境中獲取反饋學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),代表算法有最大熵IRL、逆強(qiáng)化策略梯度等,應(yīng)用于自動(dòng)駕駛等領(lǐng)域。6.1.3研究現(xiàn)狀和展望

強(qiáng)化學(xué)習(xí)基于試錯(cuò)與反饋,智能體在環(huán)境中交互學(xué)習(xí),通過試錯(cuò)和優(yōu)化最大化獎(jiǎng)勵(lì),應(yīng)用于機(jī)器人控制、游戲玩家等領(lǐng)域。

探索與利用平衡,探索未知領(lǐng)域,發(fā)現(xiàn)新策略;利用已有經(jīng)驗(yàn)選最優(yōu)行動(dòng),平衡兩者提高性能和效率。聚焦優(yōu)化策略主流方法,用神經(jīng)網(wǎng)絡(luò)近似價(jià)值函數(shù),追求更高效精確近似,實(shí)現(xiàn)多個(gè)智能體交互協(xié)作,共謀解決探索與利用平衡問題。6.1.4本節(jié)小結(jié)本章提綱6.1強(qiáng)化學(xué)習(xí)基本思想6.2強(qiáng)化學(xué)習(xí)系統(tǒng)6.3強(qiáng)化學(xué)習(xí)方法6.4強(qiáng)化學(xué)習(xí)實(shí)例系統(tǒng)組成強(qiáng)化學(xué)習(xí)方法類型強(qiáng)化學(xué)習(xí)特有概念馬爾可夫決策過程貝爾曼方程本節(jié)小結(jié)6.2強(qiáng)化學(xué)習(xí)系統(tǒng)智能體狀態(tài)動(dòng)作環(huán)境學(xué)習(xí)算法模型策略價(jià)值函數(shù)6.2.1系統(tǒng)組成智能體概述智能體是強(qiáng)化學(xué)習(xí)系統(tǒng)的核心,是與環(huán)境交互的主體,通過感知環(huán)境狀態(tài)并選擇動(dòng)作,以期望達(dá)到最優(yōu)結(jié)果。智能體實(shí)現(xiàn)智能體通常由計(jì)算機(jī)程序?qū)崿F(xiàn),可以采用不同的編程語言和框架來實(shí)現(xiàn),以接收環(huán)境信息、制定策略并選擇動(dòng)作。智能體6.2.1系統(tǒng)組成狀態(tài)定義智能體的狀態(tài)表示智能體當(dāng)前所處的狀態(tài),包括智能體的感知、思維、決策和動(dòng)作。狀態(tài)描述狀態(tài)由一組數(shù)據(jù)描述,這些數(shù)據(jù)可以是傳感器數(shù)據(jù)、環(huán)境信息、歷史經(jīng)驗(yàn)等。狀態(tài)6.2.1系統(tǒng)組成動(dòng)作是智能體在環(huán)境中執(zhí)行的操作,如移動(dòng)、感知、思維等。動(dòng)作的定義動(dòng)作由一組規(guī)則描述,這些規(guī)則定義了動(dòng)作的順序、時(shí)間和空間。動(dòng)作的描述根據(jù)當(dāng)前的狀態(tài)和策略,智能體選擇并執(zhí)行合適的動(dòng)作。動(dòng)作的選擇動(dòng)作0102036.2.1系統(tǒng)組成獎(jiǎng)勵(lì)是智能體在執(zhí)行動(dòng)作后獲得的反饋,可以是即時(shí)獎(jiǎng)勵(lì)或延遲獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)機(jī)制是引導(dǎo)智能體優(yōu)化其行為的關(guān)鍵。獎(jiǎng)勵(lì)機(jī)制獎(jiǎng)勵(lì)可以激勵(lì)智能體選擇更優(yōu)的動(dòng)作,逐步優(yōu)化其行為策略,以最大化累積獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)機(jī)制是強(qiáng)化學(xué)習(xí)中的關(guān)鍵組成部分。獎(jiǎng)勵(lì)的作用獎(jiǎng)勵(lì)6.2.1系統(tǒng)組成確定性環(huán)境在確定性環(huán)境中,根據(jù)當(dāng)前的狀態(tài),我們可以精確地知道接下來動(dòng)作的結(jié)果,這為我們提供了清晰的決策依據(jù)。象棋游戲例如,在下象棋的時(shí)候,我們可以根據(jù)當(dāng)前棋子的位置和移動(dòng)規(guī)則,準(zhǔn)確預(yù)測(cè)在移動(dòng)一顆棋子后的確切結(jié)果。環(huán)境6.2.1系統(tǒng)組成環(huán)境擲骰子隨機(jī)環(huán)境的一個(gè)典型例子是擲骰子,我們無法預(yù)知骰子上的數(shù)字,只能根據(jù)概率來猜測(cè)可能的結(jié)果。隨機(jī)性環(huán)境在隨機(jī)環(huán)境中,根據(jù)當(dāng)前的狀態(tài)無法確定動(dòng)作的結(jié)果,這種不確定性為決策過程帶來了更大的挑戰(zhàn)。6.2.1系統(tǒng)組成完全可觀測(cè)環(huán)境在完全可觀測(cè)環(huán)境中,智能體可以獲取系統(tǒng)的完整狀態(tài)信息,這為決策提供了充分的信息支持。圍棋在下圍棋時(shí),棋盤上所有棋子的位置信息都是確定的,智能體可以根據(jù)這些信息來評(píng)估局面,制定下一步的棋局策略。環(huán)境6.2.1系統(tǒng)組成部分可觀測(cè)環(huán)境如果智能體無法在任何時(shí)刻都確定系統(tǒng)狀態(tài),該環(huán)境即部分可觀測(cè)環(huán)境。例子玩橋牌時(shí)只有自己的牌確定已知,對(duì)手的牌是未知的,是部分可觀測(cè)環(huán)境的例子。環(huán)境6.2.1系統(tǒng)組成如果從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)后的動(dòng)作狀態(tài)集是有限的,該環(huán)境即離散環(huán)境。離散環(huán)境國際象棋中,移動(dòng)棋子后的狀態(tài)為有限集,是離散環(huán)境的一種體現(xiàn)。例子環(huán)境6.2.1系統(tǒng)組成連續(xù)環(huán)境如果從一個(gè)狀態(tài)到另一個(gè)狀態(tài)后動(dòng)作狀態(tài)集是無限的,該環(huán)境即連續(xù)環(huán)境。例子一張白紙上A點(diǎn)到B點(diǎn)可以畫出無數(shù)條路徑,構(gòu)成一個(gè)連續(xù)環(huán)境。環(huán)境6.2.1系統(tǒng)組成非序貫環(huán)境在非序貫環(huán)境中,智能體的當(dāng)前動(dòng)作不影響未來動(dòng)作,執(zhí)行的是獨(dú)立任務(wù)。序貫環(huán)境環(huán)境在序貫環(huán)境中,智能體的當(dāng)前動(dòng)作會(huì)影響未來動(dòng)作,智能體前后的動(dòng)作是相關(guān)的。01026.2.1系統(tǒng)組成環(huán)境中有一個(gè)智能體即單智能體環(huán)境,有多個(gè)智能體即多智能體環(huán)境。單智能體環(huán)境在執(zhí)行復(fù)雜任務(wù)時(shí)常使用多智能體環(huán)境,各智能體之間可以相互通信。多智能體環(huán)境多智能體環(huán)境具有較大程度的不確定性,多為隨機(jī)環(huán)境。多智能體隨機(jī)性環(huán)境0102036.2.1系統(tǒng)組成6.2.1系統(tǒng)組成模型是智能體(Agent)的一種表示,代表著智能體執(zhí)行動(dòng)作時(shí),環(huán)境會(huì)發(fā)生什么,并可能獲得什么回報(bào)。模型策略決定智能體(Agent)如何選擇動(dòng)作。策略價(jià)值函數(shù)是對(duì)下次預(yù)期獲得獎(jiǎng)勵(lì)的折扣總和。價(jià)值函數(shù)學(xué)習(xí)算法010203狀態(tài)轉(zhuǎn)移模型是預(yù)測(cè)下一次智能體狀態(tài)的關(guān)鍵,它基于當(dāng)前狀態(tài)和動(dòng)作來模擬環(huán)境動(dòng)態(tài),為智能體提供未來狀態(tài)的可能性和趨勢(shì)。狀態(tài)轉(zhuǎn)移模型獎(jiǎng)勵(lì)模型是預(yù)測(cè)即刻獎(jiǎng)勵(lì)的關(guān)鍵,它根據(jù)當(dāng)前狀態(tài)和動(dòng)作來估計(jì)智能體所獲得的即時(shí)獎(jiǎng)勵(lì),以指導(dǎo)智能體在決策過程中追求最大的累積獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)模型模型6.2.1系統(tǒng)組成策略是影響智能體動(dòng)作選擇的關(guān)鍵因素,它決定了智能體在特定狀態(tài)下采取何種動(dòng)作。策略的形式化表示:策略用符號(hào)π表示,它從狀態(tài)(States)到動(dòng)作(Actions)的映射,即π:s→a,為智能體在每個(gè)狀態(tài)下選擇合適的動(dòng)作提供了明確指導(dǎo)。策略6.2.1系統(tǒng)組成價(jià)值函數(shù)價(jià)值函數(shù)是以折扣總和預(yù)期獎(jiǎng)勵(lì),加權(quán)即時(shí)獎(jiǎng)勵(lì)和長期獎(jiǎng)勵(lì),折扣系數(shù)γ介于0到1之間。價(jià)值函數(shù)的作用:價(jià)值函數(shù)可用于評(píng)判不同狀態(tài)、動(dòng)作的好壞程度,并且可以通過策略的比較決定如何執(zhí)行動(dòng)作。6.2.1系統(tǒng)組成基于模型的方法無模型的方法離線學(xué)習(xí)方法在線學(xué)習(xí)方法基于價(jià)值方法、優(yōu)勢(shì)、舉例基于策略方法6.2.2強(qiáng)化學(xué)習(xí)方法類型基于模型的方法在強(qiáng)化學(xué)習(xí)中,基于模型的方法是指利用已知的環(huán)境模型,通過動(dòng)態(tài)規(guī)劃等方法來計(jì)算狀態(tài)估值,并最終得到最優(yōu)策略。MDP的強(qiáng)化學(xué)習(xí)基于模型的強(qiáng)化學(xué)習(xí)在MDP下,已知狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù),允許智能體進(jìn)行精確的狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)預(yù)測(cè)。模型已知的優(yōu)勢(shì)已知模型的環(huán)境中,智能體能夠準(zhǔn)確地預(yù)測(cè)下一步的狀態(tài)和獎(jiǎng)勵(lì),從而能夠更好地規(guī)劃自己的行動(dòng)。規(guī)劃與策略迭代在已知模型的環(huán)境中,智能體可以使用價(jià)值迭代或策略迭代等方法,通過計(jì)算狀態(tài)估值來不斷改進(jìn)策略。構(gòu)建樹結(jié)構(gòu)的方法基于模型的強(qiáng)化學(xué)習(xí)還可以使用基于樹的搜索算法,如MCTS,通過構(gòu)建樹結(jié)構(gòu)來搜索最優(yōu)策略。基于模型的方法01020304056.2.2強(qiáng)化學(xué)習(xí)方法類型無模型的方法無需對(duì)環(huán)境進(jìn)行精確建模,直接學(xué)習(xí)策略,適用于現(xiàn)實(shí)問題中的不確定性。智能體學(xué)習(xí)策略在無法建模或建模困難時(shí),智能體直接學(xué)習(xí)策略,避免依賴轉(zhuǎn)移概率。策略學(xué)習(xí)無模型方法中,智能體通過與環(huán)境交互學(xué)習(xí)策略,實(shí)現(xiàn)長期獎(jiǎng)勵(lì)最大化。高頻度策略優(yōu)化時(shí)間差分法結(jié)合蒙特卡洛法,實(shí)現(xiàn)高頻度策略優(yōu)化。SARSA算法SARSA算法通過迭代更新Q表,選擇并執(zhí)行高價(jià)值動(dòng)作,逐步優(yōu)化策略。Q學(xué)習(xí)算法Q學(xué)習(xí)算法通過更新Q表,選擇并執(zhí)行高價(jià)值動(dòng)作,學(xué)習(xí)最優(yōu)策略。無模型的方法0102030405066.2.2強(qiáng)化學(xué)習(xí)方法類型離線學(xué)習(xí)方法智能體通過前期訓(xùn)練得到完整策略,再執(zhí)行任務(wù),需豐富環(huán)境轉(zhuǎn)移樣本庫和計(jì)算資源。離線學(xué)習(xí)概述在離線學(xué)習(xí)中,智能體使用策略執(zhí)行試驗(yàn),學(xué)習(xí)價(jià)值函數(shù),以解決具有未知轉(zhuǎn)移和獎(jiǎng)勵(lì)函數(shù)的問題。值迭代、策略迭代、直接效用估計(jì)、自適應(yīng)動(dòng)態(tài)規(guī)劃和時(shí)間差分學(xué)習(xí)。離線學(xué)習(xí)效用函數(shù)自動(dòng)駕駛汽車使用地圖和大致方向作為策略,通過控制出錯(cuò)和行駛時(shí)間的學(xué)習(xí),利用價(jià)值函數(shù)優(yōu)化路線。自動(dòng)駕駛離線學(xué)習(xí)例01020403離線學(xué)習(xí)例子6.2.2強(qiáng)化學(xué)習(xí)方法類型在線學(xué)習(xí)優(yōu)勢(shì)在線學(xué)習(xí)在現(xiàn)實(shí)中更為普遍,實(shí)時(shí)觀察策略提升效果,無需等待預(yù)訓(xùn)練和實(shí)際測(cè)試。在線學(xué)習(xí)例子在線學(xué)習(xí)方法在線學(xué)習(xí)部署簡便在線學(xué)習(xí)不依賴大量存儲(chǔ)空間,部署更加方便,是處理大規(guī)模數(shù)據(jù)和實(shí)時(shí)系統(tǒng)的優(yōu)選方法。在線學(xué)習(xí)適用于狀態(tài)和動(dòng)作眾多的情況,探索和“邊學(xué)邊用”更易實(shí)現(xiàn),如Exploration、Q-Learning和SARSA等方法。6.2.2強(qiáng)化學(xué)習(xí)方法類型在線學(xué)習(xí)優(yōu)勢(shì)在線學(xué)習(xí)在實(shí)時(shí)性方面具有顯著優(yōu)勢(shì),能夠使智能體在訓(xùn)練過程中立即觀察到策略的提升效果。在線學(xué)習(xí)實(shí)時(shí)性在線學(xué)習(xí)相比離線學(xué)習(xí)更具存儲(chǔ)優(yōu)勢(shì),不需要存儲(chǔ)大量樣本數(shù)據(jù),從而降低了存儲(chǔ)成本和空間需求。在線學(xué)習(xí)存儲(chǔ)優(yōu)勢(shì)在線學(xué)習(xí)更加靈活,可以輕松地?cái)U(kuò)展到更多的數(shù)據(jù)和更復(fù)雜的問題中,通過持續(xù)的學(xué)習(xí)和調(diào)整來適應(yīng)變化。在線學(xué)習(xí)靈活性6.2.2強(qiáng)化學(xué)習(xí)方法類型價(jià)值函數(shù)與策略更新基于價(jià)值的方法學(xué)習(xí)價(jià)值函數(shù),估計(jì)各狀態(tài)動(dòng)作的長期累計(jì)獎(jiǎng)勵(lì)價(jià)值,智能體據(jù)此選擇高價(jià)值動(dòng)作,更新策略。最大化獎(jiǎng)勵(lì)與行動(dòng)選擇基于價(jià)值的方法最大化期望價(jià)值選擇動(dòng)作,神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)價(jià)值函數(shù),智能體據(jù)此選擇高價(jià)值動(dòng)作,實(shí)現(xiàn)自主決策。神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)價(jià)值函數(shù)神經(jīng)網(wǎng)絡(luò)在強(qiáng)化學(xué)習(xí)中扮演關(guān)鍵角色,通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)價(jià)值函數(shù),輸入狀態(tài)和動(dòng)作,輸出價(jià)值,指導(dǎo)智能體決策?;趦r(jià)值方法概述強(qiáng)化學(xué)習(xí)中的基于價(jià)值方法基于觀察結(jié)果的決策,通過學(xué)習(xí)價(jià)值函數(shù)指導(dǎo)智能體選擇動(dòng)作,最大化長期獎(jiǎng)勵(lì)的期望值。基于價(jià)值方法6.2.2強(qiáng)化學(xué)習(xí)方法類型自適應(yīng)策略學(xué)習(xí)基于價(jià)值的方法最大優(yōu)勢(shì)是在無先驗(yàn)?zāi)P颓闆r下學(xué)習(xí)執(zhí)行策略,策略可自適應(yīng)改變,靈活應(yīng)對(duì)不同場景和目標(biāo)。復(fù)雜環(huán)境應(yīng)用能力強(qiáng)化學(xué)習(xí)基于價(jià)值的方法能夠應(yīng)用于復(fù)雜環(huán)境中,如無人駕駛汽車、機(jī)器人、互聯(lián)網(wǎng)服務(wù)等,實(shí)現(xiàn)自主決策行為。基于價(jià)值方法優(yōu)勢(shì)6.2.2強(qiáng)化學(xué)習(xí)方法類型DeepQ-network方法使用深度學(xué)習(xí)方法的基于價(jià)值的強(qiáng)化學(xué)習(xí)算法,用神經(jīng)網(wǎng)絡(luò)逼近Q值函數(shù),處理復(fù)雜任務(wù)和大量狀態(tài),實(shí)現(xiàn)自動(dòng)學(xué)習(xí)和決策。Q-Learning方法基于價(jià)值迭代的強(qiáng)化學(xué)習(xí)方法,將狀態(tài)轉(zhuǎn)移和收益抽象為Q值,表示期望獎(jiǎng)勵(lì);深度強(qiáng)化學(xué)習(xí)算法,能直接得到最優(yōu)策略。SARSA方法基于價(jià)值迭代的強(qiáng)化學(xué)習(xí)算法,使用狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)的組合計(jì)算價(jià)值函數(shù),幫助智能體得到最大化累積獎(jiǎng)勵(lì)的最優(yōu)策略?;趦r(jià)值的強(qiáng)化學(xué)習(xí)方法舉例6.2.2強(qiáng)化學(xué)習(xí)方法類型基于策略方法特點(diǎn)REINFORCE算法TRPO算法策略方法應(yīng)用策略梯度策略函數(shù)優(yōu)化基于策略方法通過策略函數(shù)指導(dǎo)智能體在環(huán)境中采取動(dòng)作,策略函數(shù)為π(a|s),將狀態(tài)映射為動(dòng)作。策略函數(shù)的優(yōu)化可以通過策略梯度方法來實(shí)現(xiàn),策略梯度是一種利用梯度下降優(yōu)化策略函數(shù)的方法。策略梯度方法通過最大化智能體在環(huán)境中的累計(jì)獎(jiǎng)勵(lì)來尋找最優(yōu)策略函數(shù),常用算法有REINFORCE算法。REINFORCE算法利用蒙特卡洛采樣的方法來評(píng)估策略函數(shù)的性能,并利用梯度上升的方法來改進(jìn)性能?;诓呗苑椒ㄟ€有許多其他的變種算法,如TrustRegionPolicyOptimization(TRPO)算法等。策略方法通常被用來處理連續(xù)動(dòng)作空間,如機(jī)器人動(dòng)作控制等領(lǐng)域,并取得了許多成功的應(yīng)用?;诓呗苑椒?.2.2強(qiáng)化學(xué)習(xí)方法類型文學(xué)作品菜品選擇商業(yè)策略ε-greedy算法概述ε取值策略動(dòng)作價(jià)值函數(shù)預(yù)測(cè)評(píng)估控制探索與利用的權(quán)衡6.2.3強(qiáng)化學(xué)習(xí)特有概念利用深入閱讀過去最受歡迎的文學(xué)作品,領(lǐng)略經(jīng)典之作的魅力與深度。探索勇敢嘗試一位未曾讀過的作家的新作,體驗(yàn)不一樣的文學(xué)風(fēng)格與視角。文學(xué)作品6.2.3強(qiáng)化學(xué)習(xí)特有概念利用點(diǎn)過去最好吃的菜品,回味曾經(jīng)的味蕾盛宴,確保每一次都滿足味蕾。探索嘗試一道未曾嘗試過的菜品,挑戰(zhàn)新的味覺體驗(yàn),探索美食的無限可能。菜品選擇6.2.3強(qiáng)化學(xué)習(xí)特有概念實(shí)施過去最成功的商業(yè)策略,借鑒歷史經(jīng)驗(yàn),確保業(yè)務(wù)穩(wěn)健發(fā)展。利用嘗試一種全新的商業(yè)策略,不斷創(chuàng)新,尋求業(yè)務(wù)增長的新機(jī)遇。探索商業(yè)策略6.2.3強(qiáng)化學(xué)習(xí)特有概念ε-greedy算法概述ε-greedy算法是強(qiáng)化學(xué)習(xí)中最常見的探索-利用權(quán)衡策略之一,通過設(shè)定探索概率ε來選擇隨機(jī)動(dòng)作或當(dāng)前最優(yōu)動(dòng)作,以平衡探索和利用。算法工作原理在每個(gè)決策點(diǎn)上,智能體以ε的概率選擇隨機(jī)動(dòng)作,以1-ε的概率選擇當(dāng)前最優(yōu)動(dòng)作,從而實(shí)現(xiàn)探索和利用的平衡,提高強(qiáng)化學(xué)習(xí)算法的性能。ε-greedy算法概述6.2.3強(qiáng)化學(xué)習(xí)特有概念ε取值策略ε取值策略在使用ε-greedy算法時(shí),需要根據(jù)具體情況調(diào)整探索概率ε的取值,以平衡探索和利用。ε取值過小的影響如果ε取值過小,智能體在未知領(lǐng)域中難以探索,長期來看會(huì)影響性能。ε取值過大的影響如果ε取值過大,智能體過分偏向于探索,也會(huì)影響性能。平衡探索和利用需要對(duì)ε進(jìn)行適當(dāng)?shù)恼{(diào)整,以達(dá)到平衡探索和利用的效果。6.2.3強(qiáng)化學(xué)習(xí)特有概念在ε-greedy算法中,智能體在每個(gè)決策點(diǎn)上以ε的概率選擇一種隨機(jī)動(dòng)作,以1-ε的概率選擇當(dāng)前最優(yōu)動(dòng)作動(dòng)作價(jià)值函數(shù)初始化Q函數(shù)在開始時(shí),我們通常會(huì)對(duì)Q函數(shù)進(jìn)行初始化,這可能是一個(gè)隨機(jī)的初始值或者是一個(gè)初始的估計(jì)值。經(jīng)驗(yàn)回放Q學(xué)習(xí)更新在智能體與環(huán)境交互的過程中,收集狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài),并存儲(chǔ)在經(jīng)驗(yàn)回放緩沖區(qū)中。在每個(gè)訓(xùn)練步驟,從經(jīng)驗(yàn)回放緩沖區(qū)中隨機(jī)抽取一個(gè)經(jīng)驗(yàn),并使用Q學(xué)習(xí)更新公式來更新Q函數(shù)。6.2.3強(qiáng)化學(xué)習(xí)特有概念制定行動(dòng)策略預(yù)測(cè)過程不僅可以幫助智能體了解自己采取行動(dòng)的結(jié)果,而且可以幫助智能體制定更合理的行動(dòng)策略,從而提高智能體的決策能力。預(yù)測(cè)定義預(yù)測(cè)是指根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)未來的獎(jiǎng)勵(lì)值;在強(qiáng)化學(xué)習(xí)中,我們需要知道在當(dāng)前狀態(tài)下,采取不同的行動(dòng)所獲得的獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)值預(yù)測(cè)獎(jiǎng)勵(lì)值的預(yù)測(cè)可以通過多種方式來實(shí)現(xiàn),包括基于價(jià)值函數(shù)的方法和模擬訓(xùn)練等;預(yù)測(cè)過程可以幫助智能體了解自己采取行動(dòng)的結(jié)果。預(yù)測(cè)6.2.3強(qiáng)化學(xué)習(xí)特有概念評(píng)估是指根據(jù)當(dāng)前策略評(píng)估智能體的行為效果,在強(qiáng)化學(xué)習(xí)中,評(píng)估通常關(guān)注的是累積獎(jiǎng)勵(lì),即通過一系列采取行動(dòng)獲得的獎(jiǎng)勵(lì)值的累加來評(píng)估智能體的表現(xiàn)。評(píng)估介紹評(píng)估可以通過基于策略的評(píng)估和基于價(jià)值函數(shù)的評(píng)估兩種方式來實(shí)現(xiàn);評(píng)估結(jié)果可以幫助智能體更好地了解自己行為的效果,從而調(diào)整策略。評(píng)估的方式評(píng)估6.2.3強(qiáng)化學(xué)習(xí)特有概念控制介紹控制是指調(diào)整智能體的策略來提升其表現(xiàn)效果;在強(qiáng)化學(xué)習(xí)中,我們需要通過優(yōu)化策略來改進(jìn)智能體的性能,從而提高智能體的決策能力和表現(xiàn)效果??刂品椒刂品椒òɑ趦r(jià)值函數(shù)的方法和基于策略的方法兩種;通過控制,我們可以不斷優(yōu)化智能體的策略,從而提高其行為效果,提升智能體的決策能力??刂?.2.3強(qiáng)化學(xué)習(xí)特有概念探索與利用的權(quán)衡探索與利用的介紹探索與利用是強(qiáng)化學(xué)習(xí)核心,智能體平衡探索新動(dòng)作和利用已知信息,以優(yōu)化決策。探索與利用的權(quán)衡探索與利用相矛盾,智能體需平衡探索新行為和利用已知信息,以實(shí)現(xiàn)最佳決策。探索與利用的策略實(shí)現(xiàn)探索與利用平衡通常需要使用探索-利用權(quán)衡策略,如ε-greedy算法。探索與利用的例子點(diǎn)餐情境中,食客需平衡探索更多選擇與利用已知選項(xiàng),以做出最佳決策。6.2.3強(qiáng)化學(xué)習(xí)特有概念馬爾可夫鏈的提出與擴(kuò)展馬爾可夫性質(zhì)的定義與數(shù)學(xué)表達(dá)馬爾可夫性質(zhì)的優(yōu)點(diǎn)與局限性馬爾可夫決策過程的定義與起源馬爾可夫決策過程的核心概念馬爾可夫決策過程的應(yīng)用與價(jià)值策略在馬爾可夫決策過程中的作用馬爾可夫決策模型的常用算法馬爾可夫決策過程與馬爾可夫鏈的區(qū)別馬爾可夫鏈的性質(zhì)馬爾可夫決策過程實(shí)例6.2.4馬爾可夫決策過程1906年,馬爾可夫提出隨機(jī)變量序列概念,每個(gè)變量取值概率僅取決于前一變量,獨(dú)立于歷史路徑,為馬爾可夫鏈奠定基礎(chǔ)。馬爾可夫鏈隨后擴(kuò)展為馬爾可夫過程,一種隨機(jī)過程,其中狀態(tài)轉(zhuǎn)移僅依賴于當(dāng)前狀態(tài),而與歷史狀態(tài)無關(guān),廣泛應(yīng)用于概率論和隨機(jī)分析。馬爾可夫鏈引入馬爾可夫鏈發(fā)展馬爾可夫鏈的提出與擴(kuò)展6.2.4馬爾可夫決策過程馬爾可夫性質(zhì)定義馬爾可夫性質(zhì)指隨機(jī)過程未來狀態(tài)條件概率僅依賴于當(dāng)前狀態(tài),而與歷史狀態(tài)無關(guān),即過程的無記憶性。馬爾可夫性質(zhì)數(shù)學(xué)表達(dá)數(shù)學(xué)上,若X(t),t>0為隨機(jī)過程,則馬爾可夫性質(zhì)表現(xiàn)為當(dāng)前狀態(tài)已知下,未來狀態(tài)概率分布與歷史狀態(tài)獨(dú)立。馬爾可夫性質(zhì)的定義與數(shù)學(xué)表達(dá)6.2.4馬爾可夫決策過程馬爾可夫性質(zhì)優(yōu)點(diǎn)簡化模型設(shè)計(jì)計(jì)算,減少參數(shù),助力理解隨機(jī)過程。適用于天氣預(yù)報(bào)、股票交易等問題,結(jié)果僅依賴于當(dāng)前狀態(tài)。馬爾可夫性質(zhì)局限無法處理復(fù)雜時(shí)間序列模型,如非平穩(wěn)、長期依賴序列。狀態(tài)數(shù)量多時(shí),馬爾可夫性質(zhì)應(yīng)用受限。馬爾可夫性質(zhì)的優(yōu)點(diǎn)與局限性6.2.4馬爾可夫決策過程馬爾可夫決策過程(MDP)是一種數(shù)學(xué)模型,用于描述隨時(shí)間變化的決策過程,由理查德·貝爾曼于20世紀(jì)50年代提出。馬爾可夫決策過程定義MDP在人工智能、博弈論、運(yùn)籌學(xué)、控制論及經(jīng)濟(jì)學(xué)等領(lǐng)域有廣泛應(yīng)用,成為解決動(dòng)態(tài)規(guī)劃問題的重要工具。應(yīng)用領(lǐng)域廣泛馬爾可夫決策過程的定義與起源6.2.4馬爾可夫決策過程狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)及狀態(tài)轉(zhuǎn)移概率是MDP的核心概念,決策者需在每個(gè)時(shí)間步選擇決策以進(jìn)入新狀態(tài)并獲取獎(jiǎng)勵(lì)。MDP核心元素狀態(tài)轉(zhuǎn)移概率描述了在特定狀態(tài)下執(zhí)行某個(gè)決策后到達(dá)下一個(gè)狀態(tài)的概率,選擇正確決策可最大化長期獎(jiǎng)勵(lì)。狀態(tài)轉(zhuǎn)移概率馬爾可夫決策過程的核心概念6.2.4馬爾可夫決策過程MDP應(yīng)用強(qiáng)化學(xué)習(xí)MDP模型適用于機(jī)器人路徑規(guī)劃、自動(dòng)駕駛、金融風(fēng)險(xiǎn)控制等重要?jiǎng)討B(tài)決策問題,是解決復(fù)雜環(huán)境決策問題的有力工具。MDP描述復(fù)雜決策M(jìn)DP模型四元組在MDP模型中,一個(gè)決策問題可以表示為(S,A,P,R),智能體通過狀態(tài)轉(zhuǎn)移和決策最大化累計(jì)獎(jiǎng)勵(lì)。MDP是強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,用于描述環(huán)境和優(yōu)化策略;策略是將狀態(tài)映射到?jīng)Q策的方案,在MDP中指導(dǎo)智能體行動(dòng)。馬爾可夫決策過程的應(yīng)用與價(jià)值6.2.4馬爾可夫決策過程策略的定義隨機(jī)性策略策略的特性策略的作用策略在MDP中扮演著至關(guān)重要的角色,策略定義為一個(gè)從狀態(tài)集合S到動(dòng)作集合A的映射函數(shù),描述了智能體在不同狀態(tài)下的行動(dòng)選擇方式。隨機(jī)性策略則允許智能體在每個(gè)狀態(tài)時(shí)根據(jù)一定的概率分布來選擇動(dòng)作,通過概率分布來描述在每個(gè)狀態(tài)下的行動(dòng)選擇。策略可以具有確定性,也可以具有隨機(jī)性,確定性策略指的是對(duì)于每個(gè)狀態(tài),都存在一個(gè)確定的決策與之對(duì)應(yīng),智能體采取的動(dòng)作是確定的。策略在MDP模型中扮演著指導(dǎo)智能體行動(dòng)的角色,根據(jù)當(dāng)前狀態(tài)和策略,智能體能夠做出最優(yōu)的行動(dòng)決策,以實(shí)現(xiàn)最大化的收益。策略在馬爾可夫決策過程中的作用6.2.4馬爾可夫決策過程價(jià)值迭代算法價(jià)值迭代是一種動(dòng)態(tài)規(guī)劃算法,它通過迭代計(jì)算每個(gè)狀態(tài)的價(jià)值函數(shù)來得到最優(yōu)策略。策略迭代算法其他算法解決馬爾可夫決策模型的常用算法策略迭代是一種基于策略評(píng)估和策略改進(jìn)的算法,通過迭代優(yōu)化策略來得到最優(yōu)策略。除了價(jià)值迭代和策略迭代算法外,還有許多其他的解決MDP模型的算法,如Q-Learning算法、SARSA算法、深度強(qiáng)化學(xué)習(xí)等。6.2.4馬爾可夫決策過程MDP是一種隨機(jī)性策略和回報(bào)的決策過程,其中狀態(tài)的轉(zhuǎn)移概率遵循馬爾可夫性質(zhì),智能體的行為基于動(dòng)作和獎(jiǎng)勵(lì),結(jié)果由狀態(tài)轉(zhuǎn)移概率決定。MC是一個(gè)動(dòng)態(tài)的隨機(jī)過程X(t),與系統(tǒng)的動(dòng)作無關(guān),是最簡單的馬氏過程,時(shí)間和狀態(tài)過程的取值參數(shù)都是離散的MP,具有三種馬爾可夫性質(zhì)。MDP隨機(jī)決策過程MC動(dòng)態(tài)隨機(jī)過程馬爾可夫決策過程與馬爾可夫鏈的區(qū)別6.2.4馬爾可夫決策過程馬爾可夫鏈?zhǔn)潜闅v性的,即給定起始狀態(tài)X(t-h(huán)),則可以遍歷整個(gè)馬爾可夫鏈,并且每個(gè)時(shí)刻的狀態(tài)轉(zhuǎn)移概率都是相同的。性質(zhì)1轉(zhuǎn)移概率矩陣P是一個(gè)對(duì)角矩陣,其中a、b、c是離散狀態(tài)空間中的三個(gè)元素;這保證了隨機(jī)過程在任意時(shí)間的狀態(tài)轉(zhuǎn)移概率是已知的。馬爾可夫鏈的性質(zhì)性質(zhì)2馬爾可夫鏈具有一階馬爾可夫性,即對(duì)于任意時(shí)間t,下一個(gè)時(shí)刻t+h的狀態(tài)轉(zhuǎn)移概率只依賴于當(dāng)前狀態(tài)和過去的狀態(tài),而不取決于未來的狀態(tài)。性質(zhì)36.2.4馬爾可夫決策過程MDP與MC的應(yīng)用MDP和MC在隨機(jī)性策略和獎(jiǎng)勵(lì)方面具有不同的決策過程和動(dòng)態(tài)特性;盡管兩者都利用了隨機(jī)性和馬爾可夫性質(zhì),但它們具有不同的概念和特征。MDP與MC的意義MDP與MC的應(yīng)用與意義MC主要用于預(yù)測(cè)和模擬隨機(jī)過程,例如天氣預(yù)測(cè)或股票市場模型;MDP則用于在不確定環(huán)境中制定最優(yōu)決策,以最大化總體獎(jiǎng)勵(lì)。01026.2.4馬爾可夫決策過程MDP模型描述股票投資問題可以看作是一個(gè)馬爾可夫決策過程,投資者在每個(gè)狀態(tài)下選擇買入或賣出股票以最大化總體收益。狀態(tài)集合S狀態(tài)集合S包含三個(gè)狀態(tài),即“漲”、“跌”和“不變”,分別表示股票價(jià)格的上漲、下跌和保持不變。動(dòng)作集合A動(dòng)作集合A包含兩個(gè)動(dòng)作,即“買入”和“賣出”,投資者可以在每個(gè)狀態(tài)下選擇買入或賣出股票。狀態(tài)轉(zhuǎn)移概率函數(shù)P狀態(tài)轉(zhuǎn)移概率函數(shù)P描述了股票價(jià)格在每個(gè)動(dòng)作下從當(dāng)前狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)的概率。獎(jiǎng)勵(lì)函數(shù)R獎(jiǎng)勵(lì)函數(shù)R規(guī)定了投資者在每個(gè)狀態(tài)下執(zhí)行每個(gè)動(dòng)作后獲得的收益,包括買入和賣出股票的情況。最優(yōu)策略如果按照MDP模型來決策,只考慮最大化總體獎(jiǎng)勵(lì),那么最優(yōu)策略就只能是“追漲殺跌”,即漲時(shí)買入、跌時(shí)賣出。股票投資問題0104020503066.2.4馬爾可夫決策過程MDP模型描述狀態(tài)轉(zhuǎn)移概率函數(shù)P獎(jiǎng)勵(lì)函數(shù)R價(jià)值函數(shù)動(dòng)作集合A狀態(tài)集合S自動(dòng)駕駛汽車問題同樣可以運(yùn)用MDP模型進(jìn)行描述,模型四元組包含了狀態(tài)集合、動(dòng)作集合、狀態(tài)轉(zhuǎn)移概率函數(shù)和獎(jiǎng)勵(lì)函數(shù)。狀態(tài)集合S包含兩個(gè)狀態(tài),即“暢通”和“擁堵”,分別表示前方道路暢通無阻和擁堵不通的情況。動(dòng)作集合A包含三個(gè)動(dòng)作,即“加速”、“減速”和“保持當(dāng)前車速”,汽車可以在每個(gè)狀態(tài)下選擇合適的動(dòng)作。狀態(tài)轉(zhuǎn)移概率函數(shù)P描述了道路狀況在每個(gè)動(dòng)作下從當(dāng)前狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)的概率,如加速、減速或保持車速。獎(jiǎng)勵(lì)函數(shù)R規(guī)定了汽車在每個(gè)狀態(tài)下執(zhí)行每個(gè)動(dòng)作后獲得的收益,包括安全到達(dá)目的地、撞車等情況的獎(jiǎng)勵(lì)。價(jià)值函數(shù)是評(píng)估狀態(tài)或動(dòng)作優(yōu)劣的指標(biāo),可以幫助智能體在長期決策中考慮累計(jì)獎(jiǎng)勵(lì),選擇最優(yōu)的策略。自動(dòng)駕駛汽車問題6.2.4馬爾可夫決策過程貝爾曼方程概述狀態(tài)價(jià)值函數(shù)動(dòng)作價(jià)值函數(shù)價(jià)值函數(shù)作用價(jià)值函數(shù)計(jì)算法貝爾曼期望方程貝爾曼最優(yōu)方程貝爾曼方程算例貝爾曼方程小結(jié)6.2.5貝爾曼方程貝爾曼方程概述貝爾曼方程,也被稱為動(dòng)態(tài)規(guī)劃方程,是由理查德·貝爾曼提出的,用于求解馬爾可夫決策過程的最優(yōu)策略。貝爾曼方程貝爾曼方程分為期望方程和最優(yōu)方程。期望方程描述價(jià)值函數(shù)的動(dòng)態(tài)變化,提供迭代計(jì)算方法。價(jià)值函數(shù)在強(qiáng)化學(xué)習(xí)中至關(guān)重要,它反映了在策略下從初始狀態(tài)開始,經(jīng)過一系列動(dòng)作到達(dá)某個(gè)狀態(tài)或動(dòng)作的優(yōu)劣。貝爾曼方程分類最優(yōu)方程通過最大化價(jià)值函數(shù),在一組策略中得到最優(yōu)的策略。價(jià)值函數(shù)是評(píng)估策略好壞的關(guān)鍵指標(biāo)。最優(yōu)方程01020403價(jià)值函數(shù)作用6.2.5貝爾曼方程狀態(tài)價(jià)值函數(shù)是在策略π下,智能體在狀態(tài)s獲得的累積未來獎(jiǎng)勵(lì)的數(shù)學(xué)期望,即V(s)=E[∑γ^k*r_k|s,π],其中γ為折扣因子,r_k為未來獎(jiǎng)勵(lì)。狀態(tài)價(jià)值函數(shù)定義累積獎(jiǎng)勵(lì)是即時(shí)獎(jiǎng)勵(lì)與未來獎(jiǎng)勵(lì)的加權(quán)和,權(quán)重為折扣因子γ的k次方,折扣因子用于平衡即時(shí)獎(jiǎng)勵(lì)與未來獎(jiǎng)勵(lì)的重要性,使得智能體在追求長期利益時(shí)考慮即時(shí)利益。累積獎(jiǎng)勵(lì)計(jì)算狀態(tài)價(jià)值函數(shù)6.2.5貝爾曼方程動(dòng)作價(jià)值函數(shù)定義動(dòng)作價(jià)值函數(shù)是在狀態(tài)s且執(zhí)行動(dòng)作a時(shí),智能體能夠獲得累積未來獎(jiǎng)勵(lì)的數(shù)學(xué)期望,即Q(s,a)=E[∑γ^k*r_k|s,a,π],其中γ為折扣因子,r_k為未來獎(jiǎng)勵(lì)。動(dòng)作價(jià)值函數(shù)作用動(dòng)作價(jià)值函數(shù)描述了在特定狀態(tài)s下執(zhí)行不同動(dòng)作a的優(yōu)劣,即智能體在狀態(tài)s選擇動(dòng)作a后,能夠獲得的累積未來獎(jiǎng)勵(lì)的期望值。動(dòng)作價(jià)值函數(shù)6.2.5貝爾曼方程價(jià)值函數(shù)作用價(jià)值函數(shù)應(yīng)用在強(qiáng)化學(xué)習(xí)中,價(jià)值函數(shù)的應(yīng)用十分廣泛,不僅用于評(píng)估策略的優(yōu)劣,還可以通過貪婪策略、ε-貪婪策略等方式指導(dǎo)智能體的行動(dòng)選擇。價(jià)值函數(shù)作用價(jià)值函數(shù)是評(píng)估策略好壞的關(guān)鍵指標(biāo),通過計(jì)算價(jià)值函數(shù),可以評(píng)估策略在特定狀態(tài)或動(dòng)作下的優(yōu)劣,進(jìn)而指導(dǎo)策略的改進(jìn)。6.2.5貝爾曼方程價(jià)值函數(shù)定義強(qiáng)化學(xué)習(xí)策略價(jià)值函數(shù)挑戰(zhàn)蒙特卡羅方法動(dòng)作價(jià)值函數(shù)狀態(tài)價(jià)值函數(shù)價(jià)值函數(shù)是強(qiáng)化學(xué)習(xí)中的基本概念,表示累積未來獎(jiǎng)勵(lì)的數(shù)學(xué)期望,反映策略π下從初始狀態(tài)開始到達(dá)某個(gè)狀態(tài)或動(dòng)作的優(yōu)劣。狀態(tài)價(jià)值函數(shù)是在策略π下,狀態(tài)s處智能體獲得累積未來獎(jiǎng)勵(lì)的數(shù)學(xué)期望,受即時(shí)獎(jiǎng)勵(lì)和折扣因子影響,在不同策略下各異。動(dòng)作價(jià)值函數(shù)是在狀態(tài)s和動(dòng)作a下,智能體獲得累積未來獎(jiǎng)勵(lì)的數(shù)學(xué)期望,受即時(shí)獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移概率影響,策略不同則價(jià)值不同。強(qiáng)化學(xué)習(xí)算法利用價(jià)值函數(shù)評(píng)估策略好壞,通過動(dòng)態(tài)規(guī)劃、Q-Learning或Actor-Critic等方法最大化價(jià)值函數(shù),找到最優(yōu)策略。狀態(tài)和動(dòng)作價(jià)值函數(shù)無法直接計(jì)算,但可使用蒙特卡羅方法,通過多次模擬實(shí)驗(yàn)求平均值來估計(jì),如健身計(jì)劃最佳時(shí)間查找。通過定義狀態(tài)和動(dòng)作集合,模擬不同健身時(shí)間的效果并記錄數(shù)據(jù),計(jì)算平均效果作為價(jià)值函數(shù)的估計(jì),選擇效果最好的時(shí)間作為最優(yōu)策略。價(jià)值函數(shù)計(jì)算法6.2.5貝爾曼方程貝爾曼期望方程貝爾曼期望方程貝爾曼期望方程的核心思想是將當(dāng)前決策的價(jià)值表示為未來決策的期望價(jià)值和當(dāng)前狀態(tài)下獲得的獎(jiǎng)勵(lì)之和。馬爾可夫決策過程考慮一個(gè)馬爾可夫決策過程,其中狀態(tài)集合為S,動(dòng)作集合為A,狀態(tài)轉(zhuǎn)移概率為P,即時(shí)獎(jiǎng)勵(lì)為R,折扣因子為γ。狀態(tài)價(jià)值函數(shù)狀態(tài)價(jià)值函數(shù)可由動(dòng)作價(jià)值函數(shù)表示,在狀態(tài)s下,發(fā)生在動(dòng)作a的條件概率,所有動(dòng)作價(jià)值函數(shù)的加權(quán)平均值。動(dòng)作價(jià)值函數(shù)動(dòng)作價(jià)值函數(shù)由狀態(tài)價(jià)值函數(shù)表示,當(dāng)前狀態(tài)s和動(dòng)作a下未來積累的獎(jiǎng)勵(lì)的加權(quán)平均值,權(quán)重為條件概率。遞推式由定義可得遞推式,其中為下一時(shí)刻狀態(tài)下未來累積的獎(jiǎng)勵(lì),將遞推式代入動(dòng)作價(jià)值函數(shù),應(yīng)用數(shù)學(xué)期望性質(zhì)可得。價(jià)值函數(shù)由相互代入,可以得到狀態(tài)價(jià)值函數(shù)和動(dòng)作價(jià)值函數(shù)的貝爾曼期望方程,描述了當(dāng)前狀態(tài)值函數(shù)和其后續(xù)狀態(tài)值函數(shù)關(guān)系。0104020503066.2.5貝爾曼方程強(qiáng)化學(xué)習(xí)目標(biāo)貝爾曼最優(yōu)方程最優(yōu)價(jià)值函數(shù)求解最優(yōu)策略強(qiáng)化學(xué)習(xí)旨在找到最優(yōu)策略π*,以最大化價(jià)值函數(shù)(包括狀態(tài)價(jià)值函數(shù)和動(dòng)作價(jià)值函數(shù))。數(shù)學(xué)上已證明,對(duì)于任意MDP,存在一個(gè)最優(yōu)策略π*。貝爾曼最優(yōu)方程是遞歸的非線性方程,不存在閉合解,我們可以通過迭代的方式來求解最優(yōu)策略。最優(yōu)價(jià)值函數(shù)是在使用最優(yōu)策略π*時(shí)獲得的最佳價(jià)值函數(shù),其定義為最大化價(jià)值函數(shù)時(shí)的策略所對(duì)應(yīng)的價(jià)值函數(shù)。隨機(jī)初始化策略,利用貝爾曼期望方程計(jì)算價(jià)值,再根據(jù)貝爾曼最優(yōu)方程優(yōu)化策略,重復(fù)過程直至收斂。貝爾曼最優(yōu)方程6.2.5貝爾曼方程利用貝爾曼方程,我們計(jì)算了最優(yōu)動(dòng)作價(jià)值函數(shù),并得出了相應(yīng)的最優(yōu)策略為“←(向左)”。這一決策基于當(dāng)前狀態(tài)和未來獎(jiǎng)勵(lì)的期望值,是最優(yōu)的決策。貝爾曼方程算例獎(jiǎng)勵(lì)與價(jià)值函數(shù)在圖6-4中,每個(gè)狀態(tài)都有相應(yīng)的即時(shí)獎(jiǎng)勵(lì)和動(dòng)作價(jià)值函數(shù),終端狀態(tài)s1和s4的即時(shí)獎(jiǎng)勵(lì)與動(dòng)作價(jià)值函數(shù)相等。當(dāng)前狀態(tài)為s2,由圖6-3可見兩個(gè)終端狀態(tài)。貝爾曼方程應(yīng)用MDP介紹考慮一個(gè)馬爾可夫決策過程(MDP),如圖6-4所示,狀態(tài)集合為S={s1,s2,s3,s4},動(dòng)作集合為A={←(向左)->(向右)},即時(shí)獎(jiǎng)勵(lì)為Rt,折扣因子為γ=0.5。0302016.2.5貝爾曼方程介紹強(qiáng)化學(xué)習(xí)系統(tǒng)的基本組成,包括智能體(Agent)和環(huán)境(Environment),并闡述強(qiáng)化學(xué)習(xí)系統(tǒng)類型。強(qiáng)化學(xué)習(xí)系統(tǒng)強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)是馬爾可夫決策過程,分析馬爾可夫鏈與馬爾可夫決策過程之間的區(qū)別。強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ)介紹馬爾可夫決策過程中最優(yōu)策略的數(shù)學(xué)公式——貝爾曼方程,通過算例詳細(xì)闡述貝爾曼方程的實(shí)現(xiàn)過程。貝爾曼方程貝爾曼方程小結(jié)6.2.5貝爾曼方程介紹了強(qiáng)化學(xué)習(xí)系統(tǒng)的組成,強(qiáng)化學(xué)習(xí)方法類型,強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)——馬爾可夫決策過程,分析了它與馬爾可夫鏈之間的區(qū)別。介紹了馬爾可夫決策過程中最優(yōu)策略的數(shù)學(xué)公式貝爾曼方程,通過算例說明其實(shí)現(xiàn)過程。6.2.6本節(jié)小結(jié)本章提綱6.1強(qiáng)化學(xué)習(xí)基本思想6.2強(qiáng)化學(xué)習(xí)系統(tǒng)6.3強(qiáng)化學(xué)習(xí)方法6.4強(qiáng)化學(xué)習(xí)實(shí)例

動(dòng)態(tài)規(guī)劃方法

蒙特卡洛學(xué)習(xí)方法

Q學(xué)習(xí)方法

深度強(qiáng)化學(xué)習(xí)

本節(jié)小結(jié)6.3強(qiáng)化學(xué)習(xí)方法

DP算法適用場景

強(qiáng)化學(xué)習(xí)DP方法

DP強(qiáng)化學(xué)習(xí)組件DP強(qiáng)化學(xué)習(xí)優(yōu)勢(shì)

背包問題概述

01背包問題算例動(dòng)態(tài)規(guī)劃求解步驟動(dòng)態(tài)規(guī)劃求最優(yōu)策略6.3.1動(dòng)態(tài)規(guī)劃方法復(fù)雜問題分解動(dòng)態(tài)規(guī)劃方法適用于復(fù)雜問題,通過將問題分解為子問題,逐步求解子問題以獲得整體解決方案。子問題重復(fù)出現(xiàn)動(dòng)態(tài)規(guī)劃方法特別適用于那些具有重復(fù)子問題的場景,即將復(fù)雜問題分解為多個(gè)重復(fù)的子問題。DP算法適用場景6.3.1動(dòng)態(tài)規(guī)劃方法策略函數(shù)定義策略函數(shù)在強(qiáng)化學(xué)習(xí)中定義為將狀態(tài)映射到特定行動(dòng)的映射,用于決定智能體在特定狀態(tài)下應(yīng)采取的行動(dòng)。動(dòng)態(tài)規(guī)劃強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)中的動(dòng)態(tài)規(guī)劃方法基于價(jià)值函數(shù),而非狀態(tài)轉(zhuǎn)移方程,用于求解最優(yōu)策略。價(jià)值函數(shù)與策略函數(shù)強(qiáng)化學(xué)習(xí)中的動(dòng)態(tài)規(guī)劃方法包含價(jià)值函數(shù)和策略函數(shù),通過迭代更新這兩個(gè)函數(shù)以找到最優(yōu)策略。強(qiáng)化學(xué)習(xí)DP方法6.3.1動(dòng)態(tài)規(guī)劃方法強(qiáng)化學(xué)習(xí)中的動(dòng)態(tài)規(guī)劃方法包含價(jià)值函數(shù)和策略函數(shù),價(jià)值函數(shù)用于評(píng)估狀態(tài)或動(dòng)作的價(jià)值,策略函數(shù)用于選擇行動(dòng)。價(jià)值函數(shù)與策略函數(shù)在每次迭代中,強(qiáng)化學(xué)習(xí)算法會(huì)嘗試新的行動(dòng)并根據(jù)結(jié)果更新價(jià)值函數(shù)和策略函數(shù),以逐步改進(jìn)性能。價(jià)值函數(shù)與策略更新DP強(qiáng)化學(xué)習(xí)組件6.3.1動(dòng)態(tài)規(guī)劃方法DP強(qiáng)化學(xué)習(xí)方法無需知道環(huán)境的精確模型,通過不斷試錯(cuò)來學(xué)習(xí)最佳策略。強(qiáng)化學(xué)習(xí)無需模型強(qiáng)化學(xué)習(xí)適用于各種問題,能夠處理復(fù)雜的環(huán)境和狀態(tài)空間,具有很好的通用性。通用性強(qiáng)強(qiáng)化學(xué)習(xí)能夠同時(shí)考慮到長期利益和短期投入的利益,適用于需要長期規(guī)劃的場景。長期規(guī)劃DP強(qiáng)化學(xué)習(xí)優(yōu)勢(shì)0102036.3.1動(dòng)態(tài)規(guī)劃方法背包問題概述經(jīng)典的優(yōu)化問題,涉及在有限容量的背包中裝入物品,目標(biāo)是最大化物品總價(jià)值。背包問題類型背包問題包括多種類型,如0-1背包、完全背包、多背包及帶有約束條件的背包問題。01背包問題0-1背包問題要求每個(gè)物品要么完全選擇,要么不選,旨在選擇一組物品使得總價(jià)值最大化。完全背包問題完全背包問題每種物品都有無限個(gè),因此每種物品可以被選擇無限次,與0-1背包問題不同。多背包問題多背包問題每種物品有限多個(gè),可以被選擇多次,在裝入物品時(shí),存在一些額外的約束條件。約束條件的背包問題帶有約束條件的背包問題在裝入物品時(shí),需要滿足額外的條件,如重量、數(shù)量限制等。背包問題概述0104020503066.3.1動(dòng)態(tài)規(guī)劃方法01背包問題算例考慮一個(gè)包含5個(gè)物品的0-1背包問題,其中物品的體積和價(jià)值已知,背包容量為10。問題確定裝入背包的物品以及獲得的最大價(jià)值,通過強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)規(guī)劃方法來解決。01背包問題算例6.3.1動(dòng)態(tài)規(guī)劃方法建立二維表格,描述物品性質(zhì)和背包容量;初始化表格內(nèi)容,遍歷物品和背包容量,更新最大價(jià)值。動(dòng)態(tài)規(guī)劃求解步驟將物品裝入背包的過程視為MDP過程,定義狀態(tài)集合、動(dòng)作集合和獎(jiǎng)勵(lì)機(jī)制;通過貝爾曼方程求解最優(yōu)策略。強(qiáng)化學(xué)習(xí)思路動(dòng)態(tài)規(guī)劃求解步驟6.3.1動(dòng)態(tài)規(guī)劃方法動(dòng)態(tài)規(guī)劃求最優(yōu)策略強(qiáng)化學(xué)習(xí)思路利用實(shí)際的獎(jiǎng)勵(lì)和價(jià)值函數(shù),對(duì)策略函數(shù)進(jìn)行改進(jìn),以更好地適應(yīng)環(huán)境。策略改進(jìn)根據(jù)當(dāng)前狀態(tài)和價(jià)值函數(shù),選擇最優(yōu)的動(dòng)作,并與環(huán)境進(jìn)行交互,獲得實(shí)際的獎(jiǎng)勵(lì)。動(dòng)作選擇根據(jù)當(dāng)前狀態(tài)和動(dòng)作,計(jì)算出下一步的狀態(tài)和獎(jiǎng)勵(lì),并更新價(jià)值函數(shù)。狀態(tài)轉(zhuǎn)移根據(jù)已知背包內(nèi)物品的最大價(jià)值,可以利用動(dòng)態(tài)規(guī)劃的方法來求出問題的最優(yōu)策略。強(qiáng)化學(xué)習(xí)可以通過迭代更新價(jià)值函數(shù)和策略函數(shù),逐漸逼近最優(yōu)策略。動(dòng)態(tài)規(guī)劃求最優(yōu)策略6.3.1動(dòng)態(tài)規(guī)劃方法

蒙特卡洛學(xué)習(xí)方法概述

MCM在強(qiáng)化學(xué)習(xí)中的應(yīng)用

MCM的優(yōu)點(diǎn)預(yù)測(cè)價(jià)值函數(shù)

樣本效率與方差控制

MCMC與DMCP6.3.2蒙特卡洛學(xué)習(xí)方法蒙特卡洛學(xué)習(xí)方法是強(qiáng)化學(xué)習(xí)中常用的方法之一,通過對(duì)一系列隨機(jī)采樣的軌跡進(jìn)行統(tǒng)計(jì)學(xué)分析以得到最優(yōu)策略。評(píng)估走向表現(xiàn)在強(qiáng)化學(xué)習(xí)中,MCM一般應(yīng)用于在已經(jīng)完成一次完整的環(huán)境交互后,通過對(duì)其進(jìn)行分析以評(píng)估特定走向的表現(xiàn)。蒙特卡洛學(xué)習(xí)方法概述6.3.2蒙特卡洛學(xué)習(xí)方法MCM在強(qiáng)化學(xué)習(xí)中的應(yīng)用交互與記錄智能體與環(huán)境交互,記錄動(dòng)作和獎(jiǎng)勵(lì),形成軌跡。每個(gè)軌跡包含多個(gè)狀態(tài)轉(zhuǎn)移樣本,用于估計(jì)狀態(tài)價(jià)值。價(jià)值評(píng)估策略改進(jìn)分析軌跡的總回報(bào),確定每個(gè)狀態(tài)在當(dāng)前策略下的價(jià)值,更新狀態(tài)價(jià)值表。價(jià)值高的狀態(tài)更可能被選擇。根據(jù)狀態(tài)價(jià)值評(píng)估結(jié)果,優(yōu)化策略,提高總回報(bào)。迭代更新策略,直至達(dá)到最優(yōu)或滿足停止條件。6.3.2蒙特卡洛學(xué)習(xí)方法MCM強(qiáng)制學(xué)習(xí)者與環(huán)境進(jìn)行互動(dòng),這使得其學(xué)習(xí)到的策略更加細(xì)致和實(shí)用。與環(huán)境互動(dòng)在MCM中,學(xué)習(xí)者無需明確表達(dá)它對(duì)環(huán)境的策略,因?yàn)槠渲恍柙谂c環(huán)境交互的過程中進(jìn)行學(xué)習(xí),就能夠自然地尋找最優(yōu)策略。策略無需明確表達(dá)MCM的優(yōu)點(diǎn)6.3.2蒙特卡洛學(xué)習(xí)方法預(yù)測(cè)價(jià)值函數(shù)簡單每次訪問型MCM簡單的每次訪問型MCM可以表示成V(St)←V(St)+α[Gt?V(St)],式中Gt是時(shí)刻t真實(shí)的獎(jiǎng)勵(lì),α是常量步長參數(shù)。迭代末尾確定增量蒙特卡洛方法必須等到一次迭代的末尾才能確定對(duì)V(St)的增量(因?yàn)橹挥羞@時(shí)Gt才是已知的)。MCM解決預(yù)測(cè)問題MCM利用經(jīng)驗(yàn)來解決預(yù)測(cè)問題,通過給定策略π的一些經(jīng)驗(yàn),以及這些經(jīng)驗(yàn)中的非終止?fàn)顟B(tài)St,就能更新對(duì)于Vπ的估計(jì)。0302016.3.2蒙特卡洛學(xué)習(xí)方法樣本效率與方差控制方差控制蒙特卡洛學(xué)習(xí)方法需要對(duì)采樣軌跡進(jìn)行統(tǒng)計(jì)分析,這可能導(dǎo)致結(jié)果具有高方差。為了控制方差,可以使用重要度采樣等技術(shù)來調(diào)整采樣軌跡的權(quán)重。樣本效率蒙特卡洛學(xué)習(xí)方法需要通過多次環(huán)境交互和數(shù)據(jù)分析來評(píng)估策略,因此相對(duì)較慢。但通過優(yōu)化采樣策略和增加采樣次數(shù),可以提高其樣本效率。6.3.2蒙特卡洛學(xué)習(xí)方法MCMC馬爾可夫鏈蒙特卡洛方法,通過構(gòu)建馬爾可夫鏈來生成樣本,適用于高維或連續(xù)狀態(tài)空間中的概率分布采樣。DMCP雙重蒙特卡洛策略優(yōu)化,結(jié)合了蒙特卡洛樹搜索和深度強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),用于解決復(fù)雜序列決策問題。MCMC與DMCP6.3.2蒙特卡洛學(xué)習(xí)方法

Q學(xué)習(xí)方法介紹

Q函數(shù)更新過程

Q-Learning方法實(shí)現(xiàn)流程Q表格賦初值、迭代過程、最后得到歸一化的Q表格

Q學(xué)習(xí)方法優(yōu)缺點(diǎn)

Q學(xué)習(xí)方法應(yīng)用實(shí)例6.3.3Q學(xué)習(xí)方法Q學(xué)習(xí)是一種主動(dòng)TD學(xué)習(xí)算法,適用于離散動(dòng)作空間中學(xué)習(xí)連續(xù)動(dòng)作空間的策略;Q值代表著某個(gè)狀態(tài)下采取某個(gè)動(dòng)作所能獲得的最大回報(bào)。Q學(xué)習(xí)概述Q值是一個(gè)函數(shù),將當(dāng)前狀態(tài)和可行的動(dòng)作作為輸入,輸出對(duì)應(yīng)的回報(bào)值;Q-Learning的核心思想是在每個(gè)時(shí)間步驟中根據(jù)當(dāng)前狀態(tài)計(jì)算一個(gè)Q值。Q值函數(shù)Q學(xué)習(xí)方法介紹6.3.3Q學(xué)習(xí)方法貝爾曼方程Q函數(shù)的更新過程通常是基于貝爾曼方程進(jìn)行的;貝爾曼方程是強(qiáng)化學(xué)習(xí)中的重要公式,用于描述狀態(tài)值函數(shù)與其后繼狀態(tài)之間的關(guān)系。更新Q值的過程通過不斷更新Q值,算法能夠?qū)W習(xí)出最優(yōu)的策略,即在每個(gè)狀態(tài)下選擇可以獲得最大回報(bào)的動(dòng)作;對(duì)于每次決策,都會(huì)基于當(dāng)前狀態(tài)的Q值來進(jìn)行選擇。Q函數(shù)更新過程6.3.3Q學(xué)習(xí)方法不斷進(jìn)行迭代,直到算法收斂,即表格中的Q值不再發(fā)生顯著變化。Q-Learning方法實(shí)現(xiàn)流程初始化表格將所有的Q(s,a)都設(shè)為0,表示初始時(shí)對(duì)各個(gè)狀態(tài)-動(dòng)作組合的價(jià)值沒有明確的認(rèn)識(shí)。隨機(jī)選擇初始狀態(tài)和動(dòng)作通過貝爾曼方程進(jìn)行迭代,不斷更新表格中的值函數(shù),直到計(jì)算最終目標(biāo)狀態(tài)。重復(fù)執(zhí)行步驟(2)決策與目標(biāo)在訓(xùn)練完成后,計(jì)算機(jī)的智能體在進(jìn)行決策時(shí),每個(gè)狀態(tài)都會(huì)選擇Q函數(shù)值最大者對(duì)應(yīng)的動(dòng)作。6.3.3Q學(xué)習(xí)方法Q表格賦初值Q表格初始化基于動(dòng)作獎(jiǎng)勵(lì)表,初始化Q表格,所有的空格都賦值0,表示當(dāng)前狀態(tài)下各個(gè)動(dòng)作的初始獎(jiǎng)勵(lì)值。動(dòng)作獎(jiǎng)勵(lì)表為了方便計(jì)算,我們根據(jù)圖6-9列出了動(dòng)作獎(jiǎng)勵(lì)表(表6-7),這個(gè)表與Q表格在維數(shù)上是完全一致的。6.3.3Q學(xué)習(xí)方法目標(biāo)狀態(tài)一旦達(dá)到目標(biāo)狀態(tài),就結(jié)束當(dāng)前的迭代片段,重新隨機(jī)選擇初始狀態(tài)和動(dòng)作,開始新的迭代片段。隨機(jī)選擇狀態(tài)和動(dòng)作在每一個(gè)迭代步驟中,我們隨機(jī)選擇一個(gè)狀態(tài)和一個(gè)動(dòng)作作為初始狀態(tài)和動(dòng)作。更新值函數(shù)通過貝爾曼方程進(jìn)行迭代,不斷更新表格中的值函數(shù),根據(jù)當(dāng)前狀態(tài)和選擇的下一個(gè)狀態(tài)來計(jì)算。迭代過程6.3.3Q學(xué)習(xí)方法歸一化的Q表格經(jīng)過一系列的迭代過程后,我們得到了歸一化后的Q表格(表6-9),該表格顯示了各個(gè)狀態(tài)下不同動(dòng)作的獎(jiǎng)勵(lì)值。最大狀態(tài)價(jià)值函數(shù)從圖中可以清楚地看出,只要沿著最大的狀態(tài)價(jià)值函數(shù),就能找到最優(yōu)路線到達(dá)最終目標(biāo)節(jié)點(diǎn)。最后得到歸一化的Q表格6.3.3Q學(xué)習(xí)方法能夠處理離散動(dòng)作空間,通過Q表格存儲(chǔ)狀態(tài)-動(dòng)作價(jià)值,簡單易實(shí)現(xiàn),適用于小型問題。Q學(xué)習(xí)方法優(yōu)點(diǎn)對(duì)于連續(xù)動(dòng)作空間或高維狀態(tài)空間,Q表格方法不可行,需要函數(shù)近似方法,可能產(chǎn)生高維數(shù)據(jù)。Q學(xué)習(xí)方法缺點(diǎn)Q學(xué)習(xí)方法優(yōu)缺點(diǎn)6.3.3Q學(xué)習(xí)方法機(jī)器人導(dǎo)航Q學(xué)習(xí)方法可用于訓(xùn)練機(jī)器人如何在環(huán)境中導(dǎo)航到特定目標(biāo),通過嘗試和糾正錯(cuò)誤,機(jī)器人能夠?qū)W習(xí)到最優(yōu)的路徑規(guī)劃策略。游戲AIQ學(xué)習(xí)方法應(yīng)用實(shí)例Q學(xué)習(xí)方法在游戲AI中有著廣泛的應(yīng)用,如國際象棋、圍棋等復(fù)雜游戲,通過學(xué)習(xí)游戲規(guī)則和策略,AI能夠達(dá)到甚至超越人類水平。01026.3.3Q學(xué)習(xí)方法

深度強(qiáng)化學(xué)習(xí)介紹

主神經(jīng)網(wǎng)絡(luò)

Q目標(biāo)網(wǎng)絡(luò)經(jīng)驗(yàn)池?fù)p失函數(shù)

DBN算法實(shí)現(xiàn)步驟

深度置信網(wǎng)絡(luò)算法流程強(qiáng)化學(xué)習(xí)算法概述

深度強(qiáng)化學(xué)習(xí)趨勢(shì)

強(qiáng)化學(xué)習(xí)未來展望6.3.4深度強(qiáng)化學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)介紹深度強(qiáng)化學(xué)習(xí)應(yīng)用深度強(qiáng)化學(xué)習(xí)模型深度強(qiáng)化學(xué)習(xí)優(yōu)勢(shì)深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,用于感知、理解環(huán)境,通過迭代訓(xùn)練學(xué)習(xí)如何采取特定行動(dòng)來最大化獎(jiǎng)勵(lì)函數(shù)。深度強(qiáng)化學(xué)習(xí)在自然語言處理、語音識(shí)別、圖像識(shí)別等領(lǐng)域有廣泛應(yīng)用,如自動(dòng)生成文章、閱讀理解、對(duì)話系統(tǒng)、自動(dòng)駕駛等。深度強(qiáng)化學(xué)習(xí)模型需要在相關(guān)環(huán)境中進(jìn)行迭代訓(xùn)練,以便在使得獎(jiǎng)勵(lì)函數(shù)最大化的同時(shí),最大化執(zhí)行動(dòng)作的準(zhǔn)確度和速度。深度強(qiáng)化學(xué)習(xí)能夠提供更好的決策和更高的性能,學(xué)會(huì)未知環(huán)境的知識(shí)和技能,具有對(duì)抗性、靈活性和適應(yīng)性,被廣泛應(yīng)用于各種領(lǐng)域和場景。深度強(qiáng)化學(xué)習(xí)介紹6.3.4深度強(qiáng)化學(xué)習(xí)主神經(jīng)網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò),以來自環(huán)境的當(dāng)前狀態(tài)等信息為輸入,每個(gè)動(dòng)作的Q值估計(jì)為輸出,通過反向傳播算法進(jìn)行訓(xùn)練。在訓(xùn)練過程中,智能體通過與環(huán)境互動(dòng)獲得經(jīng)驗(yàn)數(shù)據(jù),并最小化損失函數(shù),獲得主神經(jīng)網(wǎng)絡(luò)參數(shù)梯度值來更新主神經(jīng)網(wǎng)絡(luò)參數(shù)。主神經(jīng)網(wǎng)絡(luò)的介紹訓(xùn)練的過程主神經(jīng)網(wǎng)絡(luò)6.3.4深度強(qiáng)化學(xué)習(xí)Q目標(biāo)網(wǎng)絡(luò)是與主神經(jīng)網(wǎng)絡(luò)分離的神經(jīng)網(wǎng)絡(luò),以當(dāng)前狀態(tài)和未來的動(dòng)作為輸入,目標(biāo)Q值為輸出,目標(biāo)Q值代表在未來某個(gè)時(shí)間步長下選擇某個(gè)動(dòng)作后能夠獲得的最大Q值。Q目標(biāo)網(wǎng)絡(luò)的介紹目標(biāo)Q值是通過給定的獎(jiǎng)勵(lì)r和折扣因子γ來計(jì)算,主神經(jīng)網(wǎng)絡(luò)的參數(shù)為θ-。為了穩(wěn)定學(xué)習(xí)過程,主神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)會(huì)使用目標(biāo)Q值作為真實(shí)Q值。Q目標(biāo)值的計(jì)算Q目標(biāo)網(wǎng)絡(luò)6.3.4深度強(qiáng)化學(xué)習(xí)在離線學(xué)習(xí)中,智能體可以利用經(jīng)驗(yàn)池中的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),而不必實(shí)時(shí)與環(huán)境進(jìn)行交互,這種方式可以節(jié)省計(jì)算資源,并提高學(xué)習(xí)效率。經(jīng)驗(yàn)池經(jīng)驗(yàn)回放智能體從經(jīng)驗(yàn)池中隨機(jī)抽取一批經(jīng)驗(yàn),然后使用這些經(jīng)驗(yàn)來更新其策略或價(jià)值函數(shù),通過不斷回放經(jīng)驗(yàn),智能體能夠從過去的經(jīng)驗(yàn)中學(xué)習(xí),逐步改進(jìn)其策略。環(huán)境模擬存儲(chǔ)經(jīng)驗(yàn)智能體將每次與環(huán)境交互所獲得的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)等信息存儲(chǔ)在經(jīng)驗(yàn)池中,為后續(xù)的經(jīng)驗(yàn)回放提供數(shù)據(jù)支持。0302016.3.4深度強(qiáng)化學(xué)習(xí)損失函數(shù)用于計(jì)算主神經(jīng)網(wǎng)絡(luò)Q值估計(jì)與真實(shí)Q值之間的差異,DQN的損失函數(shù)通常采用均方誤差。損失函數(shù)作用損失函數(shù)表達(dá)式為L=(Qtarget-Q(s,a;θ))2,優(yōu)化模型策略選擇和價(jià)值估計(jì)能力。損失函數(shù)表達(dá)式訓(xùn)練過程中,采用隨機(jī)梯度下降算法更新神經(jīng)網(wǎng)絡(luò)參數(shù),減小損失函數(shù)值,直至達(dá)到一定精度或達(dá)到最大迭代次數(shù)。參數(shù)更新?lián)p失函數(shù)6.3.4深度強(qiáng)化學(xué)習(xí)01DQN算法流程主神經(jīng)網(wǎng)絡(luò)和Q目標(biāo)網(wǎng)絡(luò)每步更新,主神經(jīng)網(wǎng)絡(luò)計(jì)算Q值,智能體選動(dòng)作,經(jīng)驗(yàn)池存儲(chǔ)經(jīng)驗(yàn)。Q目標(biāo)網(wǎng)絡(luò)計(jì)算目標(biāo)Q值智能體比較當(dāng)前Q值與目標(biāo)Q值,更新主神經(jīng)網(wǎng)絡(luò)策略,結(jié)合經(jīng)驗(yàn)池和Q目標(biāo)網(wǎng)絡(luò)平衡數(shù)據(jù)穩(wěn)定性和算法效率。DQN擴(kuò)展應(yīng)用DQN具有較強(qiáng)的自適應(yīng)性和泛化能力,適用于處理高維度、連續(xù)狀態(tài)和離散動(dòng)作的復(fù)雜環(huán)境,并可擴(kuò)展至多智能體環(huán)境。損失函數(shù)02036.3.4深度強(qiáng)化學(xué)習(xí)DQN改進(jìn)版本DQN算法解決了深度強(qiáng)化學(xué)習(xí)的不穩(wěn)定性和收斂問題,實(shí)現(xiàn)了端到端學(xué)習(xí),成功應(yīng)用于Atari游戲和AlphaGo等多個(gè)任務(wù)。DQN算法創(chuàng)新性DQN算法啟發(fā)DQN算法的成功啟示了后續(xù)的算法研究,如DoubleDQN、DuellingDQN、Rainbow等,為深度強(qiáng)化學(xué)習(xí)的發(fā)展提供了重要的思路。DQN容易出現(xiàn)過度擬合、樣本相關(guān)性等問題,為克服這些問題,DQN算法的改進(jìn)版本也相繼提出,如DoubleDQN、DuelingDQN等。損失函數(shù)6.3.4深度強(qiáng)化學(xué)習(xí)數(shù)據(jù)準(zhǔn)備準(zhǔn)備需要訓(xùn)練的數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,例如歸一化、標(biāo)準(zhǔn)化等。RBM預(yù)訓(xùn)練使用一種叫做受限玻爾茲曼機(jī)對(duì)DBN進(jìn)行預(yù)訓(xùn)練,逐層適應(yīng)數(shù)據(jù)特征。結(jié)構(gòu)搭建在RBM預(yù)訓(xùn)練完成后,將各層的模型連接起來形成DBN模型,選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用訓(xùn)練數(shù)據(jù)和反向傳播算法對(duì)DBN進(jìn)行訓(xùn)練,不斷地調(diào)整參數(shù)以提高模型的精度。評(píng)估模型在訓(xùn)練完成后,我們需要通過對(duì)模型進(jìn)行評(píng)估,以檢驗(yàn)?zāi)P偷木群头夯芰?。預(yù)測(cè)或分類在評(píng)估模型性能后,我們可以將其應(yīng)用于新的、未見過的數(shù)據(jù)中進(jìn)行預(yù)測(cè)或分類。DBN算法實(shí)現(xiàn)步驟6.3.4深度強(qiáng)化學(xué)習(xí)數(shù)據(jù)準(zhǔn)備與預(yù)處理神經(jīng)網(wǎng)絡(luò)訓(xùn)練與調(diào)優(yōu)模型評(píng)估與選擇預(yù)測(cè)或分類DBN結(jié)構(gòu)搭建RBM預(yù)訓(xùn)練準(zhǔn)備訓(xùn)練數(shù)據(jù),進(jìn)行歸一化、標(biāo)準(zhǔn)化等預(yù)處理,以確保數(shù)據(jù)質(zhì)量。使用RBM模型對(duì)DBN進(jìn)行預(yù)訓(xùn)練,逐層適應(yīng)數(shù)據(jù)特征,為后續(xù)訓(xùn)練打下基礎(chǔ)。根據(jù)實(shí)際情況選擇合適的網(wǎng)絡(luò)結(jié)構(gòu),將RBM各層連接起來形成DBN模型。使用訓(xùn)練數(shù)據(jù)和反向傳播算法對(duì)DBN進(jìn)行訓(xùn)練,調(diào)整參數(shù)以優(yōu)化模型精度和穩(wěn)定性。訓(xùn)練完成后,對(duì)模型進(jìn)行評(píng)估,檢驗(yàn)其精度和泛化能力,選擇最佳模型。使用訓(xùn)練好的DBN模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)或分類,應(yīng)用于實(shí)際場景中。深度置信網(wǎng)絡(luò)算法流程6.3.4深度強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)算法概述介紹了多種強(qiáng)化學(xué)習(xí)算法,這些算法的關(guān)鍵在于賦予獎(jiǎng)勵(lì)函數(shù),以區(qū)分行動(dòng)的好壞。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)靈活強(qiáng)化學(xué)習(xí)算法概述獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)可以非常自由,可以精確地定義為任務(wù)成功條件,或采用模糊的度量標(biāo)準(zhǔn)。01026.3.4深度強(qiáng)化學(xué)習(xí)隨著計(jì)算能力的提高,深度強(qiáng)化學(xué)習(xí)成為發(fā)展趨勢(shì),采用深度學(xué)習(xí)技術(shù)確定行動(dòng),優(yōu)化策略,選擇最大獎(jiǎng)勵(lì)的行動(dòng)。深度強(qiáng)化學(xué)習(xí)算法使用神經(jīng)網(wǎng)絡(luò)處理環(huán)境,矯正輸出,排除不良行動(dòng)方案,以優(yōu)化決策和行動(dòng)選擇。深度強(qiáng)化學(xué)習(xí)趨勢(shì)神經(jīng)網(wǎng)絡(luò)優(yōu)化決策深度強(qiáng)化學(xué)習(xí)趨勢(shì)6.3.4深度強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)可解釋性未來,強(qiáng)化學(xué)習(xí)將更加注重可解釋性,即更好地解釋智能體的決策規(guī)則,以便人們更好地理解和應(yīng)用這些決策。強(qiáng)化學(xué)習(xí)實(shí)踐應(yīng)用強(qiáng)化學(xué)習(xí)未來的發(fā)展還需要更加廣泛的應(yīng)用和實(shí)踐,只有在更多的場景中應(yīng)用和驗(yàn)證,才能更好地發(fā)現(xiàn)問題和改進(jìn)方法。強(qiáng)化學(xué)習(xí)未來展望6.3.4深度強(qiáng)化學(xué)習(xí)本小節(jié)介紹了多種強(qiáng)化學(xué)習(xí)算法,這些算法的核心在于設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)算法的關(guān)鍵,它幫助算法在不同情境中正確區(qū)分行動(dòng)的好壞。這些函數(shù)的設(shè)計(jì)具有很高的自由度,可以精確定義,也可以采用模糊的度量標(biāo)準(zhǔn)。隨著計(jì)算能力的提高,深度強(qiáng)化學(xué)習(xí)成為發(fā)展趨勢(shì)。它采用深度學(xué)習(xí)技術(shù)來確定行動(dòng),通過優(yōu)化策略來選擇能獲得最大獎(jiǎng)勵(lì)的行動(dòng)。這些算法通常使用神經(jīng)網(wǎng)絡(luò)來處理輸入數(shù)據(jù),并根據(jù)已知?jiǎng)幼鞒C正網(wǎng)絡(luò)輸出,持續(xù)排除不良行動(dòng)方案。6.3.5本節(jié)小結(jié)本章提綱6.1強(qiáng)化學(xué)習(xí)基本思想6.2強(qiáng)化學(xué)習(xí)系統(tǒng)6.3強(qiáng)化學(xué)習(xí)方法6.4強(qiáng)化學(xué)習(xí)實(shí)例

背景介紹

實(shí)例實(shí)現(xiàn)

本節(jié)小結(jié)6.4強(qiáng)化學(xué)習(xí)實(shí)例強(qiáng)化學(xué)習(xí)算法讓機(jī)器人自動(dòng)走迷宮,我們將利用DeepQ-Learning算法來實(shí)現(xiàn)這個(gè)任務(wù)。強(qiáng)化學(xué)習(xí)走迷宮走迷宮實(shí)例概述四方向的迷宮,起點(diǎn)為紅色橢圓,終點(diǎn)為綠色方塊,機(jī)器人可選擇向上、右、下、左四個(gè)方向移動(dòng)。迷宮與移動(dòng)方向執(zhí)行每個(gè)動(dòng)作后,機(jī)器人會(huì)根據(jù)不同的情況獲得不同的獎(jiǎng)勵(lì),撞墻為-1,走到出口為+1,其他情況為0。獎(jiǎng)勵(lì)機(jī)制6.4.1背景介紹獎(jiǎng)勵(lì)機(jī)制詳解實(shí)現(xiàn)步驟概覽機(jī)器人走迷宮任務(wù)Q-Learning算法實(shí)現(xiàn)ReplayDataSet類簡單DQNRobot實(shí)現(xiàn)自定義DQNRobotDQN算法測(cè)試6.4.2實(shí)例實(shí)現(xiàn)通過學(xué)習(xí),機(jī)器人需要找出從起點(diǎn)到達(dá)終點(diǎn)的最優(yōu)路徑,這是其核心目標(biāo)也是智能導(dǎo)航能力的重要體現(xiàn)。獎(jiǎng)勵(lì)機(jī)制執(zhí)行每個(gè)動(dòng)作后,機(jī)器人會(huì)根據(jù)不同的情況獲得不同的獎(jiǎng)勵(lì),撞墻為-1,走到出口為+1,其他情況為0。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論