強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-05-08 格式：PPTX 頁(yè)數(shù)：70 大小：6.72MB 積分：15 舉報(bào) 版權(quán)申訴

強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述_第2頁(yè)

強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述_第3頁(yè)

強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述_第4頁(yè)

強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述_第5頁(yè)

已閱讀5頁(yè)，還剩65頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章強(qiáng)化學(xué)習(xí)概述北京大學(xué)余欣航目錄馬爾可夫決策過(guò)程（MDP）MDP的分類強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的應(yīng)用有監(jiān)督學(xué)習(xí)（supervised

learning）數(shù)據(jù)集中的樣本帶有標(biāo)簽，有明確目標(biāo)回歸和分類無(wú)監(jiān)督學(xué)習(xí)（unsupervised

learning）數(shù)據(jù)集中的樣本沒(méi)有標(biāo)簽聚類、降維、概率密度估計(jì)、生成模型構(gòu)建強(qiáng)化學(xué)習(xí)（reinforcementlearning）序列決策的過(guò)程，通過(guò)過(guò)程模擬和觀察來(lái)不斷學(xué)習(xí)，提高決策能力例如：AlphaGo機(jī)器學(xué)習(xí)的分類強(qiáng)化學(xué)習(xí)的元素

智能體環(huán)境時(shí)間序列

馬爾可夫過(guò)程

若用馬爾可夫過(guò)程來(lái)描述一個(gè)人上學(xué)的經(jīng)歷：如果一個(gè)人就讀于重點(diǎn)中學(xué)，那么他考上重點(diǎn)大學(xué)的概率也比較大如果擁有重點(diǎn)大學(xué)的學(xué)歷，那么找到一份好工作的概率也比較大馬爾可夫過(guò)程馬爾可夫決策過(guò)程在讀于普通中學(xué)的前提下：如果很努力學(xué)習(xí)，則考取重點(diǎn)大學(xué)的概率就會(huì)相對(duì)變高如果沉迷于打游戲、不花心思到學(xué)習(xí)上，那么考取重點(diǎn)大學(xué)的概率就會(huì)變得很低站在自身的角度來(lái)看待求學(xué)的經(jīng)歷，考取重點(diǎn)大學(xué)的概率并不只是“客觀的規(guī)律”決定的，也有“主觀能動(dòng)性”的成分馬爾可夫決策過(guò)程馬爾可夫決策過(guò)程（MarkovDecisionProcess,MDP）還需要定義動(dòng)作與獎(jiǎng)勵(lì)若將獎(jiǎng)勵(lì)定義為求學(xué)經(jīng)歷中獲得的“幸福感”：在中學(xué)采取“努力學(xué)習(xí)”的動(dòng)作，可能因?yàn)橥娴臅r(shí)間更少，而只有較低的“幸福感”，但這幫助我們考上了更好的大學(xué)，這個(gè)更好的狀態(tài)有助于未來(lái)獲得更多的“幸福感”要在“先苦后甜”與“及時(shí)行樂(lè)”中進(jìn)行取舍，選擇正確的動(dòng)作方式，以獲得最幸福的人生狀態(tài)動(dòng)作下一個(gè)狀態(tài)MDP的定義

目標(biāo)：最大化效用

終止?fàn)顟B(tài)

馬爾可夫過(guò)程與MDP的對(duì)比馬爾可夫過(guò)程客觀規(guī)律宏觀性質(zhì)例如遍歷定理（研究的是某個(gè)微粒在無(wú)窮長(zhǎng)的時(shí)間內(nèi)是否“肯定”會(huì)經(jīng)歷某個(gè)狀態(tài)，或無(wú)窮次經(jīng)歷某個(gè)狀態(tài)）、強(qiáng)遍歷定理（不同狀態(tài)之間的概率分布是否“肯定”會(huì)收斂于一個(gè)穩(wěn)定的分布）MDP具體的問(wèn)題主觀操作求解如何對(duì)一個(gè)具體的問(wèn)題采取措施，使得獲得的效果最好工程中很多實(shí)際問(wèn)題適合被定義為MDP而非馬爾可夫過(guò)程MDP的分類MDP的分類方式根據(jù)狀態(tài)與動(dòng)作是否連續(xù)進(jìn)行分類根據(jù)環(huán)境是否已知進(jìn)行分類根據(jù)環(huán)境的隨機(jī)性或確定性進(jìn)行分類根據(jù)環(huán)境的時(shí)齊性進(jìn)行分類根據(jù)時(shí)間的連續(xù)性進(jìn)行分類根據(jù)MDP是否退化進(jìn)行分類動(dòng)作連續(xù)與離散的MDP動(dòng)作是連續(xù)變量，則策略的求解類似于機(jī)器學(xué)習(xí)訓(xùn)練回歸模型的過(guò)程動(dòng)作是離散變量，則策略的求解類似于機(jī)器學(xué)習(xí)訓(xùn)練分類模型的過(guò)程Refer:https://jacklee.work狀態(tài)與動(dòng)作離散的MDP

狀態(tài)是連續(xù)或是離散也很重要，決定了模型的形式：象棋的動(dòng)作與狀態(tài)數(shù)量有限，且離散（不存在中間狀態(tài)）狀態(tài)：棋盤的局勢(shì)，各棋子的位置動(dòng)作：下一步落子的方式獎(jiǎng)勵(lì)：吃掉對(duì)方棋子的價(jià)值，如兵1分、馬4分等只將勝利設(shè)為得到獎(jiǎng)勵(lì)，中間吃子不算目標(biāo)：尋找最佳走棋策略，以獲得最大效用

狀態(tài)連續(xù)、動(dòng)作離散的MDP例如“黃金礦工”游戲中：狀態(tài)連續(xù)：黃金、石頭、鉆石、炸藥桶的位置動(dòng)作離散：放炸彈、下鉤、等待狀態(tài)與動(dòng)作連續(xù)的MDP

自動(dòng)駕駛可以定義為一個(gè)狀態(tài)和動(dòng)作都是連續(xù)的問(wèn)題：狀態(tài)連續(xù)：傳感器捕捉到的當(dāng)前路況圖像動(dòng)作連續(xù)：操作方向盤、踩油門、剎車等動(dòng)作，方向盤轉(zhuǎn)動(dòng)的角度與加速度都是連續(xù)的環(huán)境已知的MDP（model-base）

環(huán)境已知的MDP:最優(yōu)控制

列夫·龐特里亞金理查德·貝爾曼完成最優(yōu)控制理論的開(kāi)創(chuàng)性工作環(huán)境未知的MDP（model-free）

確定性環(huán)境的MDP例如一個(gè)簡(jiǎn)單的MDP：對(duì)于一個(gè)MDP，當(dāng)其S、A、P、R

都確定之后，應(yīng)該有一個(gè)最佳策略，是一個(gè)“狀態(tài)→動(dòng)作”形式的映射，它到底是一個(gè)什么樣的映射呢？狀態(tài)：圓所處的位置動(dòng)作：圓左移或者右移獎(jiǎng)勵(lì)：到達(dá)五角星獲得的獎(jiǎng)勵(lì)確定性環(huán)境的MDP最佳策略很簡(jiǎn)單，即一直向右移動(dòng)環(huán)境是“確定”的，即在給定狀態(tài)采取給定動(dòng)作，下一步的狀態(tài)與獎(jiǎng)勵(lì)是完全確定的此時(shí)MDP的最佳策略對(duì)應(yīng)的動(dòng)作是常量?。ú挥酶鶕?jù)狀態(tài)確定）狀態(tài)：圓所處的位置動(dòng)作：圓左移或者右移獎(jiǎng)勵(lì)：到達(dá)五角星獲得的獎(jiǎng)勵(lì)隨機(jī)性環(huán)境的MDP

MDP的時(shí)齊性

時(shí)齊與否在于對(duì)“時(shí)間”性質(zhì)的定義：時(shí)齊MDP中的“時(shí)間”是一種“相對(duì)的”度量標(biāo)尺，例如“一年”、“一個(gè)回合”非時(shí)齊MDP中的“時(shí)間”是“絕對(duì)的”歷史度量，例如“公元2018年”或者“第100個(gè)回合”非時(shí)齊性環(huán)境：房?jī)r(jià)的“水漲船高”

時(shí)齊性對(duì)策略的影響

時(shí)齊性對(duì)策略的影響當(dāng)環(huán)境為確定、時(shí)齊時(shí)，則策略為“動(dòng)作=常量”當(dāng)環(huán)境為隨機(jī)、時(shí)齊時(shí)，則策略為“狀態(tài)→動(dòng)作”形式當(dāng)環(huán)境為確定、非時(shí)齊時(shí)，則策略為“時(shí)間→動(dòng)作”形式當(dāng)環(huán)境為隨機(jī)、非時(shí)齊時(shí)，則策略為“時(shí)間、策略→動(dòng)作”形式狀態(tài)：圓所處的位置動(dòng)作：圓左移或者右移獎(jiǎng)勵(lì)：到達(dá)五角星獲得的獎(jiǎng)勵(lì)效用與終止?fàn)顟B(tài)對(duì)于時(shí)齊性的影響

時(shí)齊MDP的分類

時(shí)間的連續(xù)性

連續(xù)時(shí)間的MDP

退化的MDP

多臂老虎機(jī)問(wèn)題（Multi-ArmedBandit）

多臂老虎機(jī)問(wèn)題是退化的MDP

上下文老虎機(jī)（ContextualBandit）

多臂老虎機(jī)上下文老虎機(jī)一般強(qiáng)化學(xué)習(xí)問(wèn)題策略的形式當(dāng)環(huán)境為確定、時(shí)齊時(shí)，則策略為“動(dòng)作=常量”當(dāng)環(huán)境為隨機(jī)、時(shí)齊時(shí)，則策略為“狀態(tài)→動(dòng)作”形式當(dāng)環(huán)境為確定、非時(shí)齊時(shí)，則策略為“時(shí)間→動(dòng)作”形式當(dāng)環(huán)境為隨機(jī)、非時(shí)齊時(shí)，則策略為“時(shí)間、策略→動(dòng)作”形式模型的形式當(dāng)動(dòng)作是連續(xù)變量時(shí)，可以將策略定義為線性模型或神經(jīng)網(wǎng)絡(luò)模型等回歸模型而當(dāng)動(dòng)作是分類變量時(shí)，則可以將策略定義為神經(jīng)網(wǎng)絡(luò)、表格或其它分類模型狀態(tài)、動(dòng)作（非時(shí)齊情況下還是時(shí)間）決定了模型的輸入輸出思考

強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)解決的問(wèn)題對(duì)于生產(chǎn)、生活、辦公等領(lǐng)域的實(shí)際問(wèn)題，例如游戲AI或機(jī)器人控制，一般會(huì)被轉(zhuǎn)化為一個(gè)環(huán)境未知非退化MDP求解環(huán)境未知非退化MDP非常困難：需要擁有環(huán)境，并與環(huán)境交互產(chǎn)生大量的數(shù)據(jù)利用這些數(shù)據(jù)去尋找一個(gè)能夠最大化效用的策略強(qiáng)化學(xué)習(xí)：擁有環(huán)境假定擁有環(huán)境，可以自主地選擇與環(huán)境交互的方式，從環(huán)境中產(chǎn)生“需要的數(shù)據(jù)”例如MAB問(wèn)題中可以自由選擇操控桿的老虎機(jī)可以不斷從環(huán)境中獲取數(shù)據(jù)，以訓(xùn)練Agent使其取得更大的效用以象棋為例

模仿學(xué)習(xí)

改進(jìn)的方法：與人類專家進(jìn)行交互

DAgger

(DatasetAggregation)

模仿學(xué)習(xí)的局限模仿學(xué)習(xí)僅僅“擁有數(shù)據(jù)”，不能自由產(chǎn)生數(shù)據(jù)要在多步的MDP中找出一個(gè)比較好的策略，如果不能自由產(chǎn)生數(shù)據(jù)，是難以實(shí)現(xiàn)的強(qiáng)化學(xué)習(xí)則能夠從環(huán)境中產(chǎn)生我們需要的數(shù)據(jù)，并針對(duì)性地學(xué)習(xí)Exploration-ExploitationDilemma如何產(chǎn)生數(shù)據(jù)的一個(gè)重要原則是Exploration-ExploitationDilemma，它的原則是要讓產(chǎn)生的數(shù)據(jù)盡量接近當(dāng)前認(rèn)為的最佳策略，但同時(shí)又不能太過(guò)接近，而要保證分布足夠?qū)?、?shù)據(jù)具有足夠的多樣性為了簡(jiǎn)單起見(jiàn)，會(huì)首先在退化的MDP（MAB問(wèn)題）中討論它，然后再擴(kuò)展到非退化MDP的情況中從數(shù)據(jù)中學(xué)習(xí)最佳策略

強(qiáng)化學(xué)習(xí)的難點(diǎn)強(qiáng)化學(xué)習(xí)問(wèn)題的難點(diǎn)（環(huán)境未知、非退化）環(huán)境未知的難點(diǎn)（MAB）非退化的難點(diǎn)（最優(yōu)控制）強(qiáng)化學(xué)習(xí)：通向強(qiáng)人工智能的重要途徑弱人工智能：不需要具有人類完整的認(rèn)知能力，甚至是完全不具有人類所擁有的感官認(rèn)知能力，只要設(shè)計(jì)得看起來(lái)像有智慧就可以了強(qiáng)人工智能：具備執(zhí)行一般智能行為的能力，通常把人工智能和意識(shí)、感性、知識(shí)、自覺(jué)等人類的特征互相連接強(qiáng)化學(xué)習(xí)更接近現(xiàn)實(shí)中生命體的學(xué)習(xí)方式，更加“智能”有的研究者認(rèn)為，“強(qiáng)化學(xué)習(xí)是通向強(qiáng)人工智能的重要路徑”本體論在古典時(shí)代，哲學(xué)家們更加關(guān)注的是世界的本質(zhì)畢達(dá)哥拉斯的“萬(wàn)物皆數(shù)”，德謨克利特的“原子論”，柏拉圖的“理念論”都是對(duì)于世界的不同認(rèn)識(shí)方式，都在追求能夠“更加正確”地認(rèn)識(shí)世界這些以尋求世界本質(zhì)為目的的理論均被稱作“本體論”本體論：有監(jiān)督學(xué)習(xí)的思維方式有監(jiān)督學(xué)習(xí)思維方式與“本體論”相同，目標(biāo)是尋找客觀的規(guī)律，“學(xué)習(xí)知識(shí)”或者“認(rèn)識(shí)世界”學(xué)習(xí)方法：通過(guò)擬合現(xiàn)實(shí)中產(chǎn)生的數(shù)據(jù)，對(duì)誤差進(jìn)行優(yōu)化誤差小意味著“正確”，誤差大意味“錯(cuò)誤”，當(dāng)達(dá)到了百分之百的正確率的時(shí)候，“預(yù)測(cè)誤差”就降低為0，意味著已經(jīng)“完全正確”而沒(méi)有可以再提升的地方認(rèn)識(shí)論在近代，哲學(xué)經(jīng)歷了重要的“從本體論向認(rèn)識(shí)論”的轉(zhuǎn)向其代表是康德對(duì)于“本體”與“現(xiàn)象”的劃分，通俗的說(shuō)就是“真實(shí)世界”和“我看到的世界”是兩個(gè)不同的東西，在此基礎(chǔ)上，康德認(rèn)為“真實(shí)世界”是不重要的，“我看到的世界”才是值得關(guān)注的重點(diǎn)德國(guó)哲學(xué)家叔本華繼承以及進(jìn)一步發(fā)展了康德的理論，他將“我看到的世界”稱之為“表象”，而將人的本能稱作“意志”，并且認(rèn)為“表象”是“意志”外化出來(lái)的簡(jiǎn)而言之，他認(rèn)為人對(duì)于世界的認(rèn)識(shí)是被人的目的所支配的，或者說(shuō)，“我怎么認(rèn)識(shí)世界”是受到“我的目標(biāo)是什么”所支配的目的支配我們對(duì)于世界的認(rèn)識(shí)如果把人的“目的”、“目標(biāo)”或“追求”，也就是叔本華所說(shuō)的“意志”定義為“最大化效用”，那么人應(yīng)該是時(shí)刻在“追求最大化效用”的動(dòng)機(jī)支配下的，所有的能力都是為了滿足這個(gè)動(dòng)機(jī)的手段“正確認(rèn)識(shí)世界”其實(shí)也是一種能力，本質(zhì)上也是“追求最大化效用”。在某些具體的場(chǎng)景中的應(yīng)用，如果追求不同，認(rèn)識(shí)到的世界也會(huì)不同認(rèn)識(shí)論：強(qiáng)化學(xué)習(xí)的思維方式總的來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)的過(guò)程就像是在“最大化效用”的目標(biāo)支配下去探索環(huán)境，選擇環(huán)境中對(duì)自己有用的知識(shí)加以學(xué)習(xí)，這個(gè)過(guò)程更加強(qiáng)調(diào)人的“主觀能動(dòng)性”在認(rèn)識(shí)世界、改造世界中起到的重要作用強(qiáng)化學(xué)習(xí)比起有監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)更加接近一個(gè)生命體的學(xué)習(xí)過(guò)程、更加具有智能性、更加接近“強(qiáng)人工智能”強(qiáng)化學(xué)習(xí)的應(yīng)用軌跡追蹤強(qiáng)化學(xué)習(xí)在高維控制問(wèn)題（諸如機(jī)器人等）中的應(yīng)用已經(jīng)是學(xué)術(shù)界和工業(yè)界共同的研究課題2017年，伯克利發(fā)布的強(qiáng)化學(xué)習(xí)方法可以讓機(jī)器人17分鐘就學(xué)會(huì)軌跡跟蹤汽車制造機(jī)器人通過(guò)深度強(qiáng)化學(xué)習(xí)可以記住對(duì)象并獲得知識(shí)，并訓(xùn)練自己快速而精確地完成這項(xiàng)工作特斯拉超級(jí)工廠的四大制造環(huán)節(jié)：沖壓生產(chǎn)線、車身中心、烤漆中心和組裝中心有超過(guò)150名機(jī)器人參與工作，整個(gè)工廠幾乎都是機(jī)器人自動(dòng)駕駛自動(dòng)駕駛的人工智能包含了感知、決策和控制三個(gè)方面強(qiáng)化學(xué)習(xí)可以解決駕駛過(guò)程中的決策問(wèn)題Wayve公司的自動(dòng)駕駛汽車無(wú)需3D地圖也無(wú)需規(guī)則，讓汽車從零開(kāi)始在二十分鐘內(nèi)學(xué)會(huì)如何自動(dòng)駕駛提升ICU搶救效率血液化驗(yàn)指標(biāo)可以提供搶救病人的關(guān)鍵信息，但過(guò)于頻繁的化驗(yàn)有加重病情的危險(xiǎn)，也會(huì)增加治療的費(fèi)用來(lái)自普林斯頓大學(xué)的一個(gè)研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)，可以在減少化驗(yàn)頻率的同時(shí)優(yōu)化關(guān)鍵治療的開(kāi)展時(shí)間強(qiáng)化學(xué)習(xí)算法在這個(gè)機(jī)器學(xué)習(xí)系統(tǒng)中發(fā)揮了關(guān)鍵性的作用Refer:

Pixabay改進(jìn)惡性腦瘤放化療2018年，來(lái)自MITMediaLab的研究人員開(kāi)發(fā)出了一個(gè)新型人工智能模型，將強(qiáng)化學(xué)習(xí)應(yīng)用到現(xiàn)有的給藥方案上，反復(fù)調(diào)整膠質(zhì)母細(xì)胞瘤患者化療和放療的藥物劑量，在縮小腫瘤的同時(shí)找到盡可能最小的給藥劑量和頻率，最終發(fā)現(xiàn)最佳治療方案，改善患者生活質(zhì)量Refer：/cancer/article/6797圖像修復(fù)圖像修復(fù)是指恢復(fù)圖像損失的部分并基于背景信息將它們重建的技術(shù)CVPR2018上商湯科技發(fā)表了一篇論文《CraftingaToolchainforImageRestorationbyDeepReinforcementLearning》，提出了基于深度強(qiáng)化學(xué)習(xí)的RL-Restore算法，解決具有復(fù)雜混合失真的圖像復(fù)原問(wèn)題Refer：/TextTranslation/1564強(qiáng)化推薦在靜態(tài)場(chǎng)景之下，用戶的行為特征在與系統(tǒng)的交互過(guò)程中保持穩(wěn)定不變一類有代表性的工作是基于上下文多臂老虎機(jī)的推薦系統(tǒng)，它的發(fā)展為克服推薦場(chǎng)景中的冷啟動(dòng)問(wèn)題提供了行之有效的解決方案AlphaGo2016年，谷歌的AlphaGo利用CNN模型戰(zhàn)勝李世乭，首次在圍棋項(xiàng)目中戰(zhàn)勝人類頂尖棋手AlphaGo的完全自我博弈加強(qiáng)版AlphaZero——一個(gè)從零開(kāi)始自學(xué)國(guó)際象棋、將棋和圍棋的系統(tǒng)，它最終在這三個(gè)領(lǐng)域都打敗了世界最頂尖的程序：4小時(shí)就打敗了國(guó)際象棋的最強(qiáng)

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

強(qiáng)化學(xué)習(xí) 課件 第1章 強(qiáng)化學(xué)習(xí)概述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

強(qiáng)化學(xué)習(xí) 課件第1章強(qiáng)化學(xué)習(xí)概述