




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
深度強(qiáng)化學(xué)習(xí)分析綜述深度強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)深度強(qiáng)化學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在處理數(shù)據(jù)方面都有自身擅長(zhǎng)的一些優(yōu)勢(shì)和相較的劣勢(shì),深度強(qiáng)化學(xué)習(xí)具備很大優(yōu)勢(shì)的感知能力,但是處理決策問(wèn)題卻效果很差;強(qiáng)化學(xué)習(xí)處理起決策問(wèn)題游刃有余,但處理感知問(wèn)題就收效甚微。因此,本文將深度強(qiáng)化學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)融合起來(lái),處理起復(fù)雜系統(tǒng)甚至是繁雜的感知決策方面的問(wèn)題,達(dá)到1+1大于2的效果。深度強(qiáng)化學(xué)習(xí)很好地把深度強(qiáng)化學(xué)習(xí)和強(qiáng)化學(xué)習(xí)融合起來(lái),把復(fù)雜高維數(shù)據(jù)通過(guò)深度強(qiáng)化學(xué)習(xí)方法的特征提取轉(zhuǎn)化到低維特征空間,緊接著在把數(shù)據(jù)輸入進(jìn)強(qiáng)化學(xué)習(xí)最終實(shí)現(xiàn)分析決策。廣受學(xué)界深入研究和業(yè)界運(yùn)用的深度強(qiáng)化學(xué)習(xí)算法有:深度強(qiáng)化學(xué)習(xí)算法、深度策略梯度算法和異步優(yōu)勢(shì)Actor-Critic算法[10]。強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)強(qiáng)化學(xué)習(xí)(ReinforcementLearning)屬于人工智能,此概念最初來(lái)自精神學(xué)研究里的行為主義學(xué)習(xí)理論[23]。是在對(duì)動(dòng)物及人類采取一系列控制較嚴(yán)密的實(shí)驗(yàn)研究的基礎(chǔ)上,發(fā)現(xiàn)并提出一系列有關(guān)學(xué)習(xí)的原理和規(guī)律。強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支領(lǐng)域,在這個(gè)分支中,智能體學(xué)習(xí)如何通過(guò)與環(huán)境的交互來(lái)獲得最大的獎(jiǎng)勵(lì)。與監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)不能從經(jīng)驗(yàn)豐富的外部監(jiān)管者提供的樣本中學(xué)習(xí)。相反,它必須根據(jù)自己的經(jīng)驗(yàn)來(lái)學(xué)習(xí),盡管它面臨著環(huán)境的較大不確定性。強(qiáng)化學(xué)習(xí)的定義不是描述學(xué)習(xí)方法,而是描述學(xué)習(xí)問(wèn)題。任何適合解決該問(wèn)題的方法都可以被認(rèn)為是一種強(qiáng)化學(xué)習(xí)方法。一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題中一般包括元素如下表所示。表2-5強(qiáng)化學(xué)習(xí)中的一般元素元素解釋狀態(tài)智能體從環(huán)境獲取的信息。描述了當(dāng)前的環(huán)境,如圍棋程序,狀態(tài)是棋子在棋盤(pán)上的位置;狀態(tài)空間是指所有可能的環(huán)境條件。動(dòng)作智能體的行為表征。動(dòng)作空間是指智能體在每種狀態(tài)下的所有可能操作。獎(jiǎng)勵(lì)環(huán)境對(duì)于動(dòng)作的反饋。在某種狀態(tài)下,完成一個(gè)動(dòng)作后,獲得獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)可以是正面的,也可以是負(fù)面的(即懲罰)。狀態(tài)轉(zhuǎn)移概率智能體做出動(dòng)作后進(jìn)入下一狀態(tài)的概率。表示系統(tǒng)在某一狀態(tài)下執(zhí)行某一動(dòng)作后,轉(zhuǎn)移到下一狀態(tài)的概率值。策略智能體根據(jù)狀態(tài)進(jìn)行下一步動(dòng)作的函數(shù)。表示狀態(tài)與動(dòng)作之間的映射關(guān)系,即在某一狀態(tài)下執(zhí)行哪個(gè)動(dòng)作。通常表示為a(t)=π(x(t))智能體需要不斷地嘗試所有可能的狀態(tài)一動(dòng)作組合,策略π表示狀態(tài)空間上的動(dòng)作序列。強(qiáng)化學(xué)習(xí)的目的是尋找最佳的學(xué)習(xí)策略π*。值函數(shù)價(jià)值函數(shù)指從當(dāng)前狀態(tài)算起,未來(lái)一定數(shù)量的獎(jiǎng)勵(lì)函數(shù)的累加。如何計(jì)算/估計(jì)價(jià)值函數(shù)是整個(gè)強(qiáng)化學(xué)習(xí)的核心問(wèn)題。強(qiáng)化學(xué)習(xí)其最重要的特征有兩個(gè),一是試錯(cuò)性搜索(trial-and-errorsearch),即智能體不會(huì)被告知該采取何種行為(action),而是自己去探索整個(gè)環(huán)境,并且有可能會(huì)做出錯(cuò)誤的選擇;二是延遲獎(jiǎng)勵(lì)(delayedreward),即智能體所采取的行動(dòng)不僅會(huì)影響當(dāng)前的獎(jiǎng)勵(lì),還會(huì)作用到未來(lái)狀態(tài)(state)的獎(jiǎng)勵(lì)[24]。價(jià)值函數(shù)指從當(dāng)前狀態(tài)算起,未來(lái)一定數(shù)量的獎(jiǎng)勵(lì)函數(shù)的累加。如何計(jì)算/估計(jì)價(jià)值函數(shù)是整個(gè)強(qiáng)化學(xué)習(xí)的核心問(wèn)題。一般來(lái)說(shuō),強(qiáng)化學(xué)習(xí)可分為無(wú)模型強(qiáng)化學(xué)習(xí)和基于模型的強(qiáng)化學(xué)習(xí),這取決于環(huán)境因素(即狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù))是否已知。近年來(lái),無(wú)模型強(qiáng)化學(xué)習(xí)已成功地應(yīng)用于深層神經(jīng)網(wǎng)絡(luò)。它可以直接將原始狀態(tài)輸入到深層神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)更難的任務(wù)策略。而基于模型的強(qiáng)化學(xué)習(xí)則借助于監(jiān)督學(xué)習(xí)對(duì)系統(tǒng)模型進(jìn)行學(xué)習(xí),并在此模型下對(duì)策略進(jìn)行優(yōu)化。近年來(lái),基于模型的強(qiáng)化學(xué)習(xí)元素被引入到無(wú)模型深層強(qiáng)化學(xué)習(xí)中,在不喪失無(wú)模型學(xué)習(xí)優(yōu)勢(shì)的前提下提高了學(xué)習(xí)速度。強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,關(guān)注于獲取環(huán)境中的知識(shí),改進(jìn)適應(yīng)環(huán)境的行為策略,并做出一系列決策。強(qiáng)化學(xué)習(xí)系統(tǒng),是對(duì)當(dāng)前所處的環(huán)境狀況進(jìn)行學(xué)習(xí)與探索、并接受周?chē)答伒慕邮?,在不需要大量?biāo)記數(shù)據(jù)的情況下,最終形成的自適應(yīng)模型,強(qiáng)化學(xué)習(xí)的理念就是智能體與周?chē)h(huán)境不斷的交互反饋?zhàn)饔?,最后根?jù)學(xué)習(xí)過(guò)程做出決策序列,強(qiáng)化最終的決策能力的全過(guò)程。在本文可以預(yù)見(jiàn)的各種場(chǎng)景中,通過(guò)與云計(jì)算環(huán)境的持續(xù)交互,智能體可以采取行動(dòng)并獲得相應(yīng)的回報(bào)。除此以外,強(qiáng)化學(xué)習(xí)的最終目標(biāo)是使累積回報(bào)最優(yōu)化、回報(bào)率最大化。對(duì)于每一集,首先,在每一步t中,智能體獲得對(duì)云計(jì)算環(huán)境的觀察,即狀態(tài)st。然后,智能體根據(jù)某個(gè)策略推斷出一個(gè)動(dòng)作at。獲得相應(yīng)的獎(jiǎng)勵(lì)rt。輸入新?tīng)顟B(tài)s片段:這是智能體的進(jìn)行訓(xùn)練的過(guò)程。在本文中,片段是從云計(jì)算的資源分配過(guò)程,它將請(qǐng)求聚合到具有相應(yīng)應(yīng)用程序的目標(biāo)云服務(wù)器。它可以表示為狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的序列,即[s1,a1策略π:將狀態(tài)映射到動(dòng)作的概率分布的策略模型,表示代理的行為并指導(dǎo)代理如何選擇動(dòng)作。獎(jiǎng)勵(lì)rt獎(jiǎng)勵(lì)的積累效應(yīng):Rt動(dòng)作值函數(shù)(Q函數(shù)):該函數(shù)在許多強(qiáng)化學(xué)習(xí)算法中使用,如果下文將提到的Q-learning,動(dòng)作值函數(shù)Q(st,at)表示當(dāng)采取在Q-learningQ-learning是經(jīng)典的強(qiáng)化學(xué)習(xí)算法之一,是一種無(wú)模型學(xué)習(xí)方法[20],它使用Q-table中存儲(chǔ)的動(dòng)作值Q(sQQ-learning每一片段開(kāi)始時(shí),環(huán)境狀態(tài)s都會(huì)被初始化。對(duì)于該片段的每一個(gè)步驟,首先應(yīng)該根據(jù)當(dāng)前的狀態(tài)st以及策略π選擇動(dòng)作,在動(dòng)作選擇后得到的反饋進(jìn)而獲得獎(jiǎng)勵(lì)rt并進(jìn)行下一個(gè)狀態(tài)stQ其中r+γmaxat+1?Q's此理論普遍適用于各類研究中,所以在各個(gè)行業(yè)均涉及探索,包括統(tǒng)計(jì)學(xué)、控制學(xué)、對(duì)策論等。ReinforcementLearning是運(yùn)用獲取樣本和學(xué)習(xí)同步進(jìn)行的技巧,首先得到樣本,隨之革新模型,選擇目前的模型活動(dòng)接下來(lái)活動(dòng)的指南,取得激勵(lì)繼而繼續(xù)變更模型,持續(xù)更新?lián)Q代直至其抑制。強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)有一定的區(qū)別,前者更強(qiáng)調(diào)環(huán)境與動(dòng)作中間的映射關(guān)系,以實(shí)現(xiàn)來(lái)自環(huán)境的動(dòng)作累積獎(jiǎng)勵(lì)價(jià)值的最大化,后者更強(qiáng)調(diào)試錯(cuò),通過(guò)正反兩個(gè)例子來(lái)說(shuō)明應(yīng)該采取什么樣的操作達(dá)到最優(yōu)。強(qiáng)化學(xué)習(xí)的研究一般可分為兩類,一種是將自身作為一種問(wèn)題來(lái)進(jìn)行研究,另外一類是用強(qiáng)化學(xué)習(xí)去解決一些問(wèn)題。在將強(qiáng)化學(xué)習(xí)自身作為問(wèn)題進(jìn)行研究中,有基于遺傳算法等搜索代理的行為空間,以發(fā)現(xiàn)最優(yōu)結(jié)果,還有就是采用統(tǒng)計(jì)學(xué)、控制論等多種方法來(lái)推算在某種環(huán)境下的有效域。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,計(jì)算性能的不斷提高,深度強(qiáng)化歇息被更多的運(yùn)用在機(jī)器學(xué)習(xí)、人工智能AI以及自動(dòng)控制等多個(gè)領(lǐng)域,得到學(xué)者們的關(guān)注和認(rèn)識(shí),并將其作為其中一種智能代理核心技術(shù)進(jìn)行研究和應(yīng)用深度強(qiáng)化學(xué)習(xí)在人工智能的各種應(yīng)用領(lǐng)域中表現(xiàn)出了卓越的性能:模式識(shí)別,機(jī)器人技術(shù),對(duì)象分割,推薦系統(tǒng)和游戲。近年來(lái),深度強(qiáng)化學(xué)習(xí)在電信技術(shù)中的應(yīng)用正逐漸引起人們的廣泛關(guān)注[27]。強(qiáng)化學(xué)習(xí)的典型應(yīng)用大部分Mobileweb缺陷能夠詮釋為馬爾可夫鏈,強(qiáng)化學(xué)習(xí)在整個(gè)過(guò)程里起著十分關(guān)鍵的影響。然而有一些不能完全融合與老舊方式的強(qiáng)化學(xué)習(xí),比如里面所包含的多維輸入?,F(xiàn)如今,有大部分學(xué)者開(kāi)始援用深度強(qiáng)化學(xué)習(xí)概念,以此來(lái)解決繁瑣的把控整個(gè)網(wǎng)絡(luò)的疑難[28]。因?yàn)榇祟惙绞侥軌蚣訉捯酝鶑?qiáng)化學(xué)習(xí)的算略,在過(guò)去,其被歸為不移實(shí)施的處境里解決高維疑難的本領(lǐng)。所以深度強(qiáng)化學(xué)習(xí)能夠處理各類繁瑣、千變?nèi)f化以及HeterogeneousNetwork(異構(gòu)網(wǎng)絡(luò))情況中的網(wǎng)絡(luò)解決及掌控的難點(diǎn)[29]。以下簡(jiǎn)要概述三個(gè)層面強(qiáng)化學(xué)習(xí)的應(yīng)用:(1)調(diào)度。有部分工作難題會(huì)需要運(yùn)用調(diào)度去解決。在有些學(xué)者的著作中表示,為了降低像物聯(lián)網(wǎng)、WIFI、圖像等的同步系統(tǒng)的損耗。在此次解決過(guò)程中,運(yùn)用Automaticcoding(自動(dòng)編碼)近似函數(shù),在練習(xí)中運(yùn)用Experiencereplay,穩(wěn)固訓(xùn)練習(xí)經(jīng)過(guò),提高縮減速度。試驗(yàn)事實(shí)顯示,此技巧相對(duì)于過(guò)去的研究形式來(lái)說(shuō),花費(fèi)的全部能力有所縮減,可達(dá)到百分之四點(diǎn)二。與此同時(shí),該著作針對(duì)通信網(wǎng)絡(luò)里調(diào)度的疑難點(diǎn),運(yùn)用深度強(qiáng)化學(xué)習(xí)進(jìn)行探索研究,值得注意的是,將交通工具和周遭境況的相互融合,囊括Sequence、observedresult以及獎(jiǎng)勵(lì)信號(hào),都將成為馬爾可夫鏈去實(shí)現(xiàn)模型化。相較于之前的調(diào)度對(duì)策,此對(duì)策可以縮短缺少的事項(xiàng)要求、降低從一個(gè)網(wǎng)絡(luò)的一端傳送到另一個(gè)端所需要的時(shí)間。此應(yīng)用運(yùn)用近似函數(shù),是一種智能化的調(diào)度方法[30]。(2)資源分配是有效發(fā)揮DNN(DeepNeuralNetworks)技術(shù),預(yù)測(cè)干預(yù)被約束的無(wú)線互聯(lián)網(wǎng)境況條件,陣列最優(yōu)加權(quán)矢量和輸出最小均方誤差算法的輸入和輸出當(dāng)中的ORM(ObjectRelationalMapping)。在經(jīng)過(guò)多次模擬學(xué)習(xí)之后,僅僅花費(fèi)很少的運(yùn)轉(zhuǎn)時(shí)間,神經(jīng)網(wǎng)絡(luò)即能夠?qū)崿F(xiàn)與之相似的被學(xué)習(xí)者的效果。在Cloud端鏈接無(wú)線互聯(lián)網(wǎng)方面,也涉及到深度強(qiáng)化學(xué)習(xí)[31]。采取此種應(yīng)用方式在確定目前標(biāo)準(zhǔn)以及使用者需要的前提下,明確遠(yuǎn)距離閉合標(biāo)準(zhǔn)。將獨(dú)立基站互相貫穿的方式,同一律協(xié)調(diào)的基站進(jìn)行對(duì)比顯示,深度強(qiáng)化學(xué)習(xí)可以滿足要求,實(shí)現(xiàn)使用者的需要,降低能力破損。(3)電磁支配。運(yùn)用DNN(DeepNeura
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項(xiàng)11 古詩(shī)文閱讀(試卷版)
- 人教版《美術(shù)》二年級(jí)上冊(cè)第8課《對(duì)印的圖形》教案
- 應(yīng)急聯(lián)動(dòng)指揮中心設(shè)計(jì)方案
- 管理會(huì)計(jì)試卷及答案 共2套
- 5.2 生活中的透鏡 說(shuō)課稿2025年初中人教版物理八年級(jí)上冊(cè)
- 暑期敬老院社會(huì)實(shí)踐報(bào)告
- 雙十一文胸店活動(dòng)策劃
- 二零二五年度北京市旅店智能化客房租賃合同
- 人力資源居間合同
- 2025年度北京市健康產(chǎn)業(yè)員工勞動(dòng)合同參考
- 江蘇電子信息職業(yè)學(xué)院?jiǎn)握小墩Z(yǔ)文》考試參考題庫(kù)(含答案)
- 2025年高考數(shù)學(xué)復(fù)習(xí)核心考點(diǎn)(新高考專用)專題5.3平面向量的數(shù)量積及其應(yīng)用【八大題型】特訓(xùn)(學(xué)生版+解析)
- 廣東省佛山市2024-2025學(xué)年高三上學(xué)期教學(xué)質(zhì)量檢測(cè)(一)英語(yǔ) 含解析
- 2025年常州機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)有完整答案
- 2025年河南經(jīng)貿(mào)職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及參考答案
- 第11課《山地回憶》課件-2024-2025學(xué)年統(tǒng)編版語(yǔ)文七年級(jí)下冊(cè)
- 【課件】第十單元課題1+溶液的酸堿性-2024-2025學(xué)年九年級(jí)化學(xué)人教版(2024)下冊(cè)
- 2025-2030年中國(guó)納米氧化鋁市場(chǎng)競(jìng)爭(zhēng)格局及前景趨勢(shì)預(yù)測(cè)報(bào)告
- YY/T 1941-2024采用機(jī)器人技術(shù)的腹腔內(nèi)窺鏡手術(shù)系統(tǒng)
- 《莖和葉》說(shuō)課稿-2023-2024學(xué)年科學(xué)四年級(jí)下冊(cè)教科版
- 庭園施工合同范本
評(píng)論
0/150
提交評(píng)論