《人工智能控制技術(shù)》 課件 chap3-強化學(xué)習(xí)_第1頁
《人工智能控制技術(shù)》 課件 chap3-強化學(xué)習(xí)_第2頁
《人工智能控制技術(shù)》 課件 chap3-強化學(xué)習(xí)_第3頁
《人工智能控制技術(shù)》 課件 chap3-強化學(xué)習(xí)_第4頁
《人工智能控制技術(shù)》 課件 chap3-強化學(xué)習(xí)_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《人工智能控制技術(shù)》強化學(xué)習(xí)強化學(xué)習(xí)的歷史背景學(xué)習(xí)能力一直是智能控制的重要目標(biāo),也是人工智能的主要標(biāo)志和進展。近年來不論是人工智能還是控制都在強化學(xué)習(xí)方面取得極大進展,以基于強化學(xué)習(xí)的AlphaGo戰(zhàn)勝人類標(biāo)志了智能計算的強勢興起,在最優(yōu)控制過程中引入強化學(xué)習(xí)使得原來難以求解的問題獲得解決等等都是強化學(xué)習(xí)取得的成果。強化學(xué)習(xí)的歷史背景2016年,谷歌旗下的DeepMind團隊發(fā)布AlphaGo,AlphaGo以4:1的戰(zhàn)績擊敗了世界圍棋冠軍、韓國棋手李世石。2017年AlphaGoMaster版本,并以3:0戰(zhàn)勝了當(dāng)今世界圍棋第一人中國棋手柯潔。AlphaGoZero,在無需任何人類指導(dǎo)情況下,完全通過自我博弈,以100:0擊敗了AlphaGo,經(jīng)過40天訓(xùn)練以89:11擊敗了AlphaGoMaster。強化學(xué)習(xí)的歷史背景AlphaGoZero和AlphaZero會取得如此傲人的成績,得益于它們所用到的強化學(xué)習(xí)算法。算法的輸入僅限于棋盤、棋子及游戲規(guī)則,沒有使用任何人類數(shù)據(jù)。算法基本上從一個對圍棋(或其他棋牌頭游戲)一無所知的神經(jīng)網(wǎng)絡(luò)開始,將該神經(jīng)網(wǎng)絡(luò)和一個強力搜索算法結(jié)合,自我對弈。在對弈過程中神經(jīng)網(wǎng)絡(luò)不斷自行調(diào)整、開級,預(yù)測每一步落子和最終的勝利者。隨著訓(xùn)練的進行,算法獨立發(fā)現(xiàn)了人類用幾千年才總結(jié)出來的圍棋經(jīng)驗,并且建立了新的戰(zhàn)略,發(fā)展出了打破常規(guī)的策略和新招,為這個古老的游戲帶來了新見解。強化學(xué)習(xí)的歷史背景強化學(xué)習(xí)方法起源于動物心理學(xué)的相關(guān)原理,模擬人類和動物學(xué)習(xí)的試錯機制,是一種通過與環(huán)境交互,學(xué)習(xí)狀態(tài)到行為的映射關(guān)系,以獲得最大累積期望回報的方法。狀態(tài)到行為的映射關(guān)系即是策略,表示在各個狀態(tài)下,智能體所采取的行為或行為概率。強化學(xué)習(xí)更像是人類的學(xué)習(xí),其本質(zhì)就是通過與環(huán)境交互進行學(xué)習(xí)。幼兒在學(xué)習(xí)走路時雖然沒有老師引導(dǎo),但他與環(huán)境有一個直觀的聯(lián)系,這種聯(lián)系會產(chǎn)生大量關(guān)于采取某個行為產(chǎn)生何種后果,以及為了實現(xiàn)目標(biāo)要做些什么的因果關(guān)系信息,這種與環(huán)境的交互無疑是人類學(xué)習(xí)的主要途徑。無論是學(xué)習(xí)駕駛汽車還是進行對話,我們都非常清楚環(huán)境的反饋,并且力求通過我們的行為去影響事態(tài)進展。人類通過與周圍環(huán)境交互,學(xué)會了行走與奔跑、語言與藝術(shù)。從交互中學(xué)習(xí)幾乎是所有人工智能學(xué)習(xí)和智能控制理論的基礎(chǔ)概念。強化學(xué)習(xí)的歷史背景人工智能的目標(biāo)是賦予機器像人一樣思考并做出反應(yīng)的智慧能力,更進一步是希望創(chuàng)造出像人類一樣具有自我意識和思考的人工智能。強化學(xué)習(xí)是解決機器認知的重要技術(shù)之一,掌握了強化學(xué)習(xí)的基本方法和基本原理便掌握了創(chuàng)造未來的基本工具。強化學(xué)習(xí)分類根據(jù)不同的分類方法將強化學(xué)習(xí)算法分成不同的種類:1、基于策略迭代和基于值迭代的強化學(xué)習(xí)2、在線學(xué)習(xí)和離線學(xué)習(xí)3、基于模型學(xué)習(xí)和無模型學(xué)習(xí)基于策略迭代和基于值迭代的強化學(xué)習(xí)

在線學(xué)習(xí)和離線學(xué)習(xí)所謂在線學(xué)習(xí)是指學(xué)習(xí)過程中智能體必須參與其中,典型算法是Sarsa算法;離線學(xué)習(xí)是指學(xué)習(xí)過程中智能體既可以參與其中,也可以根據(jù)其他學(xué)習(xí)過程學(xué)習(xí),典型算法是Q-Learning,Deep-Q-Network。在線學(xué)習(xí)時學(xué)習(xí)者必須進行完一系列動作后才產(chǎn)生樣本,而離線學(xué)習(xí)能夠從其他學(xué)習(xí)經(jīng)驗或動作開始學(xué)習(xí)?;谀P蛯W(xué)習(xí)和無模型學(xué)習(xí)強化學(xué)習(xí)中對于模型的理解就是指強化學(xué)習(xí)的環(huán)境?;谀P蛯W(xué)習(xí)是指學(xué)習(xí)和理解環(huán)境,用模型描述環(huán)境,通過模型模擬的環(huán)境得到反饋。無模型學(xué)習(xí)是指不學(xué)習(xí)和理解環(huán)境,換句話說環(huán)境不會響應(yīng)智能體的動作,算法通過智能體反復(fù)測試選擇最佳策略,典型算法有PolicyOptimization、Q-Learning。強化學(xué)習(xí)中的重點概念學(xué)習(xí)與規(guī)劃:學(xué)習(xí)和規(guī)劃是序列決策的兩個基本問題。在強化學(xué)習(xí)中,環(huán)境初始時是未知的,智能體不知道環(huán)境如何工作,智能體通過不斷地與環(huán)境交互,逐漸改進策略。在規(guī)劃中,環(huán)境是已知的,我們被告知了整個環(huán)境的運作規(guī)則的詳細信息。智能體能夠計算出一個完美的模型,并且在不需要與環(huán)境進行任何交互的時候進行計算。智能體不需要實時地與環(huán)境交互就能知道未來環(huán)境,只需要知道當(dāng)前的狀態(tài),就能夠開始思考,來尋找最優(yōu)解,一個常用的強化學(xué)習(xí)問題解決思路是,先學(xué)習(xí)環(huán)境如何工作,也就是了解環(huán)境工作的方式,即學(xué)習(xí)得到一個模型,然后利用這個模型進行規(guī)劃。強化學(xué)習(xí)中的重點概念智能體學(xué)習(xí)游戲智能體規(guī)劃游戲強化學(xué)習(xí)中的重點概念探索與利用:在強化學(xué)習(xí)里面,探索和利用是兩個非常核心的問題。探索是指通過嘗試不同的動作探索環(huán)境來得到一個最大獎勵的策略。利用是指采取已知的可以得到很大獎勵的動作。強化學(xué)習(xí)在開始時并不知道采取某個動作會得到什么獎勵,或者說產(chǎn)生什么后果,只能通過試錯去探索。所以探索是通過試錯來理解所采取動作能否得到好的獎勵。利用是已知得到好的獎勵的動作并執(zhí)行該動作。因此探索和利用就面臨權(quán)衡的問題,怎么通過犧牲一些短期的獎勵來獲得環(huán)境的理解,從而學(xué)習(xí)到更好的策略,或者本身就存在短期好的獎勵長期并不一定好的情況,需要權(quán)衡探索和利用。強化學(xué)習(xí)中的重點概念下面通過例子說明探索和利用。以選擇餐館為例,利用是指直接去最喜歡的餐館,因為這個餐館已經(jīng)去過很多次,知道這里的菜都非常可口。探索是指不知道要去哪個餐館,通過手機搜索或直接隨機找到一個餐館,去嘗試這個餐館的菜到底好不好吃,這個餐館的菜有可能很好,也有可能很差。所以利用一般都能得到好的獎勵,探索則不一定,有可能獲得好的獎勵,也有可能無法獲得好的獎勵。強化學(xué)習(xí)中的重點概念與監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)任務(wù)的最終最好獎賞是在多步動作之后才能觀察到,先考慮簡單的情況:最大化單步獎勵,即僅考慮一步動作。需注意的是,即便在這樣的簡化情形下,強化學(xué)習(xí)仍與監(jiān)督學(xué)習(xí)有顯著不同,監(jiān)督學(xué)習(xí)表示的是輸出誤差直接是輸入(即動作)的函數(shù),而強化學(xué)習(xí)的獎勵函數(shù)不直接指導(dǎo)動作,是對智能體嘗試的不同動作給出評價,告訴智能體應(yīng)當(dāng)做哪個動作。想要最大化單步獎勵需考慮兩個方面:一是需知道每個動作帶來的獎勵,二是要執(zhí)行獎勵最大的動作。若每個動作對應(yīng)的獎勵是一個確定值,那么嘗試遍所有的動作便能找出獎勵最大的動作。然而更一般的情形是一個動作的獎勵值來自于概率分布,僅通過一次嘗試并不能確切地獲得平均獎勵值。強化學(xué)習(xí)中的重點概念預(yù)測與控制:預(yù)測與控制也叫評估與優(yōu)化,是解決強化學(xué)習(xí)問題的兩個重要的步驟。在解決具體的馬爾可夫決策問題時,首先需要解決關(guān)于預(yù)測的問題,即評估當(dāng)前這個策略有多好,具體的做法—般是求解在既定策略下的狀態(tài)值函數(shù)。而后在此基礎(chǔ)上解決關(guān)于控制的問題,即對當(dāng)前策略不斷優(yōu)化,直到找到一個足夠好的策略能夠最大化未來的回報。馬爾可夫決策過程馬爾可夫決策過程概述馬爾可夫決策過程(MarkovDecisionProcess,MDP)是數(shù)學(xué)規(guī)劃的一個分支,起源于隨機優(yōu)化控制,20世紀(jì)50年代貝爾曼(Bellman)在動態(tài)規(guī)劃研究中已經(jīng)體現(xiàn)了馬爾可夫決策過程的基本思想,布萊克維爾(Blackwell)等進一步推動了馬爾可夫決策過程的發(fā)展。強化學(xué)習(xí)的大多數(shù)算法都是以馬爾可夫決策過程為基礎(chǔ)發(fā)展的,智能體在強化學(xué)習(xí)時也經(jīng)常對狀態(tài)轉(zhuǎn)移概率的不確定采用馬爾可夫決策過程求解。因此,馬爾可夫決策過程在強化學(xué)習(xí)領(lǐng)域占有重要地位,在學(xué)習(xí)強化學(xué)習(xí)之前先要了解馬爾可夫決策過程。馬爾可夫決策過程概述

馬爾可夫鏈

馬爾可夫鏈馬爾可夫鏈?zhǔn)侵妇哂旭R爾可夫性且存在于離散的指數(shù)集和狀態(tài)空間內(nèi)的隨機過程。適用于連續(xù)指數(shù)集的馬爾可夫鏈稱為馬爾可夫過程,但有時也被視為馬爾可夫鏈的子集,即連續(xù)時間馬爾可夫鏈。馬爾可夫鏈可通過轉(zhuǎn)移矩陣和轉(zhuǎn)移圖定義,除馬爾可夫性外,馬爾可夫鏈還可能具有不可約性、常返性、周期性和遍歷性。馬爾可夫鏈

馬爾科夫鏈?zhǔn)纠隣顟B(tài)轉(zhuǎn)移矩陣馬爾可夫決策過程馬爾可夫決策過程是在狀態(tài)空間的基礎(chǔ)上引入了“動作”的馬爾可夫鏈,即馬爾可夫鏈的轉(zhuǎn)移概率不僅與當(dāng)前狀態(tài)有關(guān),也與當(dāng)前動作有關(guān)。馬爾可夫決策過程包含一組交互對象,即智能體和環(huán)境,并定義了5個模型要素:狀態(tài)、動作、策略、獎勵和回報,其中策略是狀態(tài)到動作的映射,回報是獎勵隨時間的折現(xiàn)或積累。在馬爾可夫決策過程的演化中,智能體對環(huán)境的初始狀態(tài)進行感知,按策略實施動作,環(huán)境受動作影響進入新的狀態(tài)并反饋給智能體獎勵,智能體接收獎勵并采取新的策略,與環(huán)境持續(xù)交互。馬爾可夫決策過程

馬爾可夫決策過程

馬爾可夫決策過程示例

馬爾可夫決策過程例圖貝爾曼方程狀態(tài)價值函數(shù)

貝爾曼方程

狀態(tài)轉(zhuǎn)移示例貝爾曼期望方程

貝爾曼方程

貝爾曼方程

貝爾曼方程矩陣形式

最優(yōu)控制與最優(yōu)策略最優(yōu)控制與最優(yōu)策略最優(yōu)控制理論的提出可以追朔到20世紀(jì)50年代,發(fā)展到今天已經(jīng)取得了極大的進步,是強化學(xué)習(xí)、深度學(xué)習(xí)的基礎(chǔ)。最優(yōu)控制問題從四個方面描述:系統(tǒng)狀態(tài)方程、狀態(tài)變量滿足的邊界條件、性能指標(biāo)和控制器容許的范圍。最優(yōu)控制與最優(yōu)策略

最優(yōu)控制與最優(yōu)策略

最優(yōu)控制與最優(yōu)策略

最優(yōu)控制與最優(yōu)策略

最優(yōu)控制與最優(yōu)策略

最優(yōu)控制與最優(yōu)策略哈密爾頓-雅可比-貝爾曼(HJB)方程在理論上具有重要意義,但是求解此偏微分方程并取極小通常情況下十分困難,到多數(shù)時候只能求得數(shù)值解,或者按照強化學(xué)習(xí)的方法采用神經(jīng)網(wǎng)絡(luò)近似求解。這也是強化學(xué)習(xí)和最優(yōu)控制聯(lián)系緊密的原因之一。最優(yōu)策略就是根據(jù)貝爾曼動態(tài)規(guī)劃原則尋求的。最優(yōu)控制與最優(yōu)策略

最優(yōu)控制與最優(yōu)策略

動態(tài)規(guī)劃動態(tài)規(guī)劃簡介動態(tài)規(guī)劃是運籌學(xué)的一個分支,是求解決策過程最優(yōu)化的方法之一。20世紀(jì)50年代初,美國數(shù)學(xué)家貝爾曼等人在研究多階段決策過程的優(yōu)化問題時,提出了動態(tài)規(guī)劃方法。動態(tài)規(guī)劃與龐特里亞金的極小值原理是一致的,是求解最優(yōu)化問題的有效方法之一。動態(tài)規(guī)劃的應(yīng)用極其廣泛,包括工程技術(shù)、經(jīng)濟、工業(yè)生產(chǎn)、軍事以及自動化控制等領(lǐng)域都有廣泛的應(yīng)用。動態(tài)規(guī)劃簡介動態(tài)規(guī)劃問世以來,在經(jīng)濟管理、生產(chǎn)調(diào)度、工程技術(shù)和最優(yōu)控制等方面得到了廣泛的應(yīng)用。例如最短路線、庫存管理、資源分配、設(shè)備更新、排序、裝載等問題,用動態(tài)規(guī)劃方法求解十分有效。雖然動態(tài)規(guī)劃主要用于求解以時間劃分階段的動態(tài)過程的優(yōu)化問題,但是一些與時間無關(guān)的靜態(tài)規(guī)劃(如線性規(guī)劃、非線性規(guī)劃),只要人為地引進時間因素,把它視為多階段決策過程,也可以用動態(tài)規(guī)劃方法方便地求解。在現(xiàn)實生活中,有一類活動的過程,由于它的特殊性,可將過程分成若干個互相聯(lián)系的階段,在它的每一階段都需要做出決策,從而使整個過程達到最好的活動效果。因此各個階段決策的選取不能任意確定,它依賴于當(dāng)前面臨的狀態(tài),又影響以后的發(fā)展。當(dāng)各個階段決策確定后,就組成一個決策序列,因而也就確定了整個過程的一條活動路線.這種把一個問題看作是一個前后關(guān)聯(lián)具有鏈狀結(jié)構(gòu)的多階段過程就稱為多階段決策過程,這種問題稱為多階段決策問題。在多階段決策問題中,各個階段采取的決策,一般來說是與時間有關(guān)的,決策依賴于當(dāng)前狀態(tài),又隨即引起狀態(tài)的轉(zhuǎn)移,一個決策序列就是在變化的狀態(tài)中產(chǎn)生出來的,故有“動態(tài)”的含義,稱這種解決多階段決策最優(yōu)化的過程為動態(tài)規(guī)劃方法。動態(tài)規(guī)劃是研究決策過程最優(yōu)化的一種方法,最初應(yīng)用于離散時間問題,即多級決策,隨后發(fā)展的漢密爾頓-雅可比-貝爾曼(HJB)方程將其推廣到連續(xù)時間系統(tǒng)。下面分別說明動態(tài)規(guī)劃在最優(yōu)控制和強化學(xué)習(xí)中的應(yīng)用。最優(yōu)控制中的動態(tài)規(guī)劃首先從最后一步向前反向計算,然后將一個n級問題化為n個單級問題,根據(jù)最優(yōu)性原理,每一級問題求得最優(yōu),最后總體就是最優(yōu)。因此可以從后向前,依次每級求得最優(yōu),最后可求得總體最優(yōu)問題。對于連續(xù)時間系統(tǒng)的動態(tài)規(guī)劃,需要求解哈密爾頓-雅可比-貝爾曼方程。最優(yōu)控制中的動態(tài)規(guī)劃

最優(yōu)控制中的動態(tài)規(guī)劃

最優(yōu)控制中的動態(tài)規(guī)劃

強化學(xué)習(xí)中的動態(tài)規(guī)劃

強化學(xué)習(xí)中的動態(tài)規(guī)劃

強化學(xué)習(xí)中的動態(tài)規(guī)劃將策略評估算法和策略改進算法結(jié)合起來就是策略迭代算法,在更新策略評估時,策略迭代算法采用貝爾曼期望方程更新值函數(shù),而借助貝爾曼最優(yōu)方程,直接使用行為回報的最大值更新的算法叫值迭代。策略迭代和值迭代算法是強化學(xué)習(xí)中基礎(chǔ)算法,除此之外,還有其他更新算法將在后面詳細介紹?;緩娀瘜W(xué)習(xí)策略迭代法在動態(tài)規(guī)劃強化學(xué)習(xí)中,將策略評估和策略改進算法結(jié)合起來就是策略迭代算法。因此十分自然地策略迭代算法包括策略評估和策略改進兩部分,如圖所示。策略迭代算法策略迭代法

策略迭代學(xué)習(xí)其中E表示策略評估,I表示策略改進。值函數(shù)通過貝爾曼期望方程更新,通過貪心算法得到更新的策略。算法如有圖所示:值迭代法

值迭代學(xué)習(xí)值迭代算法流程:蒙特卡洛法強化學(xué)習(xí)中動態(tài)規(guī)劃方法要求狀態(tài)轉(zhuǎn)移概率和回報已知,如果模型未知,則動態(tài)規(guī)劃法難以應(yīng)用,此時可考慮應(yīng)用蒙特卡洛(MonteCarlo)法求解。蒙特卡洛法也稱為統(tǒng)計實驗法(或統(tǒng)計模擬法),是基于概率和統(tǒng)計的數(shù)值方法。蒙特卡洛算法的名字來源于摩納哥城市蒙特卡洛,其起源可以追溯到18世紀(jì)法國布豐(Buffon)提出的投針試驗。19世紀(jì)40年代,美國在研究原子彈時期“曼哈頓計劃”的成員烏爾姆(Ulam)和馮?諾依曼(J.V.Neumann)在計算機上實現(xiàn)了中子在原子彈內(nèi)擴散和增殖的模擬。出于保密,馮?諾依曼選擇摩納哥賭城蒙特卡洛作為該項目名稱,自此蒙特卡洛方法廣為流傳。蒙特卡洛算法的核心是對問題不斷隨機抽樣,通過反復(fù)大量的抽樣得到解空間關(guān)于問題的接近真實的分布。因為此方法具有通用性,不受領(lǐng)域知識的限制,因此應(yīng)用廣泛。蒙特卡洛法蒙特卡洛強化學(xué)習(xí)方法由蒙特卡洛策略評估和蒙特卡洛策略改進兩部分組成,兩部分交互進行直至獲得最優(yōu)策略。蒙特卡洛評估是通過學(xué)習(xí)智能體與環(huán)境交互的完整軌跡估計函數(shù)值。所謂完整軌跡是指從一個起始狀態(tài)使用某種策略一步一步執(zhí)行動作,直至結(jié)束,所形成的經(jīng)驗性的信息,包含狀態(tài)、動作和立即回報等。因為模型未知,無法通過貝爾曼方程迭代獲得值函數(shù),因此蒙特卡洛法通過統(tǒng)計多個軌跡中累積回報的平均數(shù)估計值函數(shù)。在求累計回報平均值時采用增量更新的方式避免批量更新中需要存儲歷史數(shù)據(jù)而占用大量空間,從而提高了計算效率。蒙特卡洛法將估計值函數(shù)V改為估計Q,這樣可直接求解最優(yōu)策略獲得最有行為。蒙特卡洛法

蒙特卡洛法

蒙特卡洛法根據(jù)蒙特卡洛評估和蒙特卡洛改進,最后可以得到最優(yōu)策略,根據(jù)產(chǎn)生采樣的策略和評估改進的策略是否為同一個策略又分為在線蒙特卡羅方法和離線蒙特卡羅方法。下面給出在線蒙特卡洛方法的算法。時序差分法(TD)動態(tài)規(guī)劃法在策略評估時用到自舉法,用后繼狀態(tài)的值函數(shù)估計當(dāng)前值函數(shù),每執(zhí)行一步策略就可以更新值函數(shù),效率較高,但是依賴馬爾可夫決策過程模型。而蒙特卡洛法不需要模型信息,但是需要完整的采樣軌跡,學(xué)習(xí)效率較低。時序差分法結(jié)合了動態(tài)規(guī)劃的自舉法和蒙特卡洛的采樣,有效的吸取這兩種方法的優(yōu)點,可以高效的解決無模型的強化學(xué)習(xí)問題。時序差分法最早由塞繆爾(Sammuel)在跳棋算法中提出,1988年薩頓(Sutton)首次證明了時序差分法在最小均方差上的收斂性,之后時序差分法被廣泛應(yīng)用。時序差分算法

時序差分算法與動態(tài)規(guī)劃、蒙特卡洛法類似,時序差分法也由策略評估和策略改進兩個步驟交替進行,依次迭代,直到得到最優(yōu)解。根據(jù)產(chǎn)生的采樣數(shù)據(jù)的策略評估和策略改進是否采用同一策略分為在線時序差分法和離線時序差分法,在線時序差分法常見的是Sarsa法,離線時序差分法最常見的是Q-Learning法。時序差分算法

其他類型強化學(xué)習(xí)

其他類型強化學(xué)習(xí)值函數(shù)逼近強化學(xué)習(xí)法:如果狀態(tài)空間維數(shù)巨大,則以上強化學(xué)習(xí)算法就難以用表格迭代出值函數(shù),必須采用函數(shù)逼近的方法近似求得值函數(shù),這類方法叫值函數(shù)逼近強化學(xué)習(xí)法。根據(jù)所選擇的逼近函數(shù)是否是線性的可以分為線性逼近和非線性逼近。線性逼近強化學(xué)習(xí)中有增量法和批量法,可以結(jié)合Sarsa算法以及Q-Learning算法實現(xiàn)。非線性逼近主要采用神經(jīng)網(wǎng)絡(luò)逼近,主要算法有在Q-Learning算法基礎(chǔ)上發(fā)展的深度Q網(wǎng)絡(luò)(DQN)算法等。其他類型強化學(xué)習(xí)策略

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論