人工智能入門 課件 5.行為智能_第1頁
人工智能入門 課件 5.行為智能_第2頁
人工智能入門 課件 5.行為智能_第3頁
人工智能入門 課件 5.行為智能_第4頁
人工智能入門 課件 5.行為智能_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

行為智能01AI:NouvelleAI2大綱智能體-結(jié)構(gòu)

?沒有表示和推理的智能

-學(xué)習(xí)強化學(xué)習(xí)-Q-學(xué)習(xí)AI:NouvelleAI3PartⅠ:智能體AI:NouvelleAI4機器人世界杯2008決賽

中國,蘇州到2050年,組建一個可以取勝人類足球冠軍隊的全自主機器人隊伍。

-AI:NouvelleAI5遠程智能體實驗(RAX)深空1號任務(wù)旨在驗證技術(shù);讓AI軟件成為航天器的主要指揮官;1999年5月進行測試。

NANA,USa

AI:NouvelleAI61.1智能體定義RussellandNorvig:“能夠通過傳感器感知環(huán)境并根據(jù)環(huán)境做出行動的任何系統(tǒng)”AI:NouvelleAI7智能體的弱概念五個主要特點:現(xiàn)場性:工作在某種環(huán)境中,并能與環(huán)境進行交互自主性:在不用干涉的情況下自主運行主動性:在自身目標驅(qū)動下表現(xiàn)出主動的行為反應(yīng)性:能感知外界環(huán)境并根據(jù)環(huán)境變化做出適當反應(yīng)社會性:以其他智能體進行通信AI:NouvelleAI81.2單智能體結(jié)構(gòu)慎思型智能體:符號化表示和處理-IRMA,GRATE反應(yīng)型智能體:感知-行為模式智能體系統(tǒng)-包容結(jié)構(gòu)-網(wǎng)絡(luò)結(jié)構(gòu)混合型智能體:可以直接對外界刺激作出反應(yīng),也可以在內(nèi)部推理的基礎(chǔ)上采取行動-過程推理系統(tǒng)(PRS)-圖靈機模型-InteRRaPAI:NouvelleAI91.2.2反應(yīng)型結(jié)構(gòu)反應(yīng)型結(jié)構(gòu)不需要使用符號表示外部環(huán)境狀態(tài),也不需要復(fù)雜的符號推理。包容結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)沒有表示和推理的智能AI:NouvelleAI10包容結(jié)構(gòu)麻省理工大學(xué)智能研究所的布魯克斯基于包容結(jié)構(gòu)構(gòu)造了一些機器人。由任務(wù)導(dǎo)向的行為模塊構(gòu)成高層模塊有更多特殊任務(wù)單獨構(gòu)建各個模塊高層模塊對低層模塊起到一定的控制作用,但這種影響對于低層模塊是不可見的,高層模塊只在需要時插入來抑制低層模塊的行為。沒有明確的推理甚至沒有模式匹配.在構(gòu)造的初期生成智能體函數(shù)AI:NouvelleAI11布魯克斯包容結(jié)構(gòu)圖解不同的智能體并行構(gòu)建,但是以分級的形式?jīng)Q策行為。高層智能體能夠抑制低層智能體的輸出,并且接管行為的控制(b)一種應(yīng)用:腿部移動控制腿向上或向下腿向前或向后霍爾克·克魯斯(HolkCruse):作為控制系統(tǒng)的神經(jīng)網(wǎng)絡(luò)(第二版),2006年包容結(jié)構(gòu)AI:NouvelleAI12MIT布魯克斯的機器人Genghis:過去在機器人實驗室.目前在Smithsonian航空博物館.Cog:類人智能需要類似人的與外界交互方式Herbert:一個基于互動的可以收集飲料瓶的機器人

Allen:機器人實驗室的第一個移動機器人./projects/humanoid-robotics-group/AI:NouvelleAI13網(wǎng)絡(luò)結(jié)構(gòu)動作單元的集合各個動作單元根據(jù)內(nèi)部需求和外部激勵,競爭對智能體行為的控制。外部激勵:環(huán)境條件內(nèi)部需求:通過鏈式結(jié)構(gòu):激活模塊增加其后續(xù)模塊的興奮性未激活模塊增加其前面模塊的興奮性所有模塊抑制其他競爭者的興奮性AI:NouvelleAI14網(wǎng)絡(luò)結(jié)構(gòu)目標:保持文雅的同時解決口渴問題(即不讓嘴去主動靠近水杯,而是拿起水杯送到嘴)Maes:Theagentnetworkarchitecture,1991AI:NouvelleAI151.2.3混合結(jié)構(gòu)完全的慎思型和完全的反應(yīng)型都不適合用來建立智能體。

結(jié)合二者:過程推理系統(tǒng)(PRS)圖靈機InteRRaPAI:NouvelleAI16圖靈機為動態(tài)變化的現(xiàn)實世界中的自主智能體設(shè)計三層:反應(yīng)層:直接對外部激勵做出迅速的反應(yīng)規(guī)劃層:制定規(guī)劃建模層:對外部世界狀態(tài)進行建模AI:NouvelleAI17圖靈機(續(xù))每層直接與感知器和控制器相連任意兩層之間存在相互聯(lián)系每一層都有獨自的反應(yīng),在不同的層間發(fā)生沖突時:使用上下文觸發(fā)的控制規(guī)則解決.AI:NouvelleAI18圖靈機架構(gòu)InnesA.Ferguson:TouringMachines:AutonomousAgentswithAttitudes,1992AI:NouvelleAI19InteRRaP分層的混合結(jié)構(gòu):在不同的層次上對環(huán)境進行建模存在不同層次的表示不同層次的知識和推理在垂直分層的結(jié)構(gòu)中只有相鄰層之間存在通信行為層(與領(lǐng)域相關(guān))規(guī)劃層(非社會性的目標驅(qū)動行為)協(xié)作層(社會行為,如聯(lián)合規(guī)劃等)AI:NouvelleAI20InteRRaP

結(jié)構(gòu)/~chrender/Agenten/Agenten.htmlAI:NouvelleAI211.3智能體的學(xué)習(xí)智能體要與動態(tài)變化的負責的外部環(huán)境進行交互,因此智能體需要進行自主學(xué)習(xí)。學(xué)習(xí)的基本思想如下:智能體感知到的知識不只是用來決定下一步行動,也用來提高智能體的能力,以在后面的行動中表現(xiàn)更佳。AI:NouvelleAI22學(xué)習(xí)類型監(jiān)督學(xué)習(xí)函數(shù)學(xué)習(xí)需要的輸入輸出對已經(jīng)給定或者可以推導(dǎo)得到。非監(jiān)督學(xué)習(xí)沒有輸出的信息強化學(xué)習(xí)智能體在環(huán)境中作出行動,對于智能體的每一步行動,都會得到一個評價值,但是不被告知如何行動才可以正確的達到目標?!藺I:NouvelleAI23PartⅡ:強化學(xué)習(xí)(RL)AI:NouvelleAI243.1強化學(xué)習(xí)簡介強化學(xué)習(xí)是一種通過獎勵和懲罰來實現(xiàn)智能體的方式,無需指定完成何種任務(wù).(Kaelbling,1996)智能體怎樣如何從成功和失敗中學(xué)習(xí),從獎勵和懲罰中學(xué)習(xí)?基于試錯交互方式AI:NouvelleAI25強化學(xué)習(xí)模型Picture:R.Sutton:ReinforcementLearning:ATutorialAI:NouvelleAI26經(jīng)典示例-房間里的機器人向上的行為:80%移動到了上方,10%移動到了左方,10%移動到了右方在[4,3]處獎勵為+1,在[4,2]處的獎勵為-1,其他步為0RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI27經(jīng)典示例–桿平衡在一個移動的平板車上面讓一個長桿平衡直立RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI28不需要模型的方法:Q-學(xué)習(xí)算法學(xué)習(xí)V*(簡記為V*)對于任何狀態(tài)s,執(zhí)行向前搜索以選出最好的行動如果智能體已知下面函數(shù)將會得到很好的效果fS:狀態(tài)

行為

狀態(tài)fR

:狀態(tài)

行為

R如果fS

和fR

未知,將不能通過這種方式選擇下一步行為AI:NouvelleAI29Q-值定義一個與

V*相似的新的函數(shù)如果智能體對Q進行學(xué)習(xí),將能夠在fS

fR

未知的情況下選擇最優(yōu)行動AI:NouvelleAI30r(狀態(tài),行為)立即收益值Q(狀態(tài),行為)值V*(狀態(tài))值100

0

0

100

G

0

0

0

0

0

0

0

0

0

90

81100

G

0

81

72

90

81

81

72

90

81

100

G

9010008190100Q-值的計算

使用折扣收益,折扣因子為0.981=0+0.9*90AI:NouvelleAI31學(xué)習(xí)Q-值注意:Q

V*密切相關(guān)將Q寫成遞歸形式:使用Q-值問題:如何學(xué)習(xí)?問題:如何選擇最優(yōu)行為?AI:NouvelleAI32Q-學(xué)習(xí)步驟對于每一個<s,a>初始化Q-值觀察到當前狀態(tài)s重復(fù)以下步驟根據(jù)當前Q-函數(shù)選擇動作獲得獎勵r觀察到新的狀態(tài)s’令令s=s’AI:NouvelleAI33Q-學(xué)習(xí)舉例:漢諾塔/kardi/tutorial/ReinforcementLearning/Tower-of-Hanoi.htmAI:NouvelleAI34帶獎勵值的狀態(tài)圖AI:NouvelleAI35R矩陣初始QQ矩陣最終QQ矩陣更新AI:NouvelleAI36紅箭頭指示的是從起始節(jié)點到目標節(jié)點的最優(yōu)路徑實際上,圖中的Q值可以用于從圖中任何一個起始節(jié)點(不只是狀態(tài)1)通過最短路徑走到目標節(jié)點狀態(tài)圖里的解決路徑AI:NouvelleAI37Q-學(xué)習(xí)演示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論