版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
浙江省普通本科高?!笆奈濉敝攸c教材大語言模型通識大語言模型通識周蘇教授QQ:81505050第10章基于大模型的智能體智能體是人工智能領域中的一個很重要的概念,它指的是一個能自主活動的軟件或者硬件實體。任何獨立的能夠思考并可以與環(huán)境交互的實體都可以抽象為智能體。大模型在人工智能應用領域的重大突破,讓人們看到了智能體新的發(fā)展機會。像ChatGPT和GPT-4這樣的基于Transformer架構的大模型,成為了為智能體裝備的擁有廣泛任務能力的“大腦”,從推理、規(guī)劃和決策到行動都使智能體展現(xiàn)出前所未有的能力?;诖竽P偷闹悄荏w將廣泛深刻地影響人們生活工作的方式。第10章基于大模型的智能體01智能體和環(huán)境02智能體的良好行為03環(huán)境的本質(zhì)04智能體的結構目錄/CONTENTS05構建大模型智能體PART01智能體和環(huán)境智能體通過傳感器感知環(huán)境并通過執(zhí)行器作用于該環(huán)境的事物。我們從檢查智能體、環(huán)境以及它們之間的耦合,觀察到某些智能體比其他智能體表現(xiàn)得更好,可以自然而然地引出理性智能體的概念,即行為盡可能好。智能體的行為取決于環(huán)境的性質(zhì)。
圖10-1智能體通過傳感器和執(zhí)行器與環(huán)境交互10.1智能體和環(huán)境一個人類智能體以眼睛、耳朵和其他器官作為傳感器,以手、腿、聲道等作為執(zhí)行器。而機器人智能體可能以攝像頭和紅外測距儀作為傳感器,各種電動機作為執(zhí)行器。軟件智能體接收文件內(nèi)容、網(wǎng)絡數(shù)據(jù)包和人工輸入(鍵盤/鼠標/觸摸屏/語音)作為傳感輸入,并通過寫入文件、發(fā)送網(wǎng)絡數(shù)據(jù)包、顯示信息或生成聲音對環(huán)境進行操作。環(huán)境可以是一切,甚至是整個宇宙。實際上,我們在設計智能體時關心的只是宇宙中某一部分的狀態(tài),即影響智能體感知以及受智能體動作影響的部分。10.1智能體和環(huán)境術語“感知”用來表示智能體的傳感器知覺的內(nèi)容。一般而言,一個智能體在任何給定時刻的動作選擇,可能取決于其內(nèi)置知識和迄今為止觀察到的整個感知序列,而不是它未感知到的任何事物。從數(shù)學上講,智能體的行為由智能體函數(shù)描述,該函數(shù)將任意給定的感知序列映射到一個動作。10.1智能體和環(huán)境可以想象,將描述任何給定智能體的智能體函數(shù)制成表格,對大多數(shù)智能體來說這個表格會非常大,事實上是無限的(除非限制所考慮的感知序列的長度)。給定一個要進行實驗的智能體,原則上可以通過嘗試所有可能的感知序列并記錄智能體響應的動作來構建此表,當然,該表只是該智能體的外部特征。在內(nèi)部,人工智能體的智能體函數(shù)將由智能體程序?qū)崿F(xiàn)。區(qū)別這兩種觀點很重要,智能體函數(shù)是一種抽象的數(shù)學描述,而智能體程序是一個可以在某些物理系統(tǒng)中運行的具體實現(xiàn)。10.1智能體和環(huán)境為了闡明這些想法,我們舉一個簡單的例子——真空吸塵器。在一個由方格組成的世界中,包含一個機器人真空吸塵器智能體,其中的方格可能是臟的,也可能是干凈的。考慮只有兩個方格——方格A和方格B——的情況。真空吸塵器智能體可以感知它在哪個方格中,以及方格中是否干凈。從方格A開始,智能體可選的操作包括向右移動、向左移動、吸塵或什么都不做(其實,真正的機器人不太可能會有“向右移動”和“向左移動”這樣的動作,而是采用“向前旋轉(zhuǎn)輪子”和“向后旋轉(zhuǎn)輪子”這樣的動作)。一個非常簡單的智能體函數(shù)如下:如果當前方格是臟的,就吸塵;否則,移動到另一個方格。10.1智能體和環(huán)境智能體這一概念主要作為分析系統(tǒng)的工具,而不是將世界劃分為智能體和非智能體的絕對表征。在某種意義上,工程的所有領域都可以被視為設計與世界互動的人工制品,人工智能運行在最有趣的一端,在這一端,人工制品具有重要的計算資源,任務環(huán)境需要非凡的決策。10.1智能體和環(huán)境PART02智能體的良好行為理性智能體是做正確事情的事物。人工智能通常通過結果來評估智能體的行為。當智能體進入環(huán)境時,它會根據(jù)接受的感知產(chǎn)生一個動作序列,這會導致環(huán)境經(jīng)歷一系列的狀態(tài)。如果序列是理想的,則智能體表現(xiàn)良好,這個概念由性能度量描述,評估任何給定環(huán)境狀態(tài)的序列。10.2智能體的良好行為人類有適用于自身的理性概念,它與成功選擇產(chǎn)生環(huán)境狀態(tài)序列的行動有關,而這些環(huán)境狀態(tài)序列從人類的角度來看是可取的。但是,機器沒有自己的欲望和偏好,至少在最初,性能度量是在機器設計者或者機器受眾的頭腦中。一些智能體設計具有性能度量的顯式表示,而在其他設計中,性能度量完全是隱式的,智能體可能會做正確的事情,但它不知道為什么。10.2.1性能度量應該確保“施以機器的目的是我們真正想要的”,但是正確地制定性能度量可能非常困難。例如,考慮真空吸塵器智能體,我們可能會用單個8小時班次中清理的灰塵量來度量其性能。然而,一個理性的智能體可以通過清理灰塵,然后將其全部傾倒在地板上,然后再次清理,如此反復,從而最大化這一性能度量值。更合適的性能度量是獎勵擁有干凈地板的智能體。例如,在每個時間步中,每個干凈方格可以獲得1分(可能會對耗電和產(chǎn)生的噪聲進行懲罰)。作為一般規(guī)則,更好的做法是根據(jù)一個人在環(huán)境中真正想要實現(xiàn)的目標,而不是根據(jù)一個人認為智能體應該如何表現(xiàn)來設計性能度量。10.2.1性能度量即使避免了明顯的缺陷,一些棘手的問題仍然存在。例如,“干凈地板”的概念是基于一段時間內(nèi)的平均整潔度。然而,兩個不同的智能體可以達到相同的平均整潔度,其中一個智能體工作始終保持一般水平,而另一個智能體短時間工作效率很高,但需要長時間的休息。哪種工作方式更可取,這似乎是保潔工作的好課題,而實際上還是一個具有深遠影響的哲學問題。10.2.1性能度量在任何時候,理性取決于以下4方面:(1)定義成功標準的性能度量;(2)智能體對環(huán)境的先驗知識;(3)智能體可以執(zhí)行的動作;(4)智能體到目前為止的感知序列。于是,對理性智能體的定義是:對于每個可能的感知序列,給定感知序列提供的證據(jù)和智能體所擁有的任何先驗知識,理性智能體應該選擇一個期望最大化其性能度量的動作。10.2.2理性考慮一個簡單的真空吸塵器智能體,如果一個方格是臟的就清理它,如果不臟就移動到另一個方格,它是理性智能體嗎?首先,我們需要說明性能度量是什么,對環(huán)境了解多少,以及智能體具有哪些傳感器和執(zhí)行器。假設:·在1000個時間步的生命周期內(nèi),性能度量在每個時間步為每個干凈的方格獎勵1分;10.2.2理性·環(huán)境的“地理信息”是先驗的,但灰塵的分布和智能體的初始位置不是先驗的,干凈的方格會繼續(xù)保持干凈,吸塵動作會清理當前方格,向左或向右的動作使智能體移動一個方格,如果該動作會讓智能體移動到環(huán)境之外,智能體將保持在原來的位置;·可用的動作僅有向右、向左和吸塵;·智能體能夠正確感知其位置以及該位置是否有灰塵。在這種情況下,智能體確實是理性的,它的預期性能至少與任何其他智能體一樣。10.2.2理性顯然,同一個智能體在不同情況下可能會變得不理性。例如,在清除所有灰塵后,該智能體會毫無必要地反復來回;如果考慮對每個動作罰1分,那么智能體的表現(xiàn)就會很差。在確定所有方格都干凈的情況下,一個好的智能體不會做任何事情。如果干凈的方格再次變臟,智能體應該偶爾檢查,并在必要時重新清理。如果環(huán)境地理信息是未知的,智能體則需要對其進行探索。10.2.2理性我們需要仔細區(qū)分理性和全知。全知的智能體能預知其行動的實際結果,并據(jù)此采取行動,但在現(xiàn)實中,全知是不可能的,理性不等同于完美。理性使期望性能最大化,而完美使實際性能最大化。因此,對理性的定義并不需要全知,因為理性決策只取決于迄今為止的感知序列。我們還必須確保沒有無意中允許智能體進行低智的行動。10.2.3全知、學習和自主首先,考慮到這種缺乏信息的感知序列,過馬路是不理性的:不觀察路況就過馬路發(fā)生事故的風險太大。其次,理性智能體在上街之前應該選擇“觀察”動作,因為觀察有助于最大化期望性能。采取行動來改變未來的感知,有時被稱為信息收集,這是理性的一個重要組成部分。10.2.3全知、學習和自主理性智能體不僅要收集信息,還要盡可能多地從它所感知到的東西中學習。智能體的初始配置可以反映對環(huán)境的一些先驗知識,但隨著智能體獲得經(jīng)驗,這可能會被修改和增強。在一些極端情況下,環(huán)境完全是先驗已知的和完全可預測的,這種情況下,智能體不需要感知或?qū)W習,只需正確地運行。當然,這樣的智能體是脆弱的。10.2.3全知、學習和自主如果在某種程度上,智能體依賴于其設計者的先驗知識,而不是其自身的感知和學習過程,就說該智能體缺乏自主性。一個理性的智能體應該是自主的,它應該學習如何彌補部分或不正確的先驗知識,例如學習預測何時何地會出現(xiàn)額外灰塵的真空吸塵器就比不能學習預測的要好。10.2.3全知、學習和自主實際上,很少從一開始就要求智能體完全自主:除非設計者提供一些幫助,否則,當智能體幾乎沒有經(jīng)驗時,它將不得不隨機行動。正如進化為動物提供了足夠的內(nèi)建反射,使其能夠生存足夠長的時間來學習一樣,為人工智能體提供一些初始知識和學習能力也是合理的。在充分體驗相應環(huán)境后,理性智能體的行為可以有效地獨立于其先驗知識。因此,結合學習能夠讓我們設計單個理性智能體,它能在各種各樣的環(huán)境中取得成功。10.2.3全知、學習和自主PART03環(huán)境的本質(zhì)有了理性的定義,構建理性智能體還必須考慮任務環(huán)境,它本質(zhì)上是“問題”,理性智能體是“解決方案”。首先指定任務環(huán)境,然后展示任務環(huán)境的多種形式。任務環(huán)境的性質(zhì)直接影響到智能體程序的恰當設計。10.3環(huán)境的本質(zhì)討論簡單真空吸塵器智能體的理性時,必須為其指定性能度量、環(huán)境以及智能體的執(zhí)行器和傳感器(PEAS)描述,這些都在任務環(huán)境的范疇下。設計智能體時,第一步始終是盡可能完整地指定任務環(huán)境。我們來考慮一個更復雜的問題:自動駕駛出租車的任務環(huán)境PEAS描述(見表10-1)。10.3.1指定任務環(huán)境表10-1自動駕駛出租車司機任務環(huán)境的PEAS描述10.3.1指定任務環(huán)境首先,對于自動駕駛追求的性能度量,理想的標準包括到達正確的目的地,盡量減少油耗和磨損,盡量減少行程時間或成本,盡量減少違反交通法規(guī)和對其他駕駛員的干擾,最大限度地提高安全性和乘客舒適度,最大化利潤。顯然,其中有一些目標是相互沖突的,需要權衡。10.3.1指定任務環(huán)境接著,出租車將面臨什么樣的駕駛環(huán)境?如司機必須能夠在鄉(xiāng)村車道、城市小巷以及多個車道的高速公路的各種道路上行駛。道路上有其他交通工具、行人、流浪動物、道路工程、警車、水坑和坑洼。出租車還必須與潛在以及實際的乘客互動。另外,還有一些可選項。出租車可以選擇在很少下雪的南方或者經(jīng)常下雪的北方運營。顯然,環(huán)境越受限,設計問題就越容易解決。自動駕駛出租車的執(zhí)行器包括可供人類駕駛員使用的器件,例如通過加速器控制發(fā)動機以及控制轉(zhuǎn)向和制動。此外,它還需要輸出到顯示屏或語音合成器,以便與駕駛員以及乘客進行對話,或許還需要某種方式與其他車輛進行禮貌的或其他方式的溝通。10.3.1指定任務環(huán)境出租車的基本傳感器包括一個或多個攝像頭以便觀察,以及激光雷達和超聲波傳感器以便檢測其他車輛和障礙物的距離。為了避免超速罰單,出租車應該有一個速度表,而為了正確控制車輛(特別是在彎道上),它應該有一個加速度表。要確定車輛的機械狀態(tài),需要發(fā)動機、燃油和電氣系統(tǒng)的傳感器常規(guī)陣列。像許多人類駕駛者一樣,它可能需要獲取北斗導航信號,這樣就不會迷路。最后,乘客需要觸摸屏或語音輸入才能說明目的地。10.3.1指定任務環(huán)境表10-2中簡要列舉了一些其他智能體類型的基本PEAS元素。這些示例包括物理環(huán)境和虛擬環(huán)境。注意,虛擬任務環(huán)境可能與“真實”世界一樣復雜。例如,在拍賣和轉(zhuǎn)售網(wǎng)站上進行交易的軟件智能體,它為數(shù)百萬其他用戶和數(shù)十億對象提供交易業(yè)務。10.3.1指定任務環(huán)境表10-2智能體類型及其PEAS描述的示例10.3.1指定任務環(huán)境人工智能中可能出現(xiàn)的任務環(huán)境范圍非常廣泛。然而,我們可以確定少量的維度,并根據(jù)這些維度對任務環(huán)境進行分類。這些維度在很大程度上決定了恰當?shù)闹悄荏w設計以及智能體實現(xiàn)的主要技術系列的適用性。首先我們列出維度,然后分析任務環(huán)境,闡明思路。10.3.2任務環(huán)境的屬性完全可觀測與部分可觀測:如果智能體的傳感器能讓它在每個時間點都能訪問環(huán)境的完整狀態(tài),那么就說任務環(huán)境是完全可觀測的。如果傳感器檢測到與動作選擇相關的所有方面,那么任務環(huán)境就是有效的完全可觀測的,而所謂的相關又取決于性能度量標準。完全可觀測的環(huán)境很容易處理,因為智能體不需要維護任何內(nèi)部狀態(tài)來追蹤世界。由于傳感器噪聲大且不準確,或者由于傳感器數(shù)據(jù)中缺少部分狀態(tài),環(huán)境可能部分可觀測。10.3.2任務環(huán)境的屬性例如,只有一個局部灰塵傳感器的真空吸塵器無法判斷其他方格是否有灰塵,自動駕駛出租車無法感知其他司機的想法。如果智能體根本沒有傳感器,那么環(huán)境是不可觀測的。在這種情況下,智能體的困境可能是無解的,但智能體的目標仍然可能可以實現(xiàn)。10.3.2任務環(huán)境的屬性單智能體與多智能體:單智能體和多智能體環(huán)境之間的區(qū)別似乎足夠簡單。例如,獨自解決縱橫字謎的智能體顯然處于單智能體環(huán)境中,而下國際象棋的智能體則處于二智能體環(huán)境中。然而,這里也有一些微妙的問題,例如我們已經(jīng)描述了如何將一個實體視為智能體,但沒有解釋哪些實體必須視為智能體。智能體A(例如出租車司機)是否必須將對象B(另一輛車)視為智能體,還是可以僅將其視為根據(jù)物理定律運行的對象,類似于海灘上的波浪或隨風飄動的樹葉?10.3.2任務環(huán)境的屬性例如,國際象棋中的對手實體B正試圖最大化其性能度量,根據(jù)國際象棋規(guī)則,這將最小化智能體A的性能度量。因此,國際象棋是一個競爭性的多智能體環(huán)境。但是,在出租車駕駛環(huán)境中,避免碰撞使所有智能體的性能度量最大化,因此它是一個部分合作的多智能體環(huán)境,它還具有部分競爭性,例如,一個停車位只能停一輛車。10.3.2任務環(huán)境的屬性多智能體環(huán)境中的智能體設計問題通常與單智能體環(huán)境下有較大差異。例如,在多智能體環(huán)境中,通信通常作為一種理性行為出現(xiàn):在某些競爭環(huán)境中,隨機行為是理性的,因為它避免了一些可預測性的陷阱。10.3.2任務環(huán)境的屬性確定性與非確定性:如果環(huán)境的下一個狀態(tài)完全由當前狀態(tài)和智能體執(zhí)行的動作決定,那么就說環(huán)境是確定性的,否則是非確定性的。原則上,在完全可觀測的確定性環(huán)境中,智能體不需要擔心不確定性。然而,如果環(huán)境是部分可觀測的,那么它可能是非確定性的。10.3.2任務環(huán)境的屬性大多數(shù)真實情況非常復雜,以至于不可能追蹤所有未觀測到的方面;出于實際,必須將其視為非確定性的。出租車駕駛顯然是非確定性的,因為人們永遠無法準確地預測交通行為,例如輪胎可能會意外爆胎,發(fā)動機可能會在沒有警告的情況下失靈等。雖然描述的真空吸塵器世界是確定性的,但可能包括非確定性因素,如隨機出現(xiàn)的灰塵和不可靠的吸力機制等。注意到“隨機”與“非確定性”不同。如果環(huán)境模型顯式地處理概率(例如“明天的降雨可能性為25%”),那么它是隨機的;如果可能性沒有被量化,那么它是“非確定性的”(例如“明天有可能下雨”)。10.3.2任務環(huán)境的屬性回合式與序貫:在回合式任務環(huán)境中,智能體的經(jīng)驗被劃分為原子式回合,每接收一個感知執(zhí)行單個動作。重要的是,下一回合并不依賴于前幾回合采取的動作。許多分類任務是回合式的。例如,在裝配流水線上檢測缺陷零件的智能體,它需要根據(jù)當前零件做出每個決策,而無須考慮以前的決策,而且當前的決策并不影響下一個零件是否有缺陷。但是,在序貫環(huán)境中,當前決策可能會影響未來所有決策。國際象棋和出租車駕駛是序貫的:在這兩種情況下,短期行為可能會產(chǎn)生長期影響。回合式環(huán)境下的智能體不需要提前思考,所以要比序貫環(huán)境簡單很多。10.3.2任務環(huán)境的屬性靜態(tài)與動態(tài):如果環(huán)境在智能體思考時發(fā)生了變化,就說該智能體的環(huán)境是動態(tài)的,否則是靜態(tài)的。靜態(tài)環(huán)境容易處理,因為智能體在決定某個操作時不需要一直關注世界,也不需要擔心時間的流逝。但是,動態(tài)環(huán)境會不斷地詢問智能體想要采取什么行動,如果它還沒有決定,那就什么都不做。如果環(huán)境本身不會隨著時間的推移而改變,但智能體的性能分數(shù)會改變,就說環(huán)境是半動態(tài)的。駕駛出租車顯然是動態(tài)的,因為駕駛算法在計劃下一步該做什么時,其他車輛和出租車本身在不斷移動。在用時鐘計時的情況下國際象棋是半動態(tài)的,而填字游戲是靜態(tài)的。10.3.2任務環(huán)境的屬性離散與連續(xù):這之間的區(qū)別適用于環(huán)境的狀態(tài)、處理時間的方式以及智能體的感知和動作。例如,國際象棋環(huán)境具有有限數(shù)量的不同狀態(tài)(不包括時鐘),國際象棋也有一組離散的感知和動作。駕駛出租車是一個連續(xù)狀態(tài)和連續(xù)時間的問題,出租車和其他車輛的速度和位置是一系列連續(xù)的值,并隨著時間平穩(wěn)地變化。出租車的駕駛動作也是連續(xù)的(轉(zhuǎn)向角等)。嚴格來說,來自數(shù)字照相機的輸入是離散的,但通常被視為表示連續(xù)變化的強度和位置。10.3.2任務環(huán)境的屬性已知與未知:這種區(qū)別是指智能體(或設計者)對環(huán)境“物理定律”的認知狀態(tài)。在已知環(huán)境中,所有行動的結果(如果環(huán)境是非確定性的,則對應結果的概率)都是既定的。顯然,如果環(huán)境未知,智能體將不得不了解它是如何工作的,才能做出正確的決策。10.3.2任務環(huán)境的屬性最困難的情況是部分可觀測、多智能體、非確定性、序貫、動態(tài)、連續(xù)且未知的。表10-3列出了許多熟悉環(huán)境的可變化的屬性。例如,將患者的患病過程作為智能體建模并不適合,所以我們將醫(yī)療診斷任務列為單智能體,但是醫(yī)療診斷系統(tǒng)還可能會應對頑固的病人和多疑的工作人員,因此環(huán)境具有多智能體方面。此外,如果將任務設想為根據(jù)癥狀列表進行診斷,那么醫(yī)療診斷是回合式的;如果任務包括一系列測試、評估治療進展、處理多個患者等,那就是序貫的。10.3.2任務環(huán)境的屬性表10-3任務環(huán)境的例子及其特征10.3.2任務環(huán)境的屬性PART04智能體的結構下面我們來討論智能體內(nèi)部是如何工作的。人工智能的工作是設計一個智能體程序?qū)崿F(xiàn)智能體函數(shù),即從感知到動作的映射。假設該程序?qū)⑦\行在某種具有物理傳感器和執(zhí)行器的計算設備上,稱之為智能體架構:智能體=架構+程序顯然,我們選擇的程序必須適合相應的架構。如果程序打算推薦步行這樣的動作,那么對應的架構最好有腿。架構可能只是一臺普通PC,也可能是一輛帶有多臺車載計算機、攝像頭和其他傳感器的機器人汽車。通常,架構使程序可以使用來自傳感器的感知,然后運行程序,并將程序生成的動作選擇反饋給執(zhí)行器。10.4智能體的結構我們考慮的智能體程序都有相同的框架:它們將當前感知作為傳感器的輸入,并將動作返回給執(zhí)行器。注意智能體程序框架還有其他選擇。例如,可以讓智能體程序作為與環(huán)境異步運行的協(xié)程。每個這樣的協(xié)程都有一個輸入和輸出端口,并由一個循環(huán)組成,該循環(huán)讀取輸入端口的感知,并將動作寫到輸出端口。10.4.1智能體程序注意智能體程序(將當前感知作為輸入)和智能體函數(shù)(可能依賴整個感知歷史)之間的差異。因為環(huán)境中沒有其他可用信息,所以智能體程序別無選擇,只能將當前感知作為輸入。如果智能體的動作需要依賴于整個感知序列,那么智能體必須記住歷史感知。人工智能面臨的關鍵挑戰(zhàn)是找出編寫程序的方法,盡可能從一個小程序而不是從一個大表中產(chǎn)生理性行為。有4種基本的智能體程序,它們體現(xiàn)了幾乎所有智能系統(tǒng)的基本原理,每種智能體程序以特定的方式組合特定的組件來產(chǎn)生動作。10.4.1智能體程序(1)簡單反射型智能體。最簡單的智能體,它們根據(jù)當前感知選擇動作,忽略感知歷史的其余部分。(2)基于模型的反射型智能體。處理部分可觀測性的最有效方法是讓智能體追蹤它現(xiàn)在觀測不到的部分世界。也就是說,智能體應該維護某種依賴于感知歷史的內(nèi)部狀態(tài),從而反映當前狀態(tài)的一些未觀測到的方面。對于剎車問題,內(nèi)部狀態(tài)范圍不僅限于攝像頭拍攝圖像的前一幀,要讓智能體能夠檢測車輛邊緣的兩個紅燈何時同時亮起或熄滅。對于其他駕駛?cè)蝿?,如變道,如果智能體無法同時看到其他車輛,則需要追蹤它們的位置。10.4.1智能體程序隨著時間的推移,更新這些內(nèi)部狀態(tài)信息需要在智能體程序中以某種形式編碼兩種知識。首先,需要一些關于世界如何隨時間變化的信息,這些信息大致可以分為兩部分:智能體行為的影響和世界如何獨立于智能體而發(fā)展。例如,當智能體順時針轉(zhuǎn)動方向盤時,汽車就會向右轉(zhuǎn);而下雨時,汽車的攝像頭就會被淋濕。這種關于“世界如何運轉(zhuǎn)”的知識(無論是在簡單的布爾電路中還是在完整的科學理論中實現(xiàn))被稱為世界的轉(zhuǎn)移模型。10.4.1智能體程序其次,我們需要一些關于世界狀態(tài)如何反映在智能體感知中的信息。例如,當前面的汽車開始剎車時,前向攝像頭的圖像中會出現(xiàn)一個或多個亮起的紅色區(qū)域;當攝像頭被淋濕時,圖像中會出現(xiàn)水滴狀物體并部分遮擋道路。這種知識稱為傳感器模型。轉(zhuǎn)移模型和傳感器模型結合在一起讓智能體能夠在傳感器受限的情況下盡可能地跟蹤世界的狀態(tài)。使用此類模型的智能體稱為基于模型的智能體。10.4.1智能體程序(3)基于目標的智能體。即使了解了環(huán)境的現(xiàn)狀也并不總是能決定做什么。例如,在一個路口,出租車可以左轉(zhuǎn)、右轉(zhuǎn)或直行。正確的決定還取決于出租車要去哪里。換句話說,除了當前狀態(tài)的描述之外,智能體還需要某種描述理想情況的目標信息,例如設定特定的目的地。智能體程序可以將其與模型相結合,并選擇實現(xiàn)目標的動作。10.4.1智能體程序(4)基于效用的智能體。在大多數(shù)環(huán)境中,僅靠目標并不足以產(chǎn)生高質(zhì)量的行為。例如,許多動作序列都能使出租車到達目的地,但有些動作序列比其他動作序列更快、更安全、更可靠或者更便宜。這個時候,目標只是在“快樂”和“不快樂”狀態(tài)之間提供了一個粗略的二元區(qū)別。更一般的性能度量應該允許根據(jù)不同世界狀態(tài)的“快樂”程度來對智能體進行比較。經(jīng)濟學家和計算機科學家通常用效用這個詞來代替“快樂”。10.4.1智能體程序我們已經(jīng)看到,性能度量會給任何給定的環(huán)境狀態(tài)序列打分,因此它可以很容易地區(qū)分到達出租車目的地所采取的更可取和更不可取的方式。智能體的效用函數(shù)本質(zhì)上是性能度量的內(nèi)部化。如果內(nèi)部效用函數(shù)和外部性能度量一致,那么根據(jù)外部性能度量選擇動作,以使其效用最大化的智能體是理性的。10.4.1智能體程序在圖靈早期的著名論文中,曾經(jīng)考慮了手動編程實現(xiàn)智能機器的想法。他估計了這可能需要多少工作量,并得出結論,“似乎需要一些更快捷的方法”。他提出的方法是構造學習型機器,然后教它們。在人工智能的許多領域,這是目前創(chuàng)建最先進系統(tǒng)的首選方法。任何類型的智能體(基于模型、基于目標、基于效用等)都可以構建(或不構建)成學習型智能體。10.4.2學習型智能體學習還有另一個優(yōu)勢:它讓智能體能夠在最初未知的環(huán)境中運作,并變得比其最初的能力更強。學習型智能體可分為4個概念組件,其中,“性能元素”框表示我們之前認為的整個智能體程序,“學習元素”框可以修改該程序以提升其性能。
圖10-2通用學習型智能體10.4.2學習型智能體最重要的區(qū)別在于負責提升的學習元素和負責選擇外部行動的性能元素。性能元素是我們之前認為的整個智能體:它接受感知并決定動作。學習元素使用來自評估者對智能體表現(xiàn)的反饋,并以此確定應該如何修改性能元素以在未來做得更好。學習元素的設計在很大程度上取決于性能元素的設計。當設計者試圖設計一個學習某種能力的智能體時,第一個問題是“一旦智能體學會了如何做,它將使用什么樣的性能元素?”給定性能元素的設計,可以構造學習機制來改進智能體的每個部分。10.4.2學習型智能體評估者告訴學習元素:智能體在固定性能標準方面的表現(xiàn)如何。評估者是必要的,因為感知本身并不會指示智能體是否成功。例如,國際象棋程序可能會收到一個感知,提示它已將死對手,但它需要一個性能標準來知道這是一件好事。確定性能標準很重要。從概念上講,應該把它看作完全在智能體之外,智能體不能修改性能標準以適應自己的行為。10.4.2學習型智能體學習型智能體的最后一個組件是問題生成器。它負責建議動作,這些動作將獲得全新和信息豐富的經(jīng)驗。如果性能元素完全根據(jù)自己的方式,它會繼續(xù)選擇已知最好的動作。但如果智能體愿意進行一些探索,并在短期內(nèi)做一些可能不太理想的動作,那么從長遠來看,它可能會發(fā)現(xiàn)更好的動作。問題生成器的工作是建議這些探索性行動。這就是科學家在進行實驗時所做的。伽利略并不認為從比薩斜塔頂端扔石頭本身有價值。他并不是想要打碎石頭或改造不幸行人的大腦。他的目的是通過確定更好的物體運動理論來改造自己的大腦。10.4.2學習型智能體學習元素可以對智能體圖中顯示的任何“知識”組件進行更改。最簡單的情況是直接從感知序列學習。觀察成對相繼的環(huán)境狀態(tài)可以讓智能體了解“我的動作做了什么”以及“世界如何演變”以響應其動作。例如,如果自動駕駛出租車在濕滑路面上行駛時進行一定程度的剎車,那么它很快就會發(fā)現(xiàn)實際減速多少,以及它是否滑出路面。問題生成器可能會識別出模型中需要改進的某些部分,并建議進行實驗,例如在不同條件下的不同路面上嘗試剎車。無論外部性能標準如何,改進基于模型的智能體的組件,使其更好地符合現(xiàn)實幾乎總是一個好主意。10.4.2學習型智能體從計算的角度來看,在某些情況下簡單但稍微不準確的模型比完美但極其復雜的模型更好。當智能體試圖學習反射組件或效用函數(shù)時,需要外部標準的信息。從某種意義上說,性能標準將傳入感知的一部分區(qū)分為獎勵或懲罰,以提供對智能體行為質(zhì)量的直接反饋。更一般地說,人類的選擇可以提供有關人類偏好的信息。例如,假設出租車不知道人們通常不喜歡噪聲,于是決定不停地按喇叭以確保行人知道它即將到來。隨之而來的人類行為,如蓋住耳朵、說臟話甚至可能剪斷喇叭上的電線,將為智能體提供更新其效用函數(shù)的證據(jù)。10.4.2學習型智能體總之,智能體有各種各樣的組件,這些組件可以在智能體程序中以多種方式表示,因此學習方法之間似乎存在很大差異。然而,主題仍然是統(tǒng)一的:智能體中的學習可以概括為對智能體的各個組件進行修改的過程,使各組件與可用的反饋信息更接近,從而提升智能體的整體性能。10.4.2學習型智能體智能體程序由各種組件組成,組件表示了智能體所處環(huán)境的各種處理方式。我們通過一個復雜性和表達能力不斷增加的方式來描述,即原子表示、因子化表示和結構化表示。例如,我們來考慮一個特定的智能體組件,處理“我的動作會導致什么”。這個組件描述了采取動作的結果可能在環(huán)境中引起的變化。圖10-3表示狀態(tài)及其轉(zhuǎn)移的3種方法10.4.3智能體組件的工作圖10-3(a)中,原子表示一個狀態(tài)(如B或C)是沒有內(nèi)部結構的黑盒;圖10-3(b)中因子化表示狀態(tài)由屬性值向量組成,值可以是布爾值、實值或一組固定符號中的一個;圖10-3(c)中結構化表示狀態(tài)包括對象,每個對象可能有自己的屬性以及與其他對象的關系。10.4.3智能體組件的工作在原子表示中,世界的每一個狀態(tài)都是不可分割的,它沒有內(nèi)部結構??紤]這樣一個任務:通過城市序列找到一條從某個國家的一端到另一端的行車路線。為了解決這個問題,將世界狀態(tài)簡化為所處城市的名稱就足夠了,這就是單一知識原子,也是一個“黑盒”,唯一可分辨的屬性是與另一個黑盒相同或不同。搜索和博弈中的標準算法、隱馬爾可夫模型以及馬爾可夫決策過程都基于原子表示。10.4.3智能體組件的工作因子化表示將每個狀態(tài)拆分為一組固定的變量或?qū)傩?,每個變量或?qū)傩远伎梢杂幸粋€值??紤]同一個駕駛問題,即我們需要關注的不僅僅是一個城市或另一個城市的原子位置,可能還需要關注油箱中的汽油量、當前的北斗導航坐標、油量警示燈是否工作、通行費、收音機頻道等。兩個不同的原子狀態(tài)沒有任何共同點(只是不同的黑盒),但兩個不同的因子化狀態(tài)可以共享某些屬性(如位于某個導航位置),而其他屬性不同(如有大量汽油或沒有汽油),這使得研究如何將一種狀態(tài)轉(zhuǎn)換為另一種狀態(tài)變得更加容易。人工智能的許多重要領域都基于因子化表示,包括約束滿足算法、命題邏輯、規(guī)劃、貝葉斯網(wǎng)絡以及各種機器學習算法。10.4.3智能體組件的工作此外,我們還需要將世界理解為存在著相互關聯(lián)的事物,而不僅僅是具有值的變量。例如,我們可能注意到前面有一輛卡車正在倒車進入一個奶牛場的車道,但一頭奶牛擋住了卡車的路。這時就需要一個結構化表示,可以明確描述諸如奶牛和卡車之類的對象及其各種不同的關系。結構化表示是關系數(shù)據(jù)庫和一階邏輯、一階概率模型和大部分自然語言理解的基礎。事實上,人類用自然語言表達的大部分內(nèi)容都與對象及其關系有關。10.4.3智能體組件的工作PART05構建大模型智能體盡管能力出色,但大模型還只是被動的工具,它們依賴簡單的執(zhí)行過程,無法直接當智能體使用。智能體機制具有主動性,特別是在與環(huán)境的交互、主動決策和執(zhí)行各種任務方面。另外智能體通過挖掘大模型的潛在優(yōu)勢,可以進一步增強決策制定,特別是使用人工、環(huán)境或模型來提供反饋,使得智能體可以具備更深思熟慮和自適應的問題解決機制,超越大模型現(xiàn)有技術的局限。可以說,智能體是真正釋放大模型潛能的關鍵,它能為大模型核心提供強大的行動能力;而另一方面,大模型能提供智能體所需要的強大引擎。可以說,大模型和智能體可以相互成就。10.5構建大模型智能體智能體根據(jù)設定的目標,確定好需要履行特定角色,自主觀測感知環(huán)境,根據(jù)獲得的環(huán)境狀態(tài)信息,檢索歷史記憶以及相關知識,通過推理規(guī)劃分解任務并確定行動策略,并反饋作用于環(huán)境,以達成目標。在這個過程中,智能體持續(xù)學習,以像人類一樣不斷進化。基于大模型來構建一個智能體,能充分地利用大模型的各種能力,驅(qū)動不同的組成單元。
圖10-4基于大模型的智能體應用10.5.1基于大模型的智能體智能體本身包括觀測感知模塊、記憶檢索、推理規(guī)劃和行動執(zhí)行等模塊。它呈現(xiàn)強大能力的關鍵在于系統(tǒng)形成反饋閉環(huán),使得智能體可以持續(xù)地迭代學習,不斷地獲得新知識和能力。反饋除了來自環(huán)境外,還可以來自人類和語言模型。智能體不斷積累必要的經(jīng)驗來增強改進自己,以顯著提高規(guī)劃能力并產(chǎn)生新的行為,以越來越適應環(huán)境并符合常識,更加完滿地完成任務。在執(zhí)行任務過程中的不同階段,基于大模型的智能體通過提示等方式與大模型交互獲得必要的資源和相關結果。10.5.1基于大模型的智能體基于大模型的智能體觀測并感知環(huán)境及其動態(tài)變化;獲取不同來源的環(huán)境數(shù)據(jù),往往包括以多模態(tài)的形式呈現(xiàn)的文本、語音或視覺等,并經(jīng)過處理作為觀測到的環(huán)境信息。智能體記憶其中的部分信息,并從中檢索獲得歷史序列,即其曾經(jīng)觀測到的環(huán)境狀態(tài)和行動的歷史記錄,結合內(nèi)置的知識,作為其規(guī)劃形成行動決策的依據(jù)。10.5.2觀測與感知1.感知空間大模型的語言理解能力使用戶可以方便地通過自然語言和智能體交流,也可以作為交流媒介與其他智能體交流,同時適應不同的通信背景和任務,實現(xiàn)個性化和環(huán)境目標泛化:(1)個性化:通過大模型可以提高智能體的文本感知能力。人類語言文本通常包括很多隱含內(nèi)容,比如未明確陳述的信仰、愿望和意圖。通過大模型來理解這些隱含的含義對于智能體以增強通信效率和質(zhì)量至關重要。10.5.2觀測與感知(2)泛化:基于大模型的智能體旨在處理復雜的環(huán)境情況和變化,可能還會因此遇到全新的目標和任務。理解未知任務的文本指令至關重要,而指令微調(diào)可以幫助它們實現(xiàn)無樣本指令理解和泛化,減少對特定任務的微調(diào)需求。10.5.2觀測與感知視覺輸入提供了有關環(huán)境世界的豐富信息,包括環(huán)境對象屬性和空間關系。純粹的大模型通常在文本語言理解等方面表現(xiàn)出色,但缺乏視覺感知能力。為了增強該能力,需要將視覺信息和大模型融合,提供更廣泛的背景信息和更精確的環(huán)境理解。比如,通過字幕為圖像生成文本描述,幫助基于大模型的智能體更好地理解圖像;將Transformer的使用擴展到視覺領域,利用自注意力機制有效地整合整個圖像的信息;此外直接整合視覺和文本信息作為大模型的輸入,可以增強基于大模型的智能體的多模態(tài)感知和語言表征能力。10.5.2觀測與感知基于大模型的智能體可以裝備更豐富的觀測感知模塊,使其可以感知環(huán)境其他的模態(tài)表征信息,具備聽覺、觸覺或嗅覺,可以感知溫濕度和光的信號等更復雜的環(huán)境輸入。將文本和其他模態(tài)信息與大模型融合,使得智能體具有對環(huán)境更廣泛更精確的認知和理解。10.5.2觀測與感知2.可觀察性衡量一個智能體是否具備有效的觀測感知能力是看它對環(huán)境是否是可觀察的,即智能體是否可以充分地觀測感知到與規(guī)劃決策相關的環(huán)境信息,并從獲得的歷史信息中了解到環(huán)境的相關狀態(tài)。保證智能體對環(huán)境的可觀測性除了處理并理解多來源多模態(tài)的信息外,智能體還需要保證觀測的信息質(zhì)量和豐富度必須能夠足夠的反映真實環(huán)境狀態(tài),使得智能體獲得足夠豐富的環(huán)境知識;另一方面,環(huán)境觀測的頻率足夠高,可以及時獲得環(huán)境狀態(tài)并捕獲環(huán)境的變化。10.5.2觀測與感知記憶檢索模塊可以為智能體內(nèi)置相關知識,同時也存儲智能體的經(jīng)驗,包括環(huán)境狀態(tài)和行動的歷史信息,檢索記憶的知識和經(jīng)驗來規(guī)劃未來的行動。記憶檢索模塊幫助智能體持續(xù)學習,不斷進化,并以更一致、合理和有效的方式行動。10.5.3記憶與檢索(1)歷史記憶。通過記憶模塊,基于大模型的智能體可以模擬認知科學研究了解的人類記憶過程原則和機制。人類記憶遵循從感覺記憶(記錄知覺輸入)、到短期記憶(短暫維持信息)、再到長期記憶(長時間內(nèi)鞏固信息)的進程。根據(jù)這個原則,可以有效地設計智能體的記憶模塊來應對不同的記憶需求。大模型受其Transformer架構的上下文窗口信息長度限制,適合于短期記憶。通過記憶存儲,比如外部存儲,智能體可以根據(jù)需要快速查詢和檢索長期記憶信息。10.5.3記憶與檢索(2)知識記憶。智能體根據(jù)其應用場景,往往內(nèi)置一定的知識,主要包括以下幾類知識?!ふZ言:智能體的交流介質(zhì)主要是語言。語言知識定義語法,涵蓋了語言學、句法學、語義學和語用學等多方面語言規(guī)范。只有具備語言知識,智能體才能有效地進行對話交流并理解內(nèi)容。此外,大模型可以讓智能體獲得多種語言的知識,這樣還可消除額外的翻譯需求。10.5.3記憶與檢索·常識:通常是指人類具備的一般世界事實,這些信息可能在智能體交流的上下文中沒有明確被提及。大模型可以讓智能體具備基本的常識?!ゎI域:是指與特定應用領域和場景相關的專業(yè)知識,如數(shù)學、化學、醫(yī)學、編程、法律、金融、行業(yè)、人事、銷售等。智能體在特定領域內(nèi)有效解決問題需要具備一定的專業(yè)領域知識,它可以通過微調(diào)植入大模型中,通過提示來獲??;也可以存儲在外部數(shù)據(jù)庫中,通過檢索增強生成來提示通用大模型利用。10.5.3記憶與檢索(3)記憶存儲?;诖竽P偷闹悄荏w可以通過以自然語言或者嵌入等方式來實現(xiàn)記憶存儲。根據(jù)不同的應用場景,智能體采用適當?shù)臄?shù)據(jù)結構的記憶方式,可以提高記憶檢索的效率,從而促進對環(huán)境交互的迅速響應?!ぷ匀徽Z言:經(jīng)驗信息,如智能體的行為和觀測歷史,往往可以直接用自然語言來描述和利用。經(jīng)驗信息可以以靈活和易理解的方式表達,它保留了豐富的語義信息,可以提供更全面的信息以指導智能體的行為。10.5.3記憶與檢索·嵌入式:使用向量嵌入便于存儲和提取相關知識,形成語義相關的任務。在嵌入格式中,將相關數(shù)據(jù),比如文本、圖像、音頻等各種智能體得到的環(huán)境反饋信息編碼為嵌入式向量來存儲,可以增強記憶的檢索、匹配和重用。另外,專業(yè)領域知識文本可以分塊進行嵌入處理,以向量形式存儲便于被檢索和調(diào)用。將經(jīng)驗和知識變?yōu)槿菀状鎯退阉魇峭ㄟ^向量數(shù)據(jù)庫來實現(xiàn)的?!?shù)據(jù)庫:這種格式允許智能體以高效而全面的方式操縱記憶。例如,智能體可以使用SQL語句精確地添加、刪除和修訂記憶信息。10.5.3記憶與檢索·大模型作為知識存儲:穩(wěn)定的知識可以經(jīng)過訓練或微調(diào)以參數(shù)的形式被植入到大模型中,需要時通過自然語言來方便地檢索。每種存儲形式具有其獨特優(yōu)勢。例如自然語言可以保留全面的語義信息,便于推理,使智能體的行為規(guī)劃更直接;而嵌入向量允許高效檢索記憶記錄,提高記憶讀取的效率。10.5.3記憶與檢索(4)記憶管理。智能體往往根據(jù)需要利用大模型將存儲在記憶中的過去經(jīng)驗總結簡化成更廣泛和更抽象見解的能力,以便智能體以后更加有效快捷的檢索記憶,同時也可以增加存儲的利用率和效率。有些記憶內(nèi)容,比如對話歷史,可以通過總結來移動、編輯、刪除或整合。另外,在記憶寫入到相應的存儲過程中,智能體需要確定與現(xiàn)有記憶相似的信息(即記憶重復),比如通過去重來減少占用存儲資源,同時便于檢索;此外,當記憶達到存儲極限時智能體需要根據(jù)一定的規(guī)則刪除信息(即記憶溢出),確保記憶內(nèi)容與用戶期望密切一致。10.5.3記憶與檢索(5)記憶檢索。從記憶中快速地檢索最合適的內(nèi)容,確保了智能體可以訪問相關準確的信息以執(zhí)行特定的操作。智能體記憶檢索往往需要考慮不同度量標準:新近性、相關性和重要性;記憶內(nèi)容檢索的優(yōu)先級分數(shù)可以是這些度量標準的加權組合,分數(shù)最高的記憶內(nèi)容會在模型的上下文提示中優(yōu)先考慮使用。另外檢索的方法也可能影響智能體及時獲得相關信息的能力。10.5.3記憶與檢索推理和規(guī)劃對于智能體處理復雜任務至關重要。它給智能體賦予一種結構化的思考過程,即組織思維、設定目標,并確定實現(xiàn)這些目標的步驟。比如,通過推理規(guī)劃,智能體將復雜的任務拆分為更易管理的子任務,并為每個子任務的完成制定適當?shù)挠媱?。?guī)化的結果是形成行動策略,即智能體執(zhí)行行動的方法。這些策略可能是回憶經(jīng)驗、多輪互動、反饋調(diào)整和融入外部工具。10.5.4推理和規(guī)劃推理和規(guī)劃包括下面一些內(nèi)容:(1)目標確認。用戶通過指令給智能體的執(zhí)行目標,比如,目標包括完成某個任務、交流分享信息和環(huán)境探索等。智能體根據(jù)獲得的指令來定義自己的角色,確定需要控制的環(huán)境以及實現(xiàn)的目標;當然,這些元素可以由用戶指令明確給定;但如果不明確,基于大模型的智能體可以根據(jù)相關信息來推斷并定義。10.5.4推理和規(guī)劃(2)任務分解。智能體在規(guī)劃中可以利用大模型將大型復雜任務分解為較小的、可管理的子任務,制定逐步執(zhí)行的計劃。比
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小班教室安全
- 2022電視臺實習總結自我鑒定-電視臺實習個人自我鑒定范文五篇
- 計算機專業(yè)實習報告模板集錦5篇
- 實習教師自我鑒定(合集15篇)
- 網(wǎng)站建設策劃書模板錦集(5篇)
- 采購助理轉(zhuǎn)正工作總結
- 護理不良事件個案分享
- 爭做文明少年演講稿10篇
- 廣告專業(yè)頂崗實習報告4篇
- 大學生畢業(yè)實習報告三篇
- 金葡萄石分級編制說明
- 六年級數(shù)學上冊期末考試題(A4打印版)
- 2024年中考作文十二大高頻熱點主題9-家國情懷(素材)
- 中國裝備智慧樹知到期末考試答案章節(jié)答案2024年上海電機學院
- 停車場管理系統(tǒng)之車位引導系統(tǒng)設計-畢業(yè)設計論文
- 多圖中華民族共同體概論課件第十三講先鋒隊與中華民族獨立解放(1919-1949)根據(jù)高等教育出版社教材制作
- 當死亡化作生命
- 第17課 第二次世界大戰(zhàn)與戰(zhàn)后國際秩序的形成說課課件-2023-2024學年統(tǒng)編版(2019)高中歷史必修中外歷史綱要下冊
- 附近有吃飯地方嗎
- 運動之于學習之道
- 國家開放大學《現(xiàn)代管理原理》形考任務3參考答案
評論
0/150
提交評論