論人工智能與學(xué)習(xí)的聯(lián)系_第1頁
論人工智能與學(xué)習(xí)的聯(lián)系_第2頁
論人工智能與學(xué)習(xí)的聯(lián)系_第3頁
論人工智能與學(xué)習(xí)的聯(lián)系_第4頁
論人工智能與學(xué)習(xí)的聯(lián)系_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

論人工智能與學(xué)習(xí)的聯(lián)系

1重視知識在語言處理上的作用自然景觀與學(xué)習(xí)密切相關(guān)。這里有兩個方面的問題:一方面是自然語言在人們學(xué)習(xí)知識過程中的作用;另一方面是學(xué)習(xí)對自然語言處理的作用。這里也包括自然語言知識的學(xué)習(xí)。本文是著重討論第一個方面的問題。無庸置疑,自然語言在人們學(xué)習(xí)知識的過程中發(fā)揮的作用是很重要的。應(yīng)該說,雖然就整個人類而言,知識是通過反復(fù)的實踐和試驗來獲取樣本,以及在大量樣本的基礎(chǔ)上的進行歸納和演繹所獲取的;但是就個人而言,他獲取知識的途徑卻可以有兩個,一個是自己在反復(fù)實踐中通過發(fā)現(xiàn)獲得新知識,另外一個就是向前人和他人學(xué)習(xí),從人類已有的知識中獲得新知識。在這兩個途徑中,個人通過前一個途徑獲取的知識是很有限的,而通過后一個途徑獲取的知識卻是主要的。古今中外,人們的知識主要表示為自然語言信號(聲音或符號)??梢哉f,自然語言是人類積累和傳遞知識的主要手段。一個人從小到老的一生中,在多數(shù)情況下都是通過自然語言,例如閱讀、詢問、討論、談話、等等,來學(xué)習(xí)知識的。完全可以這樣說,一個人的絕大部分理性知識是通過自然語言所獲取的。所以,用自然語言來學(xué)習(xí)知識是人們學(xué)習(xí)的一個十分重要的途徑。人們常說“自然語言理解依賴于知識”。有人曾因此而認(rèn)為:因為自然語言理解依賴于知識,而知識不斷地發(fā)展,所以自然語言也不斷發(fā)展。因此不可能建立通用的自然語言理解機制,而只能建立各個領(lǐng)域上的自然語言理解機制。這種觀點顯然是不對的,在邏輯上就是站不腳的。日本人在其失敗了的第五代計算機研制方案中也正是持的這種觀點。知識在自然語言理解中是起著很重要的作用,但是這是指人們在自然語言理解的過程中要運用自己頭腦中的知識去處理自然語言的語句。自然語言是知識的最重要的載體,思想、概念等都是自然語言來表達的。但是我們不可以把載體和其所載的內(nèi)容混為一淡。因此知識并不等同于自然語言,知識有它自己的內(nèi)部發(fā)展規(guī)律,自然語言也有它自己的內(nèi)部發(fā)展規(guī)律。兩者相比,知識的發(fā)展是飛速的,自然語言的發(fā)展卻是緩慢的,甚至可以認(rèn)為是相對靜止的。所以知識只是自然語言處理過程中的一個參與者,是自然語言理解的運算過程中的參數(shù)。正是因為自然語言是知識的主要載體,也是(抽象)思維的主要載體,所以越來越多的人認(rèn)識到,自然語言決不僅僅在人機通訊上是一個重要的工具(或界面),而且在知識的表達上,在知識的處理上,以及在知識的學(xué)習(xí)上都起著十分重要的作用。如果機器也可以用自然語言來學(xué)習(xí),那就可以像人一樣地通過讀書變得日益聰明。到那時就會是“惜別三日,當(dāng)刮目相看”了。但是目前機器學(xué)習(xí)的研究中很少有文獻涉及到如何用自然語言來學(xué)習(xí)的問題。人們在機器學(xué)習(xí)的研究上主要有歸納學(xué)習(xí)、類比學(xué)習(xí)、解釋學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),但是它們都不是以自然語言作為載體的。這或許是由于自然語言處理本身就是個大的硬核桃的原因。另一方面,在自然語言處理的研究領(lǐng)域中也很少有文獻涉及到如何用自然語言來學(xué)習(xí)的問題。這使得研制的自然語言處理系統(tǒng)基本上都是封閉的系統(tǒng),而不能真正地像自然語言一樣成為開放的系統(tǒng)。兩個應(yīng)該是心心相映的伙伴卻處在牛郎織女的狀態(tài)中,不能不讓人感到一種遺憾。在設(shè)計智能體(或知識系統(tǒng))的時候,人們通常是把知識直接植入智能體中,即為它建立一個知識庫。但是對于一個工作在變化環(huán)境中的智能體,人們很難將它的知識庫在初始時就定義得很完備,因此這就需要智能體能夠在它的生命周期中自主地發(fā)現(xiàn)自己的不足之處,通過學(xué)習(xí)不斷地擴展它的知識庫。智能體擴展知識庫的途徑也同樣可以有兩個:一個是它自己在實踐中自主獲得的新知識;另外一個就是向其它的智能體學(xué)習(xí),讓別人教給它的新知識。就像一個人一樣,后一個途徑也應(yīng)該是智能體學(xué)習(xí)的主要途徑。而在一個人(Humanagents)直接參與的多智能系統(tǒng)中,通過自然語言來獲取新的知識并擴充它的知識庫。這樣做,至少能有四點好處:①知識庫不必是定義完備的;②用自然語言告訴新知識較為容易;③智能體可以自動地積累其知識;④智能體的自然語言理解能力也具有自擴展性,也就是具有一定的開放性。在本文中,我們在自然語言理解與機器學(xué)習(xí)相結(jié)合上進行了有益的探討。我們設(shè)計了一種具有用自然語言學(xué)習(xí)知識的能力的智能體。當(dāng)智能體遇到在它的知識庫中沒有定義的新概念時,它便提出問題向其它智能體詢問,得到回答以后再通過自然語言理解來獲取新概念。這里回答可以是自然語言表示的,當(dāng)然也可以是其它形式方法表示的。下面我們先介紹用自然語言表達的概念的形式定義,然后介紹智能體的學(xué)習(xí)功能。2語義網(wǎng)絡(luò)interpersonal知識是表達成自然語言的語言單位的。我們把一個自然語言所表達的內(nèi)容統(tǒng)稱為概念,因此用自然語言學(xué)習(xí)知識的過程就可以看作為通過自然語言來獲取新概念。人們用自然語言來學(xué)習(xí)知識的方式可以分為兩大類:一類是“學(xué)而不厭”;另一類是“溫故知新”。所謂“學(xué)而不厭”是指人們不厭倦地向書本請教和向他人請教去學(xué)習(xí)新的知識。在這個學(xué)習(xí)過程中,人們是通過學(xué)習(xí)新的語言材料來獲取新的概念。在新的語言材料中,新概念是用原來已有概念來表達的,或是已有概念的新的擴展。這樣我們就需要在自然語言理解中建立一種由已知概念生成新的復(fù)合概念的機制。所謂“溫故知新”是指人們溫習(xí)已有的語言材料學(xué)習(xí)新的知識。在這個學(xué)習(xí)過程中,人們是通過對舊的語言材料重新進行運算而獲取新的概念。這里人們主要是通過歸納、演繹、類比和聯(lián)想等方法從已知的概念來產(chǎn)生新的概念。自然語言的語言單位,如詞匯、句子等表達的是概念,其中最小的表義單位是詞匯。定義1如果一個概念有其對應(yīng)的詞匯作為它的標(biāo)記,則稱此概念為原子概念。如果一個概念是用語句來表達的,則稱為復(fù)合概念。原子概念與復(fù)合概念的區(qū)別是用詞匯來表達。因此,一個概念可以同時是原子概念和復(fù)合概念,當(dāng)它用詞匯表達時為原子概念,而用語句表達時為復(fù)合概念。人們使用語義網(wǎng)絡(luò)來表示自然語言的句子中的語義結(jié)構(gòu)已經(jīng)有很多年了。這里我們將語義網(wǎng)絡(luò)做一點小的修改。我們將語義網(wǎng)絡(luò)上的每一個結(jié)點看作是一個能夠自主活動的神經(jīng)元,并稱這樣的語義網(wǎng)絡(luò)為神經(jīng)語義網(wǎng)絡(luò)。我們將所有的概念分為類,令C為所有概念類的集合,W為所有詞匯的集合。C中的每個概念類都可以用一個表層語義框架來描述。表層語義框架中可以由語義角色和影響函數(shù)兩大部分構(gòu)成。只含有語義角色的概念類稱為具體概念,只含有影響函數(shù)的概念類稱為輔助概念,而同時含有兩個部分的概念類成為抽象概念。定義2表層語義函數(shù)CLASS(w)定義為:W→ρ(C)。這里,ρ(C)為C的冪集。CLASS(w)給出了詞匯w所標(biāo)記的概念所屬的概念類。定義3令c為一個原子概念。c的表層語義為c所屬的概念類的表層語義框架。c的深層語義為其屬性語義、操作語義和抽象語義三個形式定義,其中:屬性語義,記為PRO(c),是有其語義角色的屬性所構(gòu)成的邏輯表達式;操作語義,記為OPE(c)=result(functionFname(x1,-,xn),F,這里result是概念類,表示返回值所屬的概念類,F是一個過程體,(x1,…,xn)為過程參數(shù);抽象語義,記為ABS(c)=conceptCname(x1,…,xn);u,這里u是一個神經(jīng)語義網(wǎng)絡(luò),被稱為概念體,(x1,…,xn)為概念參數(shù)。我們將表層語義和深層語義拓展到其它語言單位。令N為所有神經(jīng)語義網(wǎng)絡(luò)的集合,函數(shù)P:W*→N,為分析函數(shù),P(s)為語言單位s所對應(yīng)的神經(jīng)語義網(wǎng)絡(luò)。定義4給定語言單位s,CLASS(s)為P(s)的入口所對應(yīng)的概念類。語言單位s的表層語義即為CLASS(s)的表層語義框架。定義5令所有原子概念集合為A,函數(shù)I為從W到A上的映射。一個語言單位s的內(nèi)涵表達,記為INT(P(s)),是將神經(jīng)語義網(wǎng)絡(luò)P(s)上的詞匯w都替換為它們所對應(yīng)的原子概念I(lǐng)(w)。定義6令K為所有知識的集合。給定一個語言單位s的深層語義為:U(K,P(s))=f1(k1,k2(k2,…(…,fn(kn,INT(P(s)))…))這里,ki∈K,fi是神經(jīng)語義網(wǎng)絡(luò)上的操作。我們把fi的復(fù)合運算抽象為一個函數(shù)U,稱之為理解函數(shù)。我們把自然語言理解的過程抽象為理解函數(shù)U和分析函數(shù)P的復(fù)合過程,而把背景領(lǐng)域的知識K作為該復(fù)合過程中的參數(shù)。從定義6中我們可以獲得語言單位s所表達的復(fù)合概念的三種具體的深層語義;s的屬性語義為U(K,P(s))中獲得的邏輯表達式;s的操作語義中的過程體為U(K,P(s))的過程體,其參數(shù)為從INT(P(s))上選擇的某些原子概念的泛化;s的抽象語義的概念體為INT(P(s)),其參數(shù)也為從INT(P(s))上選擇的某些原子概念的泛化。通過自然語言獲取知識就是在自然語言理解過程中獲得新的復(fù)合概念的表層語義和深層語義,也就是獲得新的復(fù)合概念的所屬概念的表層語義框架,以及它的屬性語義、操作語義和抽象語義。3基于泛化的操作語義智能體通過自然語言學(xué)習(xí)知識的途徑主要有兩個:第一個途徑是當(dāng)遇到新的原子概念時提出詢問,從得到的回答中獲得新的知識。所謂新的原子概念是指在詞典中沒有定義的詞匯,這發(fā)生在下列情形中:(1)詞典中沒有這個詞匯;(2)詞典中該詞匯沒有這樣的表層語義框架;(3)詞典中該詞匯沒有對應(yīng)的深層語義,如屬性語義、操作語義或抽象語義。前兩種情況是由分析函數(shù)發(fā)現(xiàn)的,第三種情況是由理解函數(shù)或者具體領(lǐng)域動作發(fā)現(xiàn)的。它們發(fā)現(xiàn)了未定義的概念,就將相應(yīng)的問題提交給學(xué)習(xí)函數(shù)并觸發(fā)了學(xué)習(xí)函數(shù)。學(xué)習(xí)函數(shù)就向負(fù)責(zé)解答的人或者智能體發(fā)出相應(yīng)的詢問?;卮鸺瓤梢允怯米匀徽Z言來表示的,也可以是通過專門的界面采用某種形式定義方法來表示的。如果是用自然語言表示的,則分析函數(shù)和理解函數(shù)首先處理回答的句子,獲得它的表層語義和深層語義。然后學(xué)習(xí)函數(shù)就將新概念,包括它的表層語義和各種深層語義,放入詞匯和知識庫中,擴充了知識庫。第二種途徑是從理解了解的自然語言的語句中獲得新復(fù)合概念。當(dāng)智能體完成了某項用自然語言描述的工作時,學(xué)習(xí)函數(shù)便整理其結(jié)果。它在相應(yīng)的神經(jīng)語義網(wǎng)絡(luò)中選擇某些原子概念進行泛化;取泛化后的神經(jīng)語義網(wǎng)絡(luò)為概念體、泛化的原子概念為參數(shù),來建立該復(fù)合概念的抽象語義;完成這項工作的過程為過程體,其中某些泛化的原子概念為過程的參數(shù),用來建立該復(fù)合概念的操作語義。類似的,它也可以建立復(fù)合概念的屬性語義。學(xué)習(xí)函數(shù)將整理后的結(jié)果存入詞典和知識庫,于是這個新的復(fù)合概念就成了新的知識。當(dāng)下一次遇到了類似的工作,即與已知的某個復(fù)合概念的抽象語義相匹配的工作,智能體就可以調(diào)用已知復(fù)合概念的相應(yīng)的操作語義來完成任務(wù)。綜上所述,我們設(shè)計了學(xué)習(xí)函數(shù),其構(gòu)造如圖1所示。它由以下幾個部分構(gòu)成:(1)分類:識別輸入并根據(jù)具體情況送交不同的處理。如果輸入是由分析函數(shù)、理解函數(shù)和具體領(lǐng)域動作提交的未定義的概念,則將其送交給提問。如果輸入是獲得的新概念,則將它送交給泛化。其它情況送交給綜合。(2)提問:依據(jù)遇到的問題的類型向相關(guān)的智能體提問。問題主要分為三類:①這是什么意思?②在這種情況下這是什么意思?③這個怎么做?我們沒有在自然語言生成上去做太多的工作,只是采用了簡單的替換來產(chǎn)生相應(yīng)的問句。(3)泛化:泛化新概念。具體做法是將新概念的神經(jīng)語義網(wǎng)絡(luò)上的某些原子概念替換為它的最近的上屬概念類。(4)表層:提取新概念的表層語義信息。實際上,分析函數(shù)在產(chǎn)生神經(jīng)語義網(wǎng)絡(luò)的過程中為每一個結(jié)點都賦給了CLASS函數(shù)值,而其入口的CLASS函數(shù)值就是新概念也是新的語言單位的表層語義信息。(5)抽象:產(chǎn)生新概念的深層語義中的抽象語義,其概念體即為分析函數(shù)所產(chǎn)生的神經(jīng)語義網(wǎng)絡(luò),概念參數(shù)為泛化了的原子概念。(6)功能:產(chǎn)生新概念的深層語義中的操作語義或?qū)傩哉Z義,其過程體是由一個專門的模塊產(chǎn)生的,這個子模塊是由理解函數(shù)來調(diào)用,過程的形式參數(shù)為被泛化所標(biāo)記的原子概念。(7)形式定義界面:用其它的形式方法和工具來定義新概念。通過這個界面,用戶可以直接擴展知識庫并且同步地擴展詞典。(8)修改:將新概念,包括其表層語義和各種深層語義,放入詞典和知識庫中。(9)綜合:通過分析和綜合信息來修改知識庫。下面我們用一個例子來說明學(xué)習(xí)函數(shù)的工作過程。假定智能體收到一項用自然語言下達的任務(wù):“打印出100以內(nèi)的所有素數(shù)?!痹谧R別這個復(fù)合概念的過程中,分析函數(shù)發(fā)現(xiàn)“素數(shù)”是一個未定義的概念,于是便觸發(fā)學(xué)習(xí)函數(shù)。于是學(xué)習(xí)函數(shù)便發(fā)出詢問:“請告訴我‘素數(shù)’是什么?”它得到的回答是:“素數(shù)是只能被1和自身整除的自然數(shù)?;卮鹬袥]有未定義的概念,分析函數(shù)順利地產(chǎn)生了它的神經(jīng)語義網(wǎng)絡(luò),記為u。接著,理解函數(shù)在u上運行并調(diào)用專門的子模塊來生成相應(yīng)的過程,記為F。學(xué)習(xí)函數(shù)再次被觸發(fā),發(fā)現(xiàn)這是所詢問的素數(shù)的定義。于是泛化將原子概念“自然數(shù)”泛化為變量x;表層得到它的表層語義信息為概念類“自然數(shù)”;抽象取概念體為u,概念參數(shù)為自然數(shù),得到它的抽象語義;功能得到它的操作語義,記為ziranshuPrime(ziranshux)F’,這里F’是將F中的’自然數(shù)”替換為變量x后的過程體。最后由修改將新概念“素數(shù)”放入詞典中。這樣智能體就學(xué)會了一個新的概念“素數(shù)”?,F(xiàn)在任務(wù)“打印出100以內(nèi)的所有素數(shù)。”中也不再有未定義概念。經(jīng)過分析和理解之后,該任務(wù)被執(zhí)行,執(zhí)行的過程不妨記為P。假定這是一個新的任務(wù),即一個新的復(fù)合概念。于是,學(xué)習(xí)函數(shù)再度被觸發(fā),經(jīng)過泛化、表層、抽象、功能的工作,一個新的復(fù)合概念被建立起來,不妨稱之為Print-Prime,其操作語義記為voidPrint-Prime(ziranshux=100);P’這里P’是將P中的100替換為數(shù)據(jù)類型為ziranshu的變量x之后的過程體。假定下一次又接到一個任務(wù):“打印出500以內(nèi)的所有素數(shù)?!边@時,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論