




已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多語(yǔ)言文本信息處理的方法和框架多語(yǔ)言文本信息處理的方法和框架趙軍中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室北京,摘要本文在介紹多語(yǔ)言文本信息處理的幾個(gè)重要任務(wù)的基礎(chǔ)上,歸納出多語(yǔ)言文本信息處理的一般描述對(duì)于多語(yǔ)言文本信息處理領(lǐng)域的語(yǔ)言鴻溝問(wèn)題以及信息處理領(lǐng)域的一詞多義和一義多詞問(wèn)題,本文分析了幾種主要的解決辦法,并提出我們的解決方案一一基于多語(yǔ)言準(zhǔn)文本平行語(yǔ)料庫(kù)的隱含語(yǔ)義標(biāo)引最后介紹了以為核心技術(shù)的多語(yǔ)言文本信息處理的基本框架關(guān)鍵詞多語(yǔ)言文本信息處理,自然語(yǔ)言處理,機(jī)器翻譯撇,】一,概述隨著全球信息化的不斷推廣,因特網(wǎng)資源不再集中在英語(yǔ)等少數(shù)幾種語(yǔ)言上,非英語(yǔ)因特網(wǎng)資源的比重不斷增加另一方面,非英語(yǔ)英特網(wǎng)用戶的比重也在不斷增加。根據(jù)預(yù)測(cè),到年,英特網(wǎng)用戶總量將達(dá)到億千百萬(wàn),其中非英語(yǔ)用戶將占到。因特網(wǎng)資源的多語(yǔ)言性和因特網(wǎng)用戶的多語(yǔ)言性,使得多語(yǔ)言文本信息處理變得迫在眉睫。多語(yǔ)言信息文本處理可以有兩種含義某個(gè)文本信息處理系統(tǒng)有多種語(yǔ)言版本,例如一個(gè)文本檢索系統(tǒng)包含英文文本檢索子系統(tǒng)、中文文本檢索子系統(tǒng)和日文文本檢索子系統(tǒng)等,在每個(gè)子系統(tǒng)內(nèi),用一種語(yǔ)言提問(wèn),檢索出該種語(yǔ)言的文本某個(gè)文本處理系統(tǒng)具有蹬語(yǔ)壹處理多語(yǔ)言文本的能力,例如一個(gè)英漢日多語(yǔ)言信息檢索系統(tǒng)中,用戶用英文提問(wèn),系統(tǒng)除了反饋給用戶英文的相關(guān)文本外還可以反饋給用戶中文和日文的文本。因?yàn)橛脩籼釂?wèn)和文本可能是由不同語(yǔ)言表示的,語(yǔ)言之間的差異性給檢索過(guò)程帶來(lái)困難。這種語(yǔ)言之間。的差異性給跨語(yǔ)言信息處理帶來(lái)的困難稱為蚤直婆漁問(wèn)題本文所指的多語(yǔ)言文本信息處理指的是第種含義,即系統(tǒng)處理交叉語(yǔ)言和混合語(yǔ)言的能力。包含以下兩種情形每個(gè)文本我們可以把信息檢索中的用戶提問(wèn)和信息過(guò)濾中的用戶信息需求都看作是文本是以一種語(yǔ)言表示的,但是不同的文本可以用不同語(yǔ)言表示每個(gè)文本本身就是用多種語(yǔ)言混合表示的,例如一個(gè)文本中有英文、中文、也有日文等。在英文中,與“多語(yǔ)言”相關(guān)的有個(gè)詞,。按照作者的理解,信息處理是泛指,包括本文第一段介紹的兩種含義。類(lèi)似地,信息處理是對(duì)雙語(yǔ)信息處理的泛指而信息處理特指系統(tǒng)的多語(yǔ)言之間交叉語(yǔ)言和混合語(yǔ)言處理能力,即本文第一段介紹的第種含義。類(lèi)似地,信息處理是對(duì)雙語(yǔ)交叉語(yǔ)言和混合語(yǔ)言信息處理的特指。因此本文所指的多語(yǔ)言信息檢索是。多語(yǔ)言文本信息處理包含有兩個(gè)主要的研究領(lǐng)域。多語(yǔ)言文本的存取和顯示公布,成為多種語(yǔ)言文字的統(tǒng)一編碼年公布了標(biāo)準(zhǔn)第一版,年/標(biāo)準(zhǔn),從而為多語(yǔ)言的存取和顯示的奠定了基礎(chǔ)。年發(fā)布了一個(gè)多語(yǔ)言的網(wǎng)頁(yè)瀏覽器。目前,/等著名的網(wǎng)絡(luò)搜索工具都支持和多語(yǔ)言文本的統(tǒng)一存儲(chǔ)和顯示多語(yǔ)言文本的加工和處理,包括信息檢索、文本分類(lèi)、信息發(fā)現(xiàn)等等。例如多語(yǔ)言信息檢索的任務(wù)是給出任意一種語(yǔ)言的提問(wèn),從多種語(yǔ)言表示的文本集合中找到與提問(wèn)相關(guān)的任意語(yǔ)言的文本。本文討論的多語(yǔ)言文本信息處理主要是針對(duì)這個(gè)研究領(lǐng)域,即多語(yǔ)言文本的加工和處理。多語(yǔ)言文本信息處理涉及到信息檢索、機(jī)器翻譯和自然語(yǔ)言理解等多個(gè)研究領(lǐng)域,具有重要的研究?jī)r(jià)值。目前這個(gè)領(lǐng)域的研究主要有雙語(yǔ)之間的跨語(yǔ)言信息檢索,代表性的研和的英語(yǔ)和西班牙語(yǔ)之間的究有美國(guó)大學(xué)的交叉語(yǔ)言信息檢索研究,采用的是雙語(yǔ)詞典結(jié)合譯詞選擇排歧的方法美國(guó)大學(xué)的將單語(yǔ)言信息檢索中的隱含語(yǔ)義標(biāo)引擴(kuò)展到雙語(yǔ)信息檢索中,形成。,試驗(yàn)取得令人滿意的結(jié)果在國(guó)內(nèi),多語(yǔ)言文本信息檢索的研究有復(fù)旦大學(xué)吳立德和黃萱菁的英漢交叉語(yǔ)言信息檢索研究,微軟亞洲研究院高建峰等的英漢交叉語(yǔ)言信息檢索研究,以及中國(guó)科學(xué)院軟件研究所的英漢交叉語(yǔ)言信息檢索研究。這三項(xiàng)研究工作主要都是基于雙語(yǔ)詞典和譯詞選擇的方法雙語(yǔ)之間的跨語(yǔ)言信息過(guò)濾代表性的工作是美國(guó)將用于雙語(yǔ)信息過(guò)濾。在評(píng)測(cè)方面,美國(guó)國(guó)家大學(xué)標(biāo)準(zhǔn)委員會(huì)和美國(guó)國(guó)防部在年的文本檢索測(cè)試會(huì)議中首次設(shè)立了交叉語(yǔ)言信息檢索的評(píng)測(cè),主要集中在西方語(yǔ)言之間的交叉檢索,后來(lái)也加入了中文和英文之間的交叉檢索在亞洲,年日本國(guó)立情報(bào)學(xué)研究所在其主辦的第二屆東方語(yǔ)言信息檢索測(cè)試會(huì)議中開(kāi)始了英漢交叉語(yǔ)言信息檢索的測(cè)試。年,美國(guó)國(guó)防部開(kāi)始設(shè)立,項(xiàng)目,組織多語(yǔ)言信息偵別、抽取和文摘方面的研究和評(píng)測(cè),把多語(yǔ)言信息處理從單純的信息檢索拓展到多個(gè)領(lǐng)域。年,歐洲開(kāi)始了歐洲語(yǔ)言跨語(yǔ)言信息處理的評(píng)測(cè)計(jì)劃。這些項(xiàng)目和評(píng)測(cè)都極大地促進(jìn)了多語(yǔ)言文本信息處理領(lǐng)域的研究和開(kāi)發(fā)。綜上所述,本文所說(shuō)的多語(yǔ)言文本信息處理指的是多種語(yǔ)言之間的跨語(yǔ)言的信息檢索、信息過(guò)濾、文本聚類(lèi)和分類(lèi)、信息抽取等信息處理任務(wù)。我們將著重介紹多語(yǔ)言文本信息處理的一般框架、核心技術(shù)以及它在多個(gè)多語(yǔ)言信息處理任務(wù)中的應(yīng)用。以下,第章簡(jiǎn)要介紹幾個(gè)重要的多語(yǔ)言文本信息處理的任務(wù)第章介紹多語(yǔ)言文本信息處理的一般描述,其中的語(yǔ)言鴻溝問(wèn)題的處理方法以及我們的方法一基于準(zhǔn)文本平行語(yǔ)料庫(kù)的多語(yǔ)言隱含語(yǔ)義標(biāo)引第章介紹我們?cè)诙嗾Z(yǔ)言文本信息處理領(lǐng)域所做的工作,即基于的多語(yǔ)言文本信息處理框架以及相關(guān)技術(shù)第章是結(jié)束語(yǔ)。多語(yǔ)言文本信息處理的任務(wù)多語(yǔ)言文本信息處理有多個(gè)應(yīng)用領(lǐng)域,例如信息檢索、信息過(guò)濾、文本聚類(lèi)、文本分類(lèi)、話題偵別和跟蹤、信息抽取、文摘、問(wèn)答系統(tǒng)等等,這些不同的應(yīng)用之間有區(qū)別,也有著密切的聯(lián)系。以下分別對(duì)信息檢索、信息過(guò)濾、文本聚類(lèi)、文本分類(lèi)和話題偵別與跟蹤等幾個(gè)任務(wù)做簡(jiǎn)要介紹。多語(yǔ)言文本信息檢索信息檢索雙過(guò)程是這樣的用戶希望看到關(guān)于某個(gè)話題的一些文本,用戶首先用一個(gè)提問(wèn)剛對(duì)這個(gè)話題進(jìn)行描述,系統(tǒng)從這個(gè)提問(wèn)中衍生出標(biāo)引條目將這些標(biāo)引條目與文本庫(kù)中每個(gè)文本的標(biāo)引條目文本庫(kù)中的每個(gè)文本事先已經(jīng)進(jìn)行了類(lèi)似的標(biāo)引進(jìn)行匹配雙系統(tǒng)將匹配程度最好的文本序列返回用戶。雙系統(tǒng)的兩個(gè)主要技術(shù)環(huán)節(jié)是自動(dòng)標(biāo)引包括提問(wèn)標(biāo)引和文本標(biāo)引。信息檢索是在維空間中的向量基礎(chǔ)之上進(jìn)行的,將提問(wèn)或者文本表示為向量的過(guò)程稱為標(biāo)引相似度計(jì)算通過(guò)計(jì)算提閥標(biāo)引向量和文本標(biāo)引向量之間的距離,估計(jì)文本和提問(wèn)之間的相似性,進(jìn)而給出檢索結(jié)果。影響系統(tǒng)性能的難點(diǎn)是提問(wèn)向量和文本向量中的元素一般表示為詞,詞的一詞多義問(wèn)題和一義多詞問(wèn)題影信息檢索的效率。與單語(yǔ)言文本信息檢索相比,多語(yǔ)言文本信息檢索的特點(diǎn)是用戶提問(wèn)和文本是用不同語(yǔ)言表示的,即用一種語(yǔ)言表示的提問(wèn)檢索到其他語(yǔ)言表示的文本。多語(yǔ)言文本信息檢索在繼承了單語(yǔ)言信息檢索的一詞多義和一義多詞問(wèn)題外,其關(guān)鍵問(wèn)題是語(yǔ)言鴻溝問(wèn)題。多語(yǔ)言文本信息過(guò)濾文本信息過(guò)濾包括興趣過(guò)濾和不良信息過(guò)濾兩種情況。文本信息過(guò)濾系統(tǒng)自動(dòng)監(jiān)控文本流新聞稿、通訊社等,發(fā)現(xiàn)用戶感興趣的文本分發(fā)給相應(yīng)用戶,或者發(fā)現(xiàn)不良信息阻擋在外。信息過(guò)濾和信息檢索是密切聯(lián)系的,也是有區(qū)別的。在信息需求方面信息檢索和信息過(guò)濾的用戶需求都是特定的需求。但是信息檢索的信息需求提問(wèn)是隨時(shí)間動(dòng)態(tài)變化的,而信息過(guò)濾的用戶需求興趣是相對(duì)穩(wěn)定的在文本信息源方面信息檢索和信息過(guò)濾的信息源都是非結(jié)構(gòu)化的文本。但是,信息過(guò)濾的信息源是隨時(shí)間而來(lái)的動(dòng)態(tài)的文本流,而信息檢索的信息源是在某個(gè)時(shí)間段內(nèi)相對(duì)穩(wěn)定的靜態(tài)的文本集合。文本過(guò)濾有兩個(gè)研究方向基于內(nèi)容的文本過(guò)濾和基于合作的文本過(guò)濾,或?;诤献鞯奈谋具^(guò)濾指的是別人幫助你判斷哪些文本是對(duì)你有用的。最著名的基于合作的文本過(guò)濾系統(tǒng)就是,我們可以把它看作由合作過(guò)濾和個(gè)人過(guò)濾兩部分組成。合作過(guò)濾用人工對(duì)網(wǎng)上的文本進(jìn)行判斷,找出感興趣的文本分別進(jìn)行話題標(biāo)注,并存入結(jié)構(gòu)化的文本數(shù)據(jù)庫(kù)中個(gè)人過(guò)濾用戶從人工得到的結(jié)構(gòu)化文本數(shù)據(jù)庫(kù)中挑選自己感興趣的文本,這個(gè)過(guò)程可以看作是個(gè)人過(guò)濾。在基于內(nèi)容的文本過(guò)濾中,每個(gè)用戶的文本過(guò)濾任務(wù)都是獨(dú)立進(jìn)行的,因此基于內(nèi)容的文本過(guò)濾系統(tǒng)只能利用文本內(nèi)容中的信息進(jìn)行過(guò)濾。在這里,我們只討論基于內(nèi)容的文本過(guò)濾,以下簡(jiǎn)稱文本過(guò)濾。文本過(guò)濾主要涉及三個(gè)技術(shù)環(huán)節(jié)文本標(biāo)引用戶建模,相關(guān)性判斷。其中用戶建模指的是構(gòu)造表示用戶興趣的模型,或稱用戶興趣輪廓相關(guān)性計(jì)算指的是,當(dāng)頦文本信息進(jìn)來(lái)時(shí),系統(tǒng)估計(jì)文本與用戶輪廓的相似度,然后把文本送給對(duì)其感興趣的用戶。在向量空間模型中,用一個(gè)向量表示一篇文本,用一個(gè)向量包描述用戶輪廓通用的相關(guān)性計(jì)算的方法是用向量間夾角的余弦來(lái)衡量用戶模型和文本向量之間的相似度。與信息檢索類(lèi)似,影響文本過(guò)濾系統(tǒng)性能的難點(diǎn)是用戶輪廓和文本向量中的元素一般表示為詞,詞的一詞多義和一義多詞問(wèn)題影響信息過(guò)濾的效率。與單語(yǔ)言文本過(guò)濾相比,多語(yǔ)言文本過(guò)濾的特點(diǎn)是用戶輪廓和文本是用不同語(yǔ)言表示的,即用一種語(yǔ)言表示的輪廓過(guò)濾其他語(yǔ)言表示的文本。因此語(yǔ)言鴻溝問(wèn)題成了多語(yǔ)言文本過(guò)濾的特有難點(diǎn)。多語(yǔ)言文本聚類(lèi)和分類(lèi)文本聚類(lèi)的任務(wù)是按照某種相似性度量,把文本集合中的文本劃分成若干個(gè)子集,每個(gè)子集代表一個(gè)類(lèi)別。類(lèi)別集合事先是不知道的。文本聚類(lèi)的兩個(gè)主要技術(shù)環(huán)節(jié)是文本自動(dòng)標(biāo)引文本向量的聚類(lèi)算法,包括單層聚類(lèi)算法和層級(jí)聚類(lèi)算法。文本分類(lèi)的任務(wù)是按照某種相似性度量,給每個(gè)文本指派一個(gè)類(lèi)別。類(lèi)別體系事先已經(jīng)確定。文本聚類(lèi)的兩個(gè)主要技術(shù)環(huán)節(jié)是文本自動(dòng)標(biāo)引文本向量的分類(lèi)算法。雖然分類(lèi)算法很多,例如回歸模型、最近鄰分類(lèi)、貝葉斯分類(lèi)、決策樹(shù)和支持向量機(jī)等,但是它們的思想是一致的,即將人工分類(lèi)的文本庫(kù)作為訓(xùn)練集,從中學(xué)習(xí)文本分類(lèi)知識(shí)對(duì)于新的文本,利用文本分類(lèi)知識(shí)進(jìn)行自動(dòng)分類(lèi)。影響文本聚類(lèi)和文本分類(lèi)系統(tǒng)性能的難點(diǎn)是文本向量中的元素一般表示為詞,詞的一詞多義和一義多詞問(wèn)題影響聚類(lèi)和分類(lèi)的效率。與單語(yǔ)言文本聚類(lèi)和文本分類(lèi)相比,多語(yǔ)言文本聚類(lèi)和文本分類(lèi)的特點(diǎn)是文本可以用不同語(yǔ)言表示的。除了單語(yǔ)言文本聚類(lèi)和文本分類(lèi)中的一詞多義和一義多詞問(wèn)題外,多語(yǔ)言文本聚類(lèi)和文本分類(lèi)的特有難點(diǎn)是語(yǔ)言鴻溝問(wèn)題。多語(yǔ)言文本的話題偵別和跟蹤,指的是從時(shí)序列數(shù)據(jù)流中例話題偵別和跟蹤如網(wǎng)絡(luò)信息、新聞通訊社數(shù)據(jù)、廣播或電視稿件等中自動(dòng)地偵別新的重要話題、并跟蹤話題的最新動(dòng)態(tài)。從年開(kāi)始設(shè)立專(zhuān)項(xiàng),對(duì)的研究現(xiàn)狀和關(guān)鍵技術(shù)進(jìn)行評(píng)測(cè)。在項(xiàng)目開(kāi)始階段,“話題限制為“事件”,指的是在某個(gè)時(shí)間點(diǎn)上發(fā)生的某個(gè)特別的事件。例如年月日火山爆發(fā)是一個(gè)事件,而“火山爆發(fā)”是一類(lèi)事件。事件可以是不可預(yù)見(jiàn)的,例如地震、恐怖事件等,也可以是可預(yù)見(jiàn)的,例如政治選舉等。的數(shù)據(jù)可以有兩種類(lèi)型來(lái)源于新聞通訊社或網(wǎng)絡(luò)的文本類(lèi)型的數(shù)據(jù)從廣播或電視接收音頻數(shù)據(jù)經(jīng)過(guò)自動(dòng)語(yǔ)音識(shí)別后以文本形式存儲(chǔ)的腳本。這種腳本有兩個(gè)特點(diǎn)一是沒(méi)有標(biāo)點(diǎn)符號(hào)、段落符號(hào)和篇章標(biāo)記的,把多個(gè)稿件連接在一起二是因?yàn)槭钦Z(yǔ)音識(shí)別的輸出,因此可能有很多錯(cuò)誤??紤]到第二個(gè)特點(diǎn),的算法必須有很好的容錯(cuò)性。有三個(gè)主要任務(wù)故事切分從廣播或電視接收并經(jīng)過(guò)自動(dòng)語(yǔ)音識(shí)別后以文本形式存儲(chǔ)的腳本是沒(méi)有標(biāo)點(diǎn)符號(hào)的,把多個(gè)故事連接在一起。故事切分的任務(wù)就是把連在一起的,一故事劃分成單獨(dú)的故事事件偵別從數(shù)據(jù)流中識(shí)別出未知的事件,分為回顧型事件偵別?;睾驮诰€型新事件偵別顧型事件偵別對(duì)故事語(yǔ)料庫(kù)進(jìn)行處理從而識(shí)別出其中的事件。事件是通過(guò)故事表達(dá)的,對(duì)語(yǔ)料庫(kù)中的故事進(jìn)行自動(dòng)聚類(lèi),其中每個(gè)類(lèi)表示一個(gè)事件,這個(gè)類(lèi)中的每個(gè)故事都談?wù)撨@個(gè)事件。在線型新事件偵別在新事件發(fā)生時(shí)進(jìn)行在線識(shí)別。每篇故事都按時(shí)間順序進(jìn)行處理,并決定這篇故事是否討論一個(gè)新的事件。這些都要在處理下一個(gè)故事之前完成。事件跟蹤事件跟蹤指的是把新到的故事和系統(tǒng)已知的事件聯(lián)系起來(lái)。分以下兩個(gè)步驟目標(biāo)事件的定義事件是由故事表達(dá)的,并通過(guò)與這些故事的關(guān)聯(lián)來(lái)定義,每個(gè)目標(biāo)事件都由一組論述該事件故事來(lái)定義新到的故事的分類(lèi)在有了目標(biāo)事件定義后,對(duì)于新到的故事,通過(guò)計(jì)算它與目標(biāo)事件定義中的一組故事的相似度來(lái)進(jìn)行分類(lèi)。與文本聚類(lèi)和文本分類(lèi)有密切的關(guān)系,與以上各個(gè)任務(wù)一樣,的難點(diǎn)也是詞的一詞多義和一義多詞問(wèn)題。與單語(yǔ)言相比。多語(yǔ)言的特點(diǎn)是文本可以用不同語(yǔ)言表示的。因此語(yǔ)言鴻溝問(wèn)題也是多語(yǔ)言的一個(gè)難點(diǎn)。多語(yǔ)言文本信息處理的關(guān)鍵問(wèn)題和處理方法本章首先歸納出多語(yǔ)言文本信息處理的一般描述,然后論述解決語(yǔ)言鴻溝問(wèn)題的主要方法,并提出自己的方法一多語(yǔ)言隱含語(yǔ)義標(biāo)引。多語(yǔ)言文本信息處理的一般描述第章介紹了信息檢索、信息過(guò)濾、文本聚類(lèi)、文本分類(lèi)和話題偵別和跟蹤等幾個(gè)任務(wù),其中信息檢索和信息過(guò)濾考慮的是用戶需求和文本之間的關(guān)系、文本聚類(lèi)考慮的是文本和文本之間的關(guān)系、信息分類(lèi)考慮的是類(lèi)別和文本之間的關(guān)系、話題偵別和跟蹤考慮的是話題和文本之間的關(guān)系。如果我們把信息檢索和信息過(guò)濾中的用戶需求、文本分類(lèi)中的類(lèi)別、話題偵別和跟蹤中的話題都看作是文本,則以上任務(wù)考慮的都是文本之間的相關(guān)關(guān)系。這樣,以上任務(wù)都統(tǒng)一到一個(gè)框架下,如圖所示的。在這個(gè)統(tǒng)一的框架下,有兩個(gè)主要的技術(shù)環(huán)節(jié),即文本的自動(dòng)標(biāo)引和標(biāo)引向量之間的相關(guān)度計(jì)算,而這兩個(gè)環(huán)節(jié)都以語(yǔ)言鴻溝的解決機(jī)制為支撐。文本標(biāo)引、要判斷兩個(gè)文本之間的相關(guān)性,考慮到效率問(wèn)題,我們不可能直接對(duì)兩個(gè)文本進(jìn)行比較,而要首先從文本中抽取一系列特征來(lái)概括該文本,構(gòu)成文本的特征向量,然后通過(guò)計(jì)算特征向量之間的距離來(lái)估計(jì)文本之間的相關(guān)性。這個(gè)從文本到特征向量的過(guò)程稱為文本標(biāo)引。目前普遍采用的是基于詞語(yǔ)頻度的特征向量標(biāo)引,即基于詞語(yǔ)在文本中的出現(xiàn)頻度構(gòu)造該文本的特征向量來(lái)表示文本。在這種方法中,詞語(yǔ)之間是獨(dú)立的,特征向量只與獨(dú)立的詞語(yǔ)有關(guān),而與文本中通過(guò)詞語(yǔ)之間的關(guān)系表達(dá)出來(lái)的文本的深層語(yǔ)義信息沒(méi)有關(guān)系。但是,在對(duì)文本之間的相關(guān)性進(jìn)行判斷時(shí),專(zhuān)家考慮的是兩者之間的語(yǔ)義關(guān)系。因此,基于詞語(yǔ)頻度的特征向量標(biāo)引不能很好地表達(dá)文本的語(yǔ)義信息,有其局限性。另一方面,雖然基于詞頻的向量表示不能很好地描述專(zhuān)家的信息處理過(guò)程,但是這種方法的簡(jiǎn)單性、可移植性和很好的時(shí)間效率使得它成為目前普遍采用的文本表示方法。相關(guān)性判斷文本的相關(guān)性判斷有兩種類(lèi)型二元判斷即文本是相關(guān)的還是不相關(guān)的。這種類(lèi)型的判斷一般采用布爾模型有度量的相關(guān)性判斷即對(duì)文本的相關(guān)性給出值域是,】的判斷。一般采用向量空間模型和概率模型。專(zhuān)家對(duì)文本間的相關(guān)性的判斷圖多語(yǔ)言文本信息處理的框架多語(yǔ)言文本信息處理的關(guān)鍵問(wèn)題語(yǔ)言鴻溝問(wèn)題及其解決方法與單語(yǔ)言文本信息處理相比,多語(yǔ)言文本信息處理特殊之處就在于語(yǔ)言鴻溝問(wèn)題,語(yǔ)言鴻溝問(wèn)題和自動(dòng)文本標(biāo)引有關(guān),也與相關(guān)度判斷有關(guān)。和文本標(biāo)引和相關(guān)性判斷一樣,對(duì)于不同的多語(yǔ)言文本信息處理任務(wù),其語(yǔ)言鴻溝問(wèn)題的解決機(jī)制也是可以統(tǒng)一起來(lái)的。與單語(yǔ)言文本信息處理相比,多語(yǔ)言文本信息處理將詞的一詞多義問(wèn)題、一義多詞問(wèn)題和譯詞選擇問(wèn)題交織在一起。一方面是增加了譯詞選擇歧義問(wèn)題,另一方面,由于不同語(yǔ)言的互相牽制,可能從某種程度上給一詞多義問(wèn)題的解決提供新的信息源。多語(yǔ)言文本處理的一個(gè)關(guān)鍵問(wèn)題就是如何能夠巧妙地利用多語(yǔ)言之間相互限制等優(yōu)勢(shì),同時(shí)解決語(yǔ)言鴻溝以及一詞多義和一義多詞問(wèn)題。在處理多語(yǔ)言文本信息處理的語(yǔ)言鴻溝問(wèn)題上,目前有多種方法。例如基于機(jī)器翻譯的方法、基于人工構(gòu)建多語(yǔ)言主題詞表方法、基于雙語(yǔ)詞典的方法、基于平行語(yǔ)料庫(kù)的方法、基于概念中間語(yǔ)言的方法等等。這些方法都是針對(duì)“翻譯歧義”問(wèn)題進(jìn)行的,有的也兼顧了詞多義和一義多詞問(wèn)題。以下為敘述方便,我們將針對(duì)多語(yǔ)言文本信息檢索為例,說(shuō)明一些主要方法。這些方法可以很容易地映射到多語(yǔ)言文本信息處理的統(tǒng)一框架上,從而應(yīng)用到多語(yǔ)言文本信息處理的各個(gè)任務(wù)中?;跈C(jī)器翻譯的方法基于雙語(yǔ)詞典的方法基于詞典的方法是中一心思想是基于雙語(yǔ)詞典對(duì)提闖中的每個(gè)詞給出其所有的譯詞候選,生成目標(biāo)語(yǔ)言的提問(wèn),然后進(jìn)行目標(biāo)語(yǔ)言的單語(yǔ)言信息檢索。這種方法與“基于機(jī)器翻譯的方法”的區(qū)別在于機(jī)器翻譯方法要進(jìn)行譯詞選擇的排歧,而“基于雙語(yǔ)詞典的方法”不進(jìn)行排歧,保留所有歧義到檢索階段。檢索過(guò)程根據(jù)檢索文本中的詞語(yǔ)連續(xù)出現(xiàn)情況自動(dòng)過(guò)濾掉譯詞選擇的歧義問(wèn)題。這種方法最大的特點(diǎn)是簡(jiǎn)單,雙語(yǔ)詞典容易得到,因此是目前最普遍最實(shí)用的方法。然而,將基于雙語(yǔ)詞典方法用于,檢索效率不高。例如,基于這種方法的英語(yǔ)和西班牙語(yǔ)跨語(yǔ)言信息檢索的查準(zhǔn)率比單語(yǔ)言信息檢索降低基于這種方法的英語(yǔ)和漢語(yǔ)跨語(yǔ)言信息檢索的查準(zhǔn)率比單語(yǔ)言信息檢索降低以上。其主要原因除了詞典的覆蓋率不高外,最關(guān)鍵的問(wèn)題是非組合短語(yǔ)問(wèn)題有些短語(yǔ),如果拆開(kāi)逐詞翻譯,不可能得到正確的譯文,其原因是雙語(yǔ)詞典中每個(gè)詞的候選譯詞無(wú)論怎么組合也不可能得到正確的短語(yǔ)翻譯。例如“上下班高峰時(shí)間”。特別地,在很多情況下,一個(gè)概念是以短語(yǔ)的形式表示的,如果把組成該短語(yǔ)的詞拆開(kāi)后,每一個(gè)詞的詞義疊加起來(lái)并不等于該短語(yǔ)的短語(yǔ)義例如獵戶星云。以上兩種情況,英文中稱為非組合短語(yǔ)問(wèn)題,與漢語(yǔ)的固定短語(yǔ)和半固定短語(yǔ)類(lèi)似。在信息檢索中,對(duì)于非組合短語(yǔ),按照基于雙語(yǔ)詞典的方法進(jìn)行逐詞翻譯,不可能或很難得到準(zhǔn)確的短語(yǔ)翻譯,進(jìn)而不能進(jìn)行正確的檢索結(jié)果。如果有一個(gè)規(guī)模足夠大的平行語(yǔ)料庫(kù),我們可以利用對(duì)齊技術(shù)找到不同語(yǔ)言之間的對(duì)應(yīng)短語(yǔ)。這種方法為非組合短語(yǔ)的翻譯提供了一個(gè)可行的途徑?;谄叫姓Z(yǔ)料庫(kù)的方法在介紹基于平行語(yǔ)料庫(kù)的隱含語(yǔ)義標(biāo)引,方法之前,先介紹基于單語(yǔ)言語(yǔ)料庫(kù)的方法?;趩握Z(yǔ)言語(yǔ)料庫(kù)的方法在單語(yǔ)言信息檢索領(lǐng)域,傳統(tǒng)的方法是對(duì)用戶提問(wèn)和文本進(jìn)行基于詞語(yǔ)頻度的標(biāo)引,并通過(guò)對(duì)標(biāo)引詞的精確匹配確定提問(wèn)和文本之間的相關(guān)性。這類(lèi)方法最大的缺點(diǎn)是,它假設(shè)詞語(yǔ)之間是獨(dú)立的,互不相關(guān)的。,這顯然是不對(duì)的,因?yàn)閷?zhuān)家的信息檢索過(guò)程實(shí)際上是對(duì)提問(wèn)和文本之間的語(yǔ)義相關(guān)性進(jìn)行判斷,而語(yǔ)義是通過(guò)表示概念的詞語(yǔ)以及表示概念聯(lián)系的詞語(yǔ)關(guān)系表達(dá)出來(lái)的。所以這種方法不能檢索到那些雖然沒(méi)有恰好包括用戶提問(wèn)中的詞語(yǔ),但實(shí)際上包含了與提問(wèn)詞語(yǔ)同義或表達(dá)同一個(gè)概念的詞語(yǔ)的相關(guān)文本。模型的中心思想就是要在對(duì)詞語(yǔ)之間的語(yǔ)義關(guān)系進(jìn)行自動(dòng)評(píng)測(cè)的基礎(chǔ)上,分別標(biāo)引出提問(wèn)和文本的隱含語(yǔ)義,并在此基礎(chǔ)上進(jìn)行提問(wèn)和文本之間的語(yǔ)義相關(guān)生判斷,從而提高信息檢索的性能?;趩握Z(yǔ)言語(yǔ)料庫(kù)的的核心思想是假想有一個(gè)語(yǔ)義空間,用戶提問(wèn)的一組詞語(yǔ)在語(yǔ)義空間中構(gòu)成某個(gè)點(diǎn),而相同主題的文本所使用的詞語(yǔ)在相同的語(yǔ)義空間中構(gòu)成另一個(gè)點(diǎn),而語(yǔ)料庫(kù)中的信息確定了兩個(gè)點(diǎn)在相同語(yǔ)義空間中的相鄰關(guān)系。這種思想是方法的基礎(chǔ)。根據(jù)詞語(yǔ)出現(xiàn)的上下文環(huán)境衡量詞語(yǔ)之間的相關(guān)性,并通過(guò)建立一個(gè)減維的特征空間使得具有相似上下文環(huán)境的詞語(yǔ)在這個(gè)特征空間中彼此相鄰。圖是對(duì)詞語(yǔ)表示的幾何直觀描述。傳統(tǒng)的向量表示是每個(gè)詞語(yǔ)的線性組合,這樣“筆記本電腦”與詞“便攜機(jī)”之間是正交不相關(guān)的圖左。而與之對(duì)比的,圖右所示的,詞語(yǔ)之間不是獨(dú)立的,在減維空間中相似的詞語(yǔ)映射在相鄰的位置上。例如詞“筆記本電腦”與詞“便攜機(jī)”在降維后的空間中位置比較接近。關(guān)鍵詞檢索兩個(gè)詞無(wú)關(guān)檢索相似詞關(guān)聯(lián)桀七墼冒昧譬門(mén),罰一的一個(gè)維圖對(duì)詞語(yǔ)表示的幾何直觀描述示意圖基于平行語(yǔ)料庫(kù)的方法如所述,我們可以利用機(jī)器翻譯中的對(duì)齊技術(shù)解決非組合短語(yǔ)的翻譯問(wèn)題。但是多語(yǔ)言信息檢索和機(jī)器翻譯是有區(qū)別的,它并不需要找出一個(gè)詞語(yǔ)在特定的上下文環(huán)境中的精確翻譯,而只是需要找出以不同語(yǔ)言表示的特定主題的文本?;谶@個(gè)特點(diǎn),我們可以使用某種方法將一組源語(yǔ)言詞語(yǔ)與一組目標(biāo)語(yǔ)言詞語(yǔ)對(duì)應(yīng)起來(lái),而不關(guān)心雙語(yǔ)詞語(yǔ)之間的精確翻譯關(guān)系。從語(yǔ)料庫(kù)中獲取詞語(yǔ)之間的語(yǔ)義關(guān)系,并對(duì)文本做出語(yǔ)義標(biāo)引。如果把這種方法擴(kuò)展到多語(yǔ)言文本信息處理領(lǐng)域,做到多語(yǔ)言的語(yǔ)義標(biāo)引,將為語(yǔ)言鴻溝問(wèn)題解決提供了一個(gè)可行的途徑。這種方法就是基于平行語(yǔ)料庫(kù)的?;谄叫姓Z(yǔ)料庫(kù)的方法的核心思想是假想有一個(gè)語(yǔ)義空間,源語(yǔ)言文本的一組詞在語(yǔ)義空間中構(gòu)成某個(gè)點(diǎn),而相同主題的目標(biāo)語(yǔ)言文本所使用的詞語(yǔ)在相同的語(yǔ)義空間中構(gòu)成另外一個(gè)點(diǎn),雙語(yǔ)平行語(yǔ)料庫(kù)確定了兩個(gè)點(diǎn)在相同語(yǔ)義空間中的相鄰關(guān)系。這種思想是基于平行語(yǔ)料庫(kù)的方法的基礎(chǔ)?;谄叫姓Z(yǔ)料庫(kù)的方法對(duì)多語(yǔ)言文本做到語(yǔ)義標(biāo)引,不僅可以解決一詞多義和一義多詞問(wèn)題,而且可以很好地解決語(yǔ)言鴻溝問(wèn)題,是一種非常有潛力的研究方法。但是這種方法也有其與生俱來(lái)的不足,它依賴于大規(guī)模的平行語(yǔ)料庫(kù),而大規(guī)模非受限領(lǐng)域的平行語(yǔ)料庫(kù)是很難獲得的。我們的方法一基于準(zhǔn)文本平行語(yǔ)料庫(kù)的多語(yǔ)言隱含語(yǔ)義標(biāo)引綜上所述,作者認(rèn)為,解決多語(yǔ)言文本信息處理領(lǐng)域的語(yǔ)言鴻溝問(wèn)題的兩種有前途的方法是基于雙語(yǔ)詞典的方法和基于平行語(yǔ)料庫(kù)的方法。前者的優(yōu)點(diǎn)是簡(jiǎn)單,只需要雙語(yǔ)詞典,不需要其他昂貴的資源。其不足是這種方法是基于關(guān)鍵詞的標(biāo)引,在描述文本的語(yǔ)義方面有與生俱來(lái)的缺陷不能處理非組合短語(yǔ)的翻譯問(wèn)題因?yàn)樗皇墙o出譯詞候選而不進(jìn)行排歧,而檢索階段的文本過(guò)濾并不能過(guò)濾掉所有的歧義。這三點(diǎn)不足限制了基于雙語(yǔ)詞典的多語(yǔ)言文本信息處理系統(tǒng)的性能。而基于平行語(yǔ)料庫(kù)的方法對(duì)多語(yǔ)言文本做到語(yǔ)義標(biāo)引,不僅可以解決一詞多義和一義多詞問(wèn)題,而且可以很好地解決語(yǔ)言鴻溝問(wèn)題,是一種非常有潛力的研究方法。但是這種方法也有其與生俱來(lái)的不足,它依賴于大規(guī)模的平行語(yǔ)料庫(kù),而大規(guī)模非受限領(lǐng)域的平行語(yǔ)料庫(kù)的很難獲得的。將兩種方法有機(jī)地結(jié)合起來(lái)是一個(gè)非常有潛力的研究方向。基于這樣的思想,我們提出了基于準(zhǔn)文本平行語(yǔ)料庫(kù)的多語(yǔ)言隱含語(yǔ)義標(biāo)引的多語(yǔ)言文本信息處理核心機(jī)制。其基本思想是首先利用雙語(yǔ)詞典,結(jié)合基于目標(biāo)語(yǔ)言詞語(yǔ)統(tǒng)計(jì)信息的譯詞選擇技術(shù)以及基于一定規(guī)模的雙語(yǔ)平行語(yǔ)料的多語(yǔ)言短語(yǔ)對(duì)應(yīng)的獲取技術(shù),自動(dòng)地建造大規(guī)模的多語(yǔ)言準(zhǔn)文本平行語(yǔ)料庫(kù)然后在多語(yǔ)言準(zhǔn)平行語(yǔ)料庫(kù)基礎(chǔ)上通過(guò)技術(shù)獲取多語(yǔ)言詞語(yǔ)之間的語(yǔ)義關(guān)系,從而對(duì)多語(yǔ)言文本做出語(yǔ)義標(biāo)引。我們這里稱準(zhǔn)文本平行語(yǔ)料庫(kù),指的是經(jīng)過(guò)譯詞選擇的目標(biāo)語(yǔ)言文本不是一般意義上的文本,它只是詞語(yǔ)的堆積,不是由真正的句子構(gòu)成。幸運(yùn)的是,面向于信息檢索等任務(wù)的技術(shù)并不需要嚴(yán)格的平行語(yǔ)料,準(zhǔn)平行語(yǔ)料也可以為它提供充足的多語(yǔ)言詞語(yǔ)關(guān)聯(lián)知識(shí)?;诘亩嗾Z(yǔ)言文本信息處理框架多語(yǔ)言文本信息處理是中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室的重要研究方向之一。目前的主要研究?jī)?nèi)容是多語(yǔ)言文本信息處理的核心技術(shù)基于準(zhǔn)文本平行語(yǔ)料庫(kù)的多語(yǔ)言隱含語(yǔ)義標(biāo)引及其在多語(yǔ)言文本過(guò)濾、多語(yǔ)言話題偵別和跟蹤領(lǐng)域的應(yīng)用。目標(biāo)是通過(guò)信息檢索技術(shù)、自然語(yǔ)言處理技術(shù)、機(jī)器翻譯技術(shù)的有機(jī)融合,帶動(dòng)多語(yǔ)言信息處理技術(shù)的提升。我們的多語(yǔ)言文本信息處理的框架如圖所示。圖多語(yǔ)言文本信息處理的框架其中是多語(yǔ)言文本信息處理框架的核心技術(shù)。譯詞選擇技術(shù)多語(yǔ)言準(zhǔn)文本對(duì)齊語(yǔ)料庫(kù)的建立、多語(yǔ)言多詞基本語(yǔ)言單元的識(shí)別技術(shù)和短語(yǔ)對(duì)齊技術(shù)是保證實(shí)現(xiàn)的外圍技術(shù)。多語(yǔ)言文本聚類(lèi)技術(shù)、文本分類(lèi)技術(shù)和文本檢索技術(shù)本身是多語(yǔ)言文本信息處理中的一些應(yīng)用,同時(shí)又是實(shí)現(xiàn)多語(yǔ)言文本過(guò)濾、多語(yǔ)言話題偵別和跟蹤的支撐技術(shù)。我們希望以研究和實(shí)現(xiàn)為起點(diǎn),以它的需求帶動(dòng)譯詞選擇技術(shù)、多語(yǔ)言多詞基本語(yǔ)言單元的識(shí)別技術(shù)和短語(yǔ)對(duì)齊技術(shù)的研究在實(shí)現(xiàn)多語(yǔ)言信息處理框架的內(nèi)核之后,帶動(dòng)多語(yǔ)言文本聚類(lèi)技術(shù)、文本分類(lèi)技術(shù)和文本檢索技術(shù)、多語(yǔ)言文本過(guò)濾、多語(yǔ)言事件偵別和跟蹤等多種應(yīng)用的生長(zhǎng)。以下介紹圍繞多語(yǔ)言文本信息處理的框架,我們所做的一些主要的工作。多語(yǔ)言隱含語(yǔ)義標(biāo)引核心技術(shù)以下分別從核心技術(shù)以及支撐它的外圍技術(shù)一譯詞選擇技術(shù)、多語(yǔ)言多詞基本語(yǔ)言單元的識(shí)別技術(shù)和短語(yǔ)對(duì)齊技術(shù)等方面進(jìn)行介紹。、的核心技術(shù)將用于多語(yǔ)言信息處理有兩個(gè)難點(diǎn)如何提高在信息處理中的性能花費(fèi)比、如何實(shí)現(xiàn)多語(yǔ)言隱含語(yǔ)義標(biāo)引如何提高在信息處理中的性能花費(fèi)比將稀疏的向量轉(zhuǎn)化為稠密的向量,如果稀疏向量只有兩個(gè)元素在信息檢索領(lǐng)域是很典型的,而稠密向量有個(gè)元素研究人員的實(shí)驗(yàn)證明,對(duì)于信息檢索來(lái)說(shuō),維的標(biāo)引效果是最好的。,則標(biāo)引時(shí)間花費(fèi)代價(jià)是很大的,而時(shí)間效率是信息處理的一個(gè)重要指標(biāo)。因此,將用于信息處理中的關(guān)鍵問(wèn)題是如何以最小的時(shí)間代價(jià)和計(jì)算代價(jià)獲得最好的標(biāo)引效果如何實(shí)現(xiàn)多語(yǔ)言隱含語(yǔ)義標(biāo)弓除了本身的問(wèn)題外,的另外一個(gè)問(wèn)題是語(yǔ)言鴻溝問(wèn)題。平行語(yǔ)料庫(kù)可以為這個(gè)問(wèn)題提供信息來(lái)源。問(wèn)題是大規(guī)模的領(lǐng)域非受限的多語(yǔ)平行語(yǔ)料庫(kù)是不容易得到的。另一方面,信息檢索、文本分類(lèi)和文本聚類(lèi)等問(wèn)題并不象機(jī)器翻譯一樣嚴(yán)格考慮詞語(yǔ)之間的句法關(guān)系和句子結(jié)構(gòu),可以只考慮詞語(yǔ)之間的語(yǔ)義聯(lián)系,因此可以不考慮詞語(yǔ)之間的順序問(wèn)題。在這個(gè)思想下,我們?cè)谠凑Z(yǔ)言文本的基礎(chǔ)上根據(jù)譯詞選擇技術(shù)構(gòu)造目標(biāo)語(yǔ)言的譯文嚴(yán)格的說(shuō)不是譯文,只是進(jìn)行了譯詞選擇的文本,這樣源語(yǔ)言文本和它的依次選擇文本構(gòu)成“多語(yǔ)言準(zhǔn)文本平行語(yǔ)料庫(kù)”。只要有大規(guī)模的源語(yǔ)言
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 防疫兒歌考試題及答案
- 裝修公司裝修合同范本
- 口腔門(mén)診承包合同協(xié)議書(shū)
- 酒店盒飯合同協(xié)議書(shū)下載
- 紅娘合同協(xié)議書(shū)
- 婚紗店合同協(xié)議書(shū)
- 鋼材銷(xiāo)售合同協(xié)議書(shū)
- 加盟減肥合同協(xié)議書(shū)
- 解除洗滌合同協(xié)議書(shū)范本
- 協(xié)議書(shū)合同無(wú)效
- 少先隊(duì)輔導(dǎo)員技能大賽考試題庫(kù)300題(含答案)
- 2024年山東青島第三十九中學(xué)化學(xué)自招試卷試題(含答案詳解)
- 2024年保密教育培訓(xùn)考試(題目和答案)
- DL∕T 1254-2013 差動(dòng)電阻式監(jiān)測(cè)儀器鑒定技術(shù)規(guī)程
- 《埋地塑料排水管道工程技術(shù)規(guī)程》CJJ143-2010
- (正式版)CB∕T 4557-2024 船舶行業(yè)企業(yè)勞動(dòng)防護(hù)用品配備要求
- 足浴場(chǎng)所衛(wèi)生管理要求
- 年度采購(gòu)合同框架協(xié)議
- DL-T5440-2020重覆冰架空輸電線路設(shè)計(jì)技術(shù)規(guī)程
- 中藥藥理學(xué)實(shí)驗(yàn)講義2
- 14J936變形縫建筑構(gòu)造
評(píng)論
0/150
提交評(píng)論