![淺談中朝韓在語(yǔ)言處理中的問(wèn)題_第1頁(yè)](http://file4.renrendoc.com/view/ad2615dd06dad3024182cee1d89dcbf5/ad2615dd06dad3024182cee1d89dcbf51.gif)
![淺談中朝韓在語(yǔ)言處理中的問(wèn)題_第2頁(yè)](http://file4.renrendoc.com/view/ad2615dd06dad3024182cee1d89dcbf5/ad2615dd06dad3024182cee1d89dcbf52.gif)
![淺談中朝韓在語(yǔ)言處理中的問(wèn)題_第3頁(yè)](http://file4.renrendoc.com/view/ad2615dd06dad3024182cee1d89dcbf5/ad2615dd06dad3024182cee1d89dcbf53.gif)
![淺談中朝韓在語(yǔ)言處理中的問(wèn)題_第4頁(yè)](http://file4.renrendoc.com/view/ad2615dd06dad3024182cee1d89dcbf5/ad2615dd06dad3024182cee1d89dcbf54.gif)
![淺談中朝韓在語(yǔ)言處理中的問(wèn)題_第5頁(yè)](http://file4.renrendoc.com/view/ad2615dd06dad3024182cee1d89dcbf5/ad2615dd06dad3024182cee1d89dcbf55.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
淺談中朝韓在語(yǔ)言處理中的問(wèn)題
1保護(hù)計(jì)算機(jī)間的交流與其他學(xué)科一樣,計(jì)算語(yǔ)言研究有兩個(gè)層次:基礎(chǔ)研究和應(yīng)用研究。基礎(chǔ)研究的目的是發(fā)現(xiàn)語(yǔ)言的內(nèi)在規(guī)律、探索語(yǔ)言理解和生成的計(jì)算方法、建設(shè)語(yǔ)言信息處理的基礎(chǔ)資源;而應(yīng)用研究則在應(yīng)用目標(biāo)的驅(qū)動(dòng)下,根據(jù)社會(huì)的實(shí)際需要,設(shè)計(jì)和開(kāi)發(fā)實(shí)用的語(yǔ)言信息處理系統(tǒng)。自然語(yǔ)言處理的應(yīng)用目標(biāo)是使人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行交流。具體說(shuō),是建立各種處理自然語(yǔ)言的計(jì)算機(jī)應(yīng)用軟件系統(tǒng),例如,機(jī)器翻譯、自然語(yǔ)言理解、語(yǔ)音自動(dòng)識(shí)別與合成、文字自動(dòng)識(shí)別、計(jì)算機(jī)輔助教學(xué)、信息檢索、文本自動(dòng)分類(lèi)、自動(dòng)文摘,文本信息提取、互聯(lián)網(wǎng)上的智能搜索,以及各種電子詞典和術(shù)語(yǔ)數(shù)據(jù)庫(kù)。朝鮮語(yǔ)是中、朝、韓三國(guó)使用的跨境語(yǔ)言,在中國(guó)和朝鮮稱(chēng)作朝鮮語(yǔ),在韓國(guó)稱(chēng)作韓國(guó)語(yǔ)。三者在語(yǔ)音、詞匯和語(yǔ)法方面都存在一定的差異。對(duì)于朝鮮語(yǔ)的自然語(yǔ)言處理,中、朝、韓三國(guó)都分別進(jìn)行了研究,但進(jìn)度不一。筆者根據(jù)相關(guān)研究資料總結(jié)了韓國(guó)、朝鮮及中國(guó)在朝鮮語(yǔ)自然語(yǔ)言處理基礎(chǔ)研究和應(yīng)用研究方面的成果,以及韓國(guó)各大重要自然語(yǔ)言處理實(shí)驗(yàn)室的研究成果和重要課題;總結(jié)了朝鮮自然語(yǔ)言處理研究方面的基礎(chǔ)語(yǔ)言學(xué)理論探索;最后總結(jié)我國(guó)在朝鮮語(yǔ)自然語(yǔ)言處理領(lǐng)域所取得的一些進(jìn)展,并結(jié)合韓國(guó)、朝鮮所取得的研究成果,展望了我國(guó)朝鮮語(yǔ)自然語(yǔ)言處理研究的發(fā)展前景。2韓國(guó)的研究2.1語(yǔ)言學(xué)研究多年來(lái)韓國(guó)自然語(yǔ)言處理發(fā)展的特點(diǎn)是,進(jìn)行了一些基礎(chǔ)理論研究,應(yīng)用型研究和實(shí)用系統(tǒng)開(kāi)發(fā)投入相對(duì)較多,也取得了一些成果。研究力量比較集中的領(lǐng)域有:文本信息檢索、文獻(xiàn)自動(dòng)分類(lèi)、自動(dòng)文摘、語(yǔ)音自動(dòng)識(shí)別與合成、機(jī)器翻譯,還有文本信息提取和過(guò)濾。另外,語(yǔ)言資源的建設(shè)和基于語(yǔ)料庫(kù)的語(yǔ)言分析方法也受到了格外關(guān)注,取得了比較快的進(jìn)展。在面向自然語(yǔ)言處理應(yīng)用的語(yǔ)言學(xué)研究方面,韓國(guó)方面的研究主要集中在形態(tài)素分析、詞性標(biāo)注、句法分析和語(yǔ)義分析等方面。形態(tài)素分析的研究起步較早,高麗大學(xué)自然語(yǔ)言處理研究實(shí)驗(yàn)室通過(guò)構(gòu)建詞綴詞典和制定詞綴規(guī)則體制來(lái)進(jìn)行形態(tài)素分析,構(gòu)建了韓國(guó)語(yǔ)形態(tài)分析模型。隨著網(wǎng)絡(luò)的發(fā)展,開(kāi)發(fā)了服務(wù)于網(wǎng)絡(luò)搜索引擎的形態(tài)素分析器和加權(quán)模塊,實(shí)現(xiàn)了網(wǎng)絡(luò)環(huán)境下的形態(tài)素分析。延世大學(xué)開(kāi)發(fā)了國(guó)語(yǔ)形態(tài)素分析器和詞性標(biāo)注器。梨花女子大學(xué)開(kāi)發(fā)了形態(tài)素分析器MACH1.0,它的分析速度是一般形態(tài)素分析器的10倍以上。另外,釜山大學(xué)和浦項(xiàng)工業(yè)大學(xué)等許多機(jī)構(gòu)和學(xué)者都進(jìn)行過(guò)相關(guān)研究。句法分析方面,韓國(guó)主要在基本句識(shí)別、組塊識(shí)別、依存分析、短語(yǔ)結(jié)構(gòu)分析等方面進(jìn)行了大量研究,早期的研究都是以句子為單位,組塊識(shí)別和短語(yǔ)結(jié)構(gòu)分析是近年來(lái)關(guān)注的焦點(diǎn),韓國(guó)語(yǔ)名詞組塊的研究以基本名詞短語(yǔ)的相關(guān)研究為主。語(yǔ)義分析方面,韓國(guó)主要在詞匯消歧、語(yǔ)義角色標(biāo)注、命名實(shí)體識(shí)別、傾向性分析等方面開(kāi)展研究,對(duì)語(yǔ)義的分析往往要借助于語(yǔ)義詞典和概念詞典,其中高麗大學(xué)自然語(yǔ)言處理研究實(shí)驗(yàn)室構(gòu)建了韓國(guó)語(yǔ)K-概念網(wǎng)絡(luò),這是一個(gè)面向韓國(guó)語(yǔ)信息處理提出來(lái)的語(yǔ)義和概念體系,該理論建立了一個(gè)計(jì)算機(jī)可操作的符號(hào)體系。2.2韓國(guó)的信息文化建設(shè)自1998年起,韓國(guó)文化觀光部同國(guó)立國(guó)語(yǔ)研究院及相關(guān)學(xué)界自1998年起推進(jìn)的韓國(guó)語(yǔ)信息化項(xiàng)目——《21世紀(jì)世宗計(jì)劃》是《韓國(guó)語(yǔ)信息化中長(zhǎng)期計(jì)劃》的環(huán)節(jié)之一,其主要目的是奠定語(yǔ)言信息文化的基礎(chǔ)并構(gòu)建相關(guān)資源,建設(shè)以韓國(guó)語(yǔ)言和文字為基礎(chǔ)的信息化社會(huì),提升自身在國(guó)家間信息化競(jìng)爭(zhēng)中的主導(dǎo)權(quán),自主體現(xiàn)韓國(guó)語(yǔ)的先進(jìn)信息文化。該計(jì)劃分為韓國(guó)語(yǔ)信息基礎(chǔ)構(gòu)建和信息化環(huán)境建設(shè)兩個(gè)部分。其中韓國(guó)語(yǔ)信息基礎(chǔ)構(gòu)建項(xiàng)目分為基礎(chǔ)語(yǔ)料庫(kù)資源建設(shè)、特殊語(yǔ)料庫(kù)資源建設(shè)、電子詞典開(kāi)發(fā)、民族語(yǔ)言信息化、專(zhuān)業(yè)術(shù)語(yǔ)標(biāo)準(zhǔn)化等內(nèi)容;韓國(guó)語(yǔ)信息化環(huán)境建設(shè)分為非標(biāo)準(zhǔn)化文字登入、信息化人才培養(yǎng)、字庫(kù)開(kāi)發(fā)普及等內(nèi)容。經(jīng)過(guò)10年的建設(shè),基本達(dá)到了預(yù)期目標(biāo),大大夯實(shí)了韓國(guó)語(yǔ)言信息化的基礎(chǔ),為進(jìn)一步的深化研究創(chuàng)造了良好條件。另外,隨著本體研究的升溫,很多單位開(kāi)始了這方面的研究,其中韓國(guó)科學(xué)技術(shù)院(KAIST)專(zhuān)業(yè)術(shù)語(yǔ)語(yǔ)言工學(xué)研究中心(KORTERM,目前該機(jī)構(gòu)更名為“語(yǔ)義Web技術(shù)研究中心”)在構(gòu)建大規(guī)模通用雙語(yǔ)詞典和專(zhuān)業(yè)領(lǐng)域術(shù)語(yǔ)雙語(yǔ)詞典的基礎(chǔ)上,構(gòu)建了韓—日—中多語(yǔ)種概念詞網(wǎng)(CoreNet);蔚山大學(xué)自然語(yǔ)言處理研究室、釜山大學(xué)韓國(guó)語(yǔ)信息處理研究室等多家單位正在構(gòu)建韓國(guó)語(yǔ)詞網(wǎng)。目前浦項(xiàng)工業(yè)大學(xué)KLE實(shí)驗(yàn)室、語(yǔ)義網(wǎng)絡(luò)研究中心和KAIST聯(lián)手展開(kāi)的“國(guó)家信息本體結(jié)構(gòu)技術(shù)發(fā)展計(jì)劃”是目前有關(guān)本體研究的重要在研項(xiàng)目。2.3韓國(guó)的研究與開(kāi)發(fā)在韓國(guó)語(yǔ)信息處理技術(shù)的支撐下,各種應(yīng)用性研究和實(shí)用系統(tǒng)開(kāi)發(fā)得到了迅速的發(fā)展。機(jī)器翻譯方面,韓國(guó)在該領(lǐng)域的研究始于20世紀(jì)80年代,最初的研究集中在韓日機(jī)器翻譯方向。20世紀(jì)80年代中期,首爾大學(xué)開(kāi)發(fā)出了韓英機(jī)器翻譯系統(tǒng)KEMTS(Korean-EnglishMachineTranslationSystem),從此,韓英機(jī)器翻譯就成為了韓國(guó)語(yǔ)信息處理領(lǐng)域的主要研究方向。1988年開(kāi)始,韓國(guó)系統(tǒng)工學(xué)研究所和韓國(guó)科學(xué)技術(shù)院人工智能研究中心聯(lián)合開(kāi)發(fā)了MATES/EK(Machine-AidedTranslationEnvironmentforEnglish-to-Korean)系統(tǒng),該系統(tǒng)采用了間接轉(zhuǎn)化的方法作為系統(tǒng)構(gòu)建的主要方法,于1992年完成。此外,1991年韓國(guó)科學(xué)技術(shù)院電子系與日本NEC共同開(kāi)發(fā)了英韓以及日韓機(jī)器翻譯系統(tǒng)。與此同時(shí),首爾大學(xué)計(jì)算機(jī)系也與IBM展開(kāi)合作,共同開(kāi)發(fā)了英韓機(jī)器翻譯系統(tǒng),該系統(tǒng)的測(cè)試版于1991年完成。目前很多韓國(guó)研究機(jī)構(gòu)都在進(jìn)行相關(guān)方面的研究。此后,韓國(guó)知識(shí)產(chǎn)權(quán)局(KIPO)推出了比較成熟的專(zhuān)利文獻(xiàn)機(jī)器翻譯工具K-PION(韓國(guó)專(zhuān)利信息在線服務(wù)系統(tǒng)),韓國(guó)電子通信研究所(ETRI)的評(píng)估結(jié)果顯示,該工具的整體準(zhǔn)確率達(dá)到了80%以上。目前,韓國(guó)在該領(lǐng)域的研究和開(kāi)發(fā)主要有ETRI投資研發(fā)的韓英中日多國(guó)語(yǔ)自動(dòng)翻譯系統(tǒng)和浦項(xiàng)工業(yè)大學(xué)研制的韓中/中韓機(jī)器翻譯系統(tǒng)。韓國(guó)語(yǔ)信息處理領(lǐng)域的另外一個(gè)熱點(diǎn)就是語(yǔ)音識(shí)別,其關(guān)注點(diǎn)主要集中在連續(xù)語(yǔ)音識(shí)別、電話語(yǔ)音識(shí)別、雜音處理技術(shù)及核心詞摘取技術(shù)等方面。韓國(guó)科學(xué)技術(shù)院語(yǔ)音處理實(shí)驗(yàn)室研制的語(yǔ)音識(shí)別系統(tǒng)對(duì)韓國(guó)語(yǔ)語(yǔ)音的識(shí)別率達(dá)到96.7%,但單詞的規(guī)模限制在3064以?xún)?nèi)。由Sensory公司研制的ICRSC-164系統(tǒng)是韓國(guó)國(guó)內(nèi)識(shí)別率最高的語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)可以用于識(shí)別非特定話者的語(yǔ)音或特定話者的語(yǔ)音、合成語(yǔ)音及音樂(lè)等方面。目前高麗大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室也在進(jìn)行語(yǔ)音識(shí)別方面的相關(guān)研究,旨在開(kāi)發(fā)出適用于移動(dòng)環(huán)境的韓國(guó)語(yǔ)語(yǔ)音技術(shù)。文字識(shí)別同樣也備受研究者的關(guān)注。韓國(guó)文字的識(shí)別困難主要可以概括為以下四個(gè)方面:(1)多種文字混用;(2)字形相似;(3)字體、筆跡繁多;(4)分詞本身難度較大。韓國(guó)科學(xué)技術(shù)院人工智能研究室針對(duì)如何提高文字識(shí)別系統(tǒng)的準(zhǔn)確率問(wèn)題,提出了結(jié)合上下文信息進(jìn)行文字識(shí)別的可能性篩選方法,并構(gòu)建了以N-gram為基礎(chǔ)的語(yǔ)言模型。通過(guò)實(shí)驗(yàn),得出了可供選擇的拆分語(yǔ)素越多、識(shí)別率越高的結(jié)論。另外,針對(duì)印刷體的文字識(shí)別系統(tǒng)OCR已經(jīng)投入市場(chǎng),但市場(chǎng)滿(mǎn)意度偏低。目前屬于離線識(shí)別體系的文字識(shí)別系統(tǒng)正在研制中。3朝鮮的語(yǔ)言信息處理由于眾所周知的原因,我們很難獲取朝鮮在自然語(yǔ)言處理研究方面的第一手資料。筆者的資料主要源于在中國(guó)召開(kāi)的中朝韓三國(guó)“Korean計(jì)算機(jī)處理國(guó)際學(xué)術(shù)會(huì)議”論文集(1994~2004年)以及韓國(guó)學(xué)者的一些介紹。朝鮮的主要研究機(jī)構(gòu)有朝鮮社會(huì)科學(xué)院(KCC)、平壤計(jì)算機(jī)中心、金日成綜合大學(xué)等單位。1984年金日成訪問(wèn)歐洲之后,朝鮮才開(kāi)始重視語(yǔ)言信息處理技術(shù)。1988年,朝鮮啟動(dòng)科學(xué)技術(shù)研發(fā)3年計(jì)劃,開(kāi)始向信息科學(xué)和信息產(chǎn)業(yè)領(lǐng)域注入資金并推動(dòng)相關(guān)建設(shè)。目前語(yǔ)言信息處理已經(jīng)成為朝鮮的“朝陽(yáng)產(chǎn)業(yè)”,非常受政府重視。朝文信息處理的目標(biāo)是在信息化時(shí)代的大背景下實(shí)現(xiàn)朝鮮語(yǔ)的計(jì)算機(jī)處理?;A(chǔ)研究方面,朝鮮對(duì)于自然語(yǔ)言處理(計(jì)算語(yǔ)言學(xué))的研究主要集中在面向自然語(yǔ)言處理的語(yǔ)言學(xué)研究方面,研究?jī)?nèi)容主要包括朝文文字的構(gòu)成特點(diǎn)和形態(tài)特征、句法結(jié)構(gòu)特點(diǎn)和構(gòu)造規(guī)則及語(yǔ)義表達(dá)形式等,同時(shí)也對(duì)機(jī)器翻譯、信息檢索等技術(shù)有所涉及。語(yǔ)言資源的建設(shè)方面主要在語(yǔ)料庫(kù)建設(shè)方面有一定的進(jìn)展。近年來(lái)朝鮮的語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展迅速,并且依據(jù)相關(guān)理論知識(shí)構(gòu)建了生語(yǔ)料庫(kù)、標(biāo)記語(yǔ)料庫(kù),進(jìn)而通過(guò)語(yǔ)料庫(kù)獲得形態(tài)知識(shí)、詞性知識(shí)、句法知識(shí)和語(yǔ)義知識(shí)。此外,朝鮮也在積極建設(shè)各種機(jī)器詞典,逐步完善基礎(chǔ)資源建設(shè)。應(yīng)用研究方面,在文字處理和人工智能的軟件技術(shù)上具有一定的水平,在智能檢索、自然語(yǔ)言處理系統(tǒng)、醫(yī)療信息系統(tǒng)的開(kāi)發(fā)等方面成績(jī)突出。1994年朝鮮開(kāi)發(fā)的“昌德文字處理器”與韓國(guó)的訓(xùn)民正音文字處理器相比毫不遜色,其開(kāi)發(fā)的多語(yǔ)種文字編輯器可用于朝鮮語(yǔ)、英語(yǔ)、俄語(yǔ)和葡萄牙語(yǔ)的編輯。在2000年朝鮮電腦中心峰會(huì)上,朝鮮計(jì)算機(jī)中心開(kāi)發(fā)的語(yǔ)音識(shí)別系統(tǒng)已具有很高的準(zhǔn)確率。朝鮮科學(xué)院開(kāi)發(fā)了“鷹”朝鮮文字自動(dòng)識(shí)別系統(tǒng)和“彩虹”計(jì)算機(jī)輔助朝英翻譯系統(tǒng);平壤信息中心開(kāi)發(fā)了“檀君”朝鮮語(yǔ)預(yù)處理系統(tǒng)、識(shí)別率高達(dá)95%的“Insik”朝鮮語(yǔ)自動(dòng)識(shí)別系統(tǒng)以及“Tamjing”朝日機(jī)器翻譯系統(tǒng)。4中國(guó)研究4.1編碼編碼方案為推動(dòng)我國(guó)朝鮮語(yǔ)信息處理技術(shù)的發(fā)展,我國(guó)一直致力于朝鮮語(yǔ)信息技術(shù)標(biāo)準(zhǔn)化的研究工作。1977年,國(guó)務(wù)院決定成立東三省朝鮮語(yǔ)文工作協(xié)調(diào)小組(三協(xié)),統(tǒng)一管理中國(guó)朝鮮語(yǔ)文工作,在“三協(xié)”的指導(dǎo)下,我國(guó)制定了朝鮮語(yǔ)規(guī)范統(tǒng)一方案,這為朝鮮語(yǔ)計(jì)算機(jī)輸入標(biāo)準(zhǔn)化提供了保障。1989年,延邊電子信息中心設(shè)計(jì)完成了國(guó)家標(biāo)準(zhǔn)《信息交換用朝鮮文字編碼字符集》的編寫(xiě)任務(wù)。此外,中國(guó)朝鮮語(yǔ)信息學(xué)會(huì)還同朝鮮及韓國(guó)相關(guān)機(jī)構(gòu)合作完成了《基于ISO2382標(biāo)準(zhǔn)的英朝韓日信息技術(shù)術(shù)語(yǔ)詞典》的編纂。朝鮮語(yǔ)作為一種跨境語(yǔ)言,中國(guó)朝鮮語(yǔ)、朝鮮的朝鮮語(yǔ)、韓國(guó)的韓國(guó)語(yǔ)三者之間編碼各不相同,韓國(guó)在2011年6月提出三套輸入編碼方案,朝鮮在2009年也發(fā)布了朝鮮語(yǔ)數(shù)字鍵盤(pán)布局標(biāo)準(zhǔn),與韓國(guó)提出三種方案差異也很大。針對(duì)朝鮮、韓國(guó)制定的兩個(gè)標(biāo)準(zhǔn)4種布局方案,經(jīng)我國(guó)朝鮮文信息技術(shù)專(zhuān)家分析后認(rèn)為,無(wú)論是從朝鮮語(yǔ)正音正字法原則,還是從朝鮮語(yǔ)基本語(yǔ)素角度看,4種方案均存在較大缺陷。目前,我國(guó)正根據(jù)國(guó)內(nèi)朝鮮語(yǔ)正音正字法及相關(guān)朝鮮語(yǔ)言文字規(guī)范制定科學(xué)合理的朝鮮文信息技術(shù)標(biāo)準(zhǔn)。4.2優(yōu)化了語(yǔ)義編碼機(jī)制,初步構(gòu)建了俄語(yǔ)有體系語(yǔ)言資源主要指語(yǔ)料庫(kù)和語(yǔ)言知識(shí)庫(kù)。關(guān)于語(yǔ)言資源建設(shè)的基礎(chǔ)研究包括語(yǔ)料的標(biāo)注、語(yǔ)料的分析和處理,以及用于語(yǔ)言資源建設(shè)的各種字表、詞表和規(guī)范、標(biāo)準(zhǔn)。語(yǔ)料庫(kù)方面,延邊大學(xué)朝鮮韓國(guó)學(xué)院在教育部重點(diǎn)項(xiàng)目支持下完成了“中國(guó)朝鮮語(yǔ)語(yǔ)料庫(kù)”的建設(shè),該語(yǔ)料庫(kù)依據(jù)通用性、描述性、實(shí)用性和抽樣性等4個(gè)原則,分別構(gòu)建了3個(gè)庫(kù),即文本語(yǔ)料庫(kù),平行語(yǔ)料庫(kù)和病句、中介語(yǔ)語(yǔ)料庫(kù)。在語(yǔ)料庫(kù)加工和規(guī)范方面,首先進(jìn)行了總體規(guī)劃,制定了統(tǒng)一的數(shù)據(jù)格式和編碼標(biāo)準(zhǔn),并根據(jù)中國(guó)朝鮮語(yǔ)的特點(diǎn)開(kāi)發(fā)了詞性自動(dòng)標(biāo)注系統(tǒng),實(shí)現(xiàn)了文本語(yǔ)料庫(kù)的詞性標(biāo)注加工。同時(shí),還借助中國(guó)朝鮮族的地域優(yōu)勢(shì),初步構(gòu)建了“中—朝—韓”三國(guó)的語(yǔ)料庫(kù)資源共享機(jī)制,集成了朝鮮、韓國(guó)語(yǔ)料庫(kù)及相關(guān)工具??傮w來(lái)看,該語(yǔ)料庫(kù)設(shè)計(jì)規(guī)范,標(biāo)準(zhǔn)統(tǒng)一,建設(shè)規(guī)模超過(guò)了預(yù)定目標(biāo),是我國(guó)第一個(gè)朝鮮語(yǔ)語(yǔ)料庫(kù)。筆者所在單位朝鮮語(yǔ)信息處理研究團(tuán)隊(duì)長(zhǎng)期以來(lái)依靠語(yǔ)言學(xué)優(yōu)勢(shì),在國(guó)家社科基金、國(guó)家自然科學(xué)基金以及本系統(tǒng)基金項(xiàng)目的支持下,面向語(yǔ)言信息處理,深入挖掘語(yǔ)言?xún)?nèi)在規(guī)律,經(jīng)過(guò)3個(gè)階段的努力設(shè)計(jì)完成了“朝鮮語(yǔ)動(dòng)詞句法語(yǔ)義層次框架”,并構(gòu)建了規(guī)模達(dá)5000個(gè)朝鮮語(yǔ)形態(tài)動(dòng)詞(19200余條句法語(yǔ)義項(xiàng))的“現(xiàn)代朝鮮語(yǔ)動(dòng)詞句法語(yǔ)義信息詞典”。該框架以動(dòng)詞為核心整合了句法、語(yǔ)義等信息,實(shí)現(xiàn)了句法語(yǔ)義信息的一體化描寫(xiě)。目前以此框架理論為基礎(chǔ)的語(yǔ)義角色標(biāo)注、朝漢機(jī)器(輔助)翻譯研究正在有計(jì)劃地展開(kāi)。另外,還在韓國(guó)科學(xué)技術(shù)院術(shù)語(yǔ)工學(xué)研究中心與北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所共同研究的國(guó)際合作項(xiàng)目“英中韓三國(guó)語(yǔ)詞匯語(yǔ)義網(wǎng)的構(gòu)建”基礎(chǔ)上,充分考慮到構(gòu)建多語(yǔ)種詞匯語(yǔ)義網(wǎng)的難度,利用CCD(中文概念詞典)以及英韓、漢韓等雙語(yǔ)詞典資源,采用半自動(dòng)方式構(gòu)建了“基于WordNet的英中韓多語(yǔ)種詞匯語(yǔ)義網(wǎng)”。在第一次匹配基礎(chǔ)上,通過(guò)專(zhuān)家干預(yù)方式實(shí)現(xiàn)了中英韓多語(yǔ)種詞匯語(yǔ)義網(wǎng)中韓語(yǔ)名詞概念的精確匹配,匹配度達(dá)到了95.6%,共計(jì)填充了121032個(gè)韓語(yǔ)詞語(yǔ)。該語(yǔ)義網(wǎng)的構(gòu)建可以大大提高多語(yǔ)種信息檢索、文本分類(lèi)及翻譯的精確度。4.2中英韓機(jī)譯系統(tǒng)東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室針對(duì)朝鮮語(yǔ)信息處理做了不少研究,具體有:中韓多國(guó)語(yǔ)機(jī)器翻譯系統(tǒng)(與韓國(guó)浦項(xiàng)工業(yè)大學(xué)合作,1995~2000年)、漢韓機(jī)器翻譯系統(tǒng)(科學(xué)技術(shù)部,國(guó)家外字0016)、中英韓多國(guó)語(yǔ)機(jī)譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)等。2008年筆者所在朝鮮語(yǔ)信息處理研究團(tuán)隊(duì)在完成大規(guī)模朝漢雙語(yǔ)詞典的基礎(chǔ)上,基于實(shí)例、片段翻譯以及翻譯記憶技術(shù)開(kāi)發(fā)了面向領(lǐng)域的朝漢輔助翻譯系統(tǒng)。5俄語(yǔ)相關(guān)信息化研究的缺失這些年來(lái),我國(guó)在朝鮮語(yǔ)自然語(yǔ)言處理研究方面還屬于發(fā)展階段,相關(guān)研究相對(duì)于韓國(guó)乃至朝鮮還比較滯后。目前朝鮮語(yǔ)語(yǔ)言資源建設(shè)方面還沒(méi)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度太陽(yáng)能路燈機(jī)電安裝與照明合同
- 2025年度施工現(xiàn)場(chǎng)安全事故應(yīng)急處理合同
- 2025年度老舊小區(qū)改造工程設(shè)計(jì)與施工一體化合同范本
- 2025年度貨運(yùn)車(chē)輛交通事故責(zé)任保險(xiǎn)合同范本
- 用戶(hù)體驗(yàn)在網(wǎng)絡(luò)直播行業(yè)中的重要性
- 2025年度國(guó)際貨運(yùn)代理合同標(biāo)的跨境物流解決方案
- 2025年度港口堆場(chǎng)租賃及裝卸服務(wù)協(xié)議
- 校園科學(xué)教育實(shí)踐中的技術(shù)革新
- 2025年度建筑行業(yè)人才培訓(xùn)服務(wù)合同
- 2025年度企業(yè)培訓(xùn)會(huì)場(chǎng)租賃服務(wù)合同
- 江蘇省2023年對(duì)口單招英語(yǔ)試卷及答案
- 易制毒化學(xué)品安全管理制度匯編
- GB/T 35506-2017三氟乙酸乙酯(ETFA)
- GB/T 25784-20102,4,6-三硝基苯酚(苦味酸)
- 特種設(shè)備安全監(jiān)察指令書(shū)填寫(xiě)規(guī)范(特種設(shè)備安全法)參考范本
- 硬筆書(shū)法全冊(cè)教案共20課時(shí)
- 《長(zhǎng)方形的面積》-完整版課件
- PDCA降低I類(lèi)切口感染發(fā)生率
- 工業(yè)企業(yè)現(xiàn)場(chǎng)監(jiān)測(cè)工況核查表
- 沉淀池及排水溝清理記錄表
- 急診急救信息化課件
評(píng)論
0/150
提交評(píng)論