自然語(yǔ)言理解課程設(shè)計(jì)_第1頁(yè)
自然語(yǔ)言理解課程設(shè)計(jì)_第2頁(yè)
自然語(yǔ)言理解課程設(shè)計(jì)_第3頁(yè)
自然語(yǔ)言理解課程設(shè)計(jì)_第4頁(yè)
自然語(yǔ)言理解課程設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

自然語(yǔ)言理解

課程設(shè)計(jì)報(bào)告機(jī)器翻譯系統(tǒng)的分析一、課題分析機(jī)器翻譯(machinetranslation),又稱(chēng)為自動(dòng)翻譯,是利用計(jì)算機(jī)把一種自然源語(yǔ)言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語(yǔ)言的過(guò)程,一般指自然語(yǔ)言之間句子和全文的翻譯。它是自然語(yǔ)言處理(NaturalLanguageProcessing)的一個(gè)分支,與計(jì)算語(yǔ)言學(xué)(ComputationalLinguistics)、自然語(yǔ)言理解(NaturalLanguageUnderstanding)之間存在著密不可分的關(guān)系。機(jī)器翻譯的研究是建立在語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)這3門(mén)學(xué)科的基礎(chǔ)之上的。語(yǔ)言學(xué)家提供適合于計(jì)算機(jī)進(jìn)行加工的詞典和語(yǔ)法規(guī)則,數(shù)學(xué)家把語(yǔ)言學(xué)家提供的材料形式化和代碼化,計(jì)算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計(jì)。缺少上述任何一方面,機(jī)器翻譯就不能實(shí)現(xiàn),機(jī)器翻譯效果的好壞,也完全取決于這3個(gè)方面的共同努力。整個(gè)機(jī)器翻譯的過(guò)程可以分為原文分析、原文譯文轉(zhuǎn)換和譯文生成3個(gè)階段。在具體的機(jī)器翻譯系統(tǒng)中,根據(jù)不同方案的目的和要求,可以將原文譯文轉(zhuǎn)換階段與原文分析階段結(jié)合在一起,而把譯文生成階段獨(dú)立起來(lái),建立相關(guān)分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,原語(yǔ)分析時(shí)要考慮譯語(yǔ)的特點(diǎn),而在譯語(yǔ)生成時(shí)則不考慮原語(yǔ)的特點(diǎn)。在搞多種語(yǔ)言對(duì)一種語(yǔ)言的翻譯時(shí),宜于采用這樣的相關(guān)分析獨(dú)立生成系統(tǒng)。也可以把原文分析階段獨(dú)立起來(lái),把原文譯文轉(zhuǎn)換階段同譯文生成階段結(jié)合起來(lái),建立獨(dú)立分析相關(guān)生成系統(tǒng)。在這樣的系統(tǒng)中,原語(yǔ)分析時(shí)不考慮譯語(yǔ)的特點(diǎn),而在譯語(yǔ)生成時(shí)要考慮原語(yǔ)的特點(diǎn),在搞一種語(yǔ)言對(duì)多種語(yǔ)言的翻譯時(shí),宜于采用這樣的獨(dú)立分析相關(guān)生成系統(tǒng)。還可以把原文分析、原文譯文轉(zhuǎn)換與譯文生成分別獨(dú)立開(kāi)來(lái),建立獨(dú)立分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,分析原語(yǔ)時(shí)不考慮譯語(yǔ)的特點(diǎn),生成譯語(yǔ)時(shí)也不考慮原語(yǔ)的特點(diǎn),原語(yǔ)譯語(yǔ)的差異通過(guò)原文譯文轉(zhuǎn)換來(lái)解決。在搞多種語(yǔ)言對(duì)多種語(yǔ)言的翻譯時(shí),宜于采用這樣的獨(dú)立分析獨(dú)立生成系統(tǒng)。二、內(nèi)外研究進(jìn)展二、內(nèi)外研究進(jìn)展近年來(lái),自然語(yǔ)言處理的研究已經(jīng)成為熱點(diǎn),而機(jī)器翻譯作為自然語(yǔ)言研究領(lǐng)域的一個(gè)重要分支,同時(shí)也是人工智能領(lǐng)域的一個(gè)課題,同樣為大家所關(guān)注。機(jī)器翻譯的研究歷史可以追溯到20世紀(jì)三四十年代。20世紀(jì)30年代初,法國(guó)科學(xué)家G.B.阿爾楚尼提出了用機(jī)器來(lái)進(jìn)行翻譯的想法。1933年,蘇聯(lián)發(fā)明家n.n.特羅揚(yáng)斯基設(shè)計(jì)了把一種語(yǔ)言翻譯成另一種語(yǔ)言的機(jī)器,并在同年9月5日登記了他的發(fā)明;但是,由于30年代技術(shù)水平還很低,他的翻譯機(jī)沒(méi)有制成。1946年,第一臺(tái)現(xiàn)代電子計(jì)算機(jī)ENIAC誕生,隨后不久,信息論的先驅(qū)、美國(guó)科學(xué)家W.Weaver和英國(guó)工程師A.D.Booth在討論電子計(jì)算機(jī)的應(yīng)用范圍時(shí),于1947年提出了利用計(jì)算機(jī)進(jìn)行語(yǔ)言自動(dòng)翻譯的想法。1949年,W.Weaver發(fā)表《翻譯備忘錄》,正式提出機(jī)器翻譯的思想。走過(guò)六十年的風(fēng)風(fēng)雨雨,機(jī)器翻譯經(jīng)歷了一條曲折而漫長(zhǎng)的發(fā)展道路,學(xué)術(shù)界一般將其劃分為如下四個(gè)階段:(1) 開(kāi)創(chuàng)期(1947-1964)1954年,美國(guó)喬治敦大學(xué)(GeorgetownUniversity)在IBM公司協(xié)同下,用IBM-701計(jì)算機(jī)首次完成了英俄機(jī)器翻譯試驗(yàn),向公眾和科學(xué)界展示了機(jī)器翻譯的可行性,從而拉開(kāi)了機(jī)器翻譯研究的序幕。中國(guó)開(kāi)始這項(xiàng)研究也并不晚,早在1956年,國(guó)家就把這項(xiàng)研究列入了全國(guó)科學(xué)工作發(fā)展規(guī)劃,課題名稱(chēng)是“機(jī)器翻譯、自然語(yǔ)言翻譯規(guī)則的建設(shè)和自然語(yǔ)言的數(shù)學(xué)理論”。1957年,中國(guó)科學(xué)院語(yǔ)言研究所與計(jì)算技術(shù)研究所合作開(kāi)展俄漢機(jī)器翻譯試驗(yàn),翻譯了9種不同類(lèi)型的較為復(fù)雜的句子。從20世紀(jì)50年代開(kāi)始到20世紀(jì)60年代前半期,機(jī)器翻譯研究呈不斷上升的趨勢(shì)。美國(guó)和前蘇聯(lián)兩個(gè)超級(jí)大國(guó)出于軍事、政治、經(jīng)濟(jì)目的,均對(duì)機(jī)器翻譯項(xiàng)目提供了大量的資金支持,而歐洲國(guó)家由于地緣政治和經(jīng)濟(jì)的需要也對(duì)機(jī)器翻譯研究給予了相當(dāng)大的重視,機(jī)器翻譯一時(shí)出現(xiàn)熱潮。(2) 受挫期(1964-1975)1964年,為了對(duì)機(jī)器翻譯的研究進(jìn)展作出評(píng)價(jià),美國(guó)科學(xué)院成立了語(yǔ)言自動(dòng)處理咨詢(xún)委員會(huì)(AutomaticLanguageProcessingAdvisoryCommittee,簡(jiǎn)稱(chēng)ALPAC委員會(huì)),開(kāi)始了為期兩年的綜合調(diào)查分析和測(cè)試。1966年11月,該委員會(huì)公布了一個(gè)題為《語(yǔ)言與機(jī)器》的報(bào)告(簡(jiǎn)稱(chēng)ALPAC報(bào)告),該報(bào)告全面否定了機(jī)器翻譯的可行性,并建議停止對(duì)機(jī)器翻譯項(xiàng)目的資金支持。這一報(bào)告的發(fā)表給了正在蓬勃發(fā)展的機(jī)器翻譯當(dāng)頭一棒,機(jī)器翻譯研究陷入了近乎停滯的僵局。(3) 恢復(fù)期(1975-1989)進(jìn)入70年代后,隨著科學(xué)技術(shù)的發(fā)展和各國(guó)科技情報(bào)交流的日趨頻繁,國(guó)與國(guó)之間的語(yǔ)言障礙顯得更為嚴(yán)重,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿(mǎn)足需求,迫切地需要計(jì)算機(jī)來(lái)從事翻譯工作。同時(shí),計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)研究的發(fā)展,特別是計(jì)算機(jī)硬件技術(shù)的大幅度提高以及人工智能在自然語(yǔ)言處理上的應(yīng)用,從技術(shù)層面推動(dòng)了機(jī)器翻譯研究的復(fù)蘇,機(jī)器翻譯項(xiàng)目又開(kāi)始發(fā)展起來(lái),各種實(shí)用的以及實(shí)驗(yàn)的系統(tǒng)被先后推出,例如Weinder系統(tǒng)、EURPOTRA多國(guó)語(yǔ)翻譯系統(tǒng)、TAUM-METEO系統(tǒng)等。而我國(guó)在“十年浩劫”結(jié)束后也重新振作起來(lái),機(jī)器翻譯研究被再次提上日程。“784”工程給予了機(jī)器翻譯研究足夠的重視,80年代中期以后,我國(guó)的機(jī)器翻譯研究發(fā)展進(jìn)一步加快,首先研制成功了KY-1和MT/EC863兩個(gè)英漢機(jī)譯系統(tǒng),表明我國(guó)在機(jī)器翻譯技術(shù)方面取得了長(zhǎng)足的進(jìn)步。(4) 新時(shí)期(1990至今)隨著Internet的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國(guó)際社會(huì)交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿(mǎn)足迅猛增長(zhǎng)的翻譯需求,人們對(duì)于機(jī)器翻譯的需求空前增長(zhǎng),機(jī)器翻譯迎來(lái)了一個(gè)新的發(fā)展機(jī)遇。國(guó)際性的

關(guān)于機(jī)器翻譯研究的會(huì)議頻繁召開(kāi),中國(guó)也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,例如“譯星”、“雅信”、“通譯”、“華建”等。在市場(chǎng)需求的推動(dòng)下,商用機(jī)器翻譯系統(tǒng)邁入了實(shí)用化階段,走進(jìn)了市場(chǎng),來(lái)到了用戶(hù)面前。隨著語(yǔ)言學(xué)理論的發(fā)展、計(jì)算機(jī)技術(shù)的進(jìn)步以及統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域中的廣泛應(yīng)用,人們對(duì)機(jī)器翻譯本身的應(yīng)用背景、目標(biāo)等也有了更加準(zhǔn)確的認(rèn)識(shí),機(jī)器翻譯在此背景下取得了長(zhǎng)足的發(fā)展,基于統(tǒng)計(jì)、基于實(shí)例等新的機(jī)器翻譯方法也都是在這一時(shí)期出現(xiàn),一些機(jī)器翻譯系統(tǒng)也從實(shí)驗(yàn)室走向了市場(chǎng)。在中國(guó),機(jī)器翻譯的研究從50年代開(kāi)始,多家大學(xué)和研究機(jī)構(gòu)先后開(kāi)發(fā)出俄漢、英漢、漢英、日漢、漢日等機(jī)器翻譯系統(tǒng),同時(shí)在漢語(yǔ)的自然語(yǔ)言理解方面做了大量的研究。在看到機(jī)器翻譯研究取得進(jìn)展的同時(shí),我們也知道,由于對(duì)語(yǔ)言規(guī)律本身認(rèn)識(shí)仍然不足,以及計(jì)算機(jī)對(duì)語(yǔ)言理解的局限性,再加上不同語(yǔ)言之間存在著語(yǔ)法結(jié)構(gòu)、構(gòu)造方式、語(yǔ)言習(xí)慣、社會(huì)背景等等的不同,機(jī)器翻譯的效果與大家所期待的仍有非常大的差距。三、翻譯系統(tǒng)主要技術(shù)要點(diǎn)及性能比較分析(一)典型的機(jī)器翻譯方法和技術(shù)機(jī)器翻譯是建立在語(yǔ)言學(xué)、數(shù)學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科基礎(chǔ)上的多邊緣學(xué)科(它的發(fā)展是建立在語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)的發(fā)展基礎(chǔ)之上)現(xiàn)代理論語(yǔ)言學(xué)的發(fā)展、計(jì)算機(jī)科學(xué)的進(jìn)步以及概率統(tǒng)計(jì)學(xué)的引入,對(duì)機(jī)器翻譯的理論和方法都產(chǎn)生了深刻的影響。Weaver機(jī)器翻譯思想的提出,開(kāi)始了機(jī)器翻譯的研究熱潮。Chomsky在50年代后期提出的短語(yǔ)結(jié)構(gòu)語(yǔ)法,給出了“從規(guī)則生成句子”的原則。由于短語(yǔ)結(jié)構(gòu)語(yǔ)法采用單一標(biāo)記的短語(yǔ)結(jié)構(gòu)來(lái)描述句子的構(gòu)成,描述粒度過(guò)粗,因此存在約束能力弱、生成能力過(guò)強(qiáng)問(wèn)題,人們逐漸意識(shí)到僅依靠單一的短語(yǔ)結(jié)構(gòu)信息,不能充分判別短語(yǔ)類(lèi)型和確認(rèn)短語(yǔ)邊界,于是,復(fù)雜特征集和詞匯主義被引入自然語(yǔ)言語(yǔ)法系統(tǒng),廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法、詞匯功能語(yǔ)法、中心語(yǔ)驅(qū)動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法等語(yǔ)言學(xué)理論也相應(yīng)的產(chǎn)生。在這個(gè)發(fā)展過(guò)程中,基于規(guī)則方法一直是機(jī)器翻譯研究的主流。在基于規(guī)則的方法中,語(yǔ)言規(guī)則的產(chǎn)生需要大量的人力,而且大量的語(yǔ)言規(guī)則之間往往存在著不可避免的沖突。另外,規(guī)則方法在保證規(guī)則的完備性和適應(yīng)性方面也存在著不足。而此時(shí),統(tǒng)計(jì)學(xué)方'法在自然語(yǔ)言處理的語(yǔ)音識(shí)別領(lǐng)域取得了比較好的效果,于是,基于統(tǒng)計(jì)的機(jī)器翻譯應(yīng)運(yùn)而生。隨著雙語(yǔ)語(yǔ)料的大量增加、計(jì)算機(jī)性能的提高,基于實(shí)例的機(jī)器翻譯方法被提出,并由此泛化產(chǎn)生了基于模板的機(jī)器翻譯方法。下面我們分別介紹幾種典型的機(jī)器翻譯方法。

1、基于規(guī)則的機(jī)器翻譯方法(Rule-BasedMachineTranslation)從Chomsky提出轉(zhuǎn)換生成文法之后,基于規(guī)則的方法一直是機(jī)器翻譯研究的主流,Chomsky認(rèn)為一種語(yǔ)言無(wú)限的句子可以由有限的規(guī)則推導(dǎo)出來(lái)。早期的機(jī)器翻譯系統(tǒng),從體系結(jié)構(gòu)上可以分為直譯式、轉(zhuǎn)換式和中間語(yǔ)言式,它們的不同之處在于對(duì)源語(yǔ)言分析的深度,它們的相同點(diǎn)是都需要大規(guī)模的雙語(yǔ)詞典、大量的源語(yǔ)言推導(dǎo)規(guī)則、語(yǔ)言轉(zhuǎn)換規(guī)則和目標(biāo)語(yǔ)言生成規(guī)則。其中,轉(zhuǎn)換式的基于規(guī)則方法對(duì)源語(yǔ)言分析得比較深,它涉及到詞匯結(jié)構(gòu)分析、語(yǔ)法分析、語(yǔ)義分析,并完成詞匯、語(yǔ)法、語(yǔ)義三層結(jié)構(gòu)從源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換,而且轉(zhuǎn)換式的方法又充分考慮了源語(yǔ)言和目標(biāo)語(yǔ)言之間的特征聯(lián)系,它比中間語(yǔ)言方法更容易獲得高質(zhì)量的翻譯結(jié)果。因此,轉(zhuǎn)換式的方法更多地被應(yīng)用在早期的機(jī)器翻譯系統(tǒng)中,整個(gè)翻譯過(guò)程被分為:源語(yǔ)言分析部分,轉(zhuǎn)換部分和目標(biāo)語(yǔ)生成部分。而早期的系統(tǒng),如德國(guó)西門(mén)子的METAL系統(tǒng)、美國(guó)的SYSTRAN系統(tǒng)、日本日立公司的ATHENE系統(tǒng)以、及中國(guó)中軟公司的HY-1漢英系統(tǒng),都是基于轉(zhuǎn)換的機(jī)器翻譯系統(tǒng)?;谝?guī)則的機(jī)器翻譯的優(yōu)點(diǎn)在于:規(guī)則可以很準(zhǔn)確的描述出一種語(yǔ)言的語(yǔ)法構(gòu)成,并且可以很直觀的表示出來(lái)。機(jī)器可以按照一組規(guī)則來(lái)理解它面對(duì)的自然語(yǔ)言,這組規(guī)則包含了不同語(yǔ)言層次的規(guī)則,包括用以對(duì)源語(yǔ)言進(jìn)行描述的源語(yǔ)言分析規(guī)則、用以對(duì)源語(yǔ)言/目標(biāo)語(yǔ)言之間的轉(zhuǎn)換規(guī)則以及用于生成目標(biāo)語(yǔ)的生成規(guī)則。由此可見(jiàn),基于規(guī)則的機(jī)器翻譯的核心問(wèn)題是構(gòu)造完備的或適應(yīng)性較強(qiáng)的規(guī)則系統(tǒng)。但是,規(guī)則庫(kù)的建立需要花費(fèi)大量的人力和物力,即使如此,規(guī)則的完備性仍然不能得到保證,規(guī)則庫(kù)很難覆蓋所有的語(yǔ)言現(xiàn)象。隨著規(guī)則數(shù)量的增加,規(guī)則之間的沖突很難避免;很難用系統(tǒng)化的規(guī)則分類(lèi)體系、恰當(dāng)?shù)囊?guī)則粒度去刻畫(huà)語(yǔ)言特征。而且早期的規(guī)則系統(tǒng)采用的都是確定性規(guī)則,艮即非此即彼的規(guī)則,系統(tǒng)的適應(yīng)性很差?;谏鲜鰡?wèn)題,如何自動(dòng)地獲取語(yǔ)言規(guī)則、如何更好的表示規(guī)則以及如何更好地增強(qiáng)系統(tǒng)的適應(yīng)能力成為研究人員關(guān)注的焦點(diǎn)。隨著大量語(yǔ)料庫(kù)的產(chǎn)生,統(tǒng)計(jì)方法為我們提供了很好的從己有的語(yǔ)言資源中自動(dòng)得到我們所需要的語(yǔ)言信息的工具。復(fù)雜特征集和合一運(yùn)算的提出也使得我們能以更細(xì)的粒度、更加準(zhǔn)確的知識(shí)表示形式來(lái)描述規(guī)則,而詞匯化的信息也更多的來(lái)自于標(biāo)注語(yǔ)料庫(kù)。針對(duì)確定性規(guī)則降低了系統(tǒng)的魯棒性的弱點(diǎn),概率上下文無(wú)關(guān)文法從全局最優(yōu)的角度考慮,產(chǎn)生最優(yōu)的翻譯結(jié)果,為機(jī)器翻譯系統(tǒng)的實(shí)用化奠定了基礎(chǔ)。隨著這些方法的引入,傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法研究逐步發(fā)展成為對(duì)以規(guī)則為基礎(chǔ)、語(yǔ)料庫(kù)方法為輔助的高性能機(jī)器翻譯方法的研究。2.基于統(tǒng)計(jì)的機(jī)器翻譯方法(Statistical-BasedMachinetranslation)除了在某些特定的受限領(lǐng)域,基于規(guī)則的機(jī)器翻譯,取得了比較好的效果(如Isabelle1987所做的天氣預(yù)報(bào)翻譯)之外,在大部分的實(shí)驗(yàn)中,基于規(guī)則的機(jī)器翻譯遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到人們的要求。而隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展和統(tǒng)計(jì)學(xué)、信

息論在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,人們嘗試著用統(tǒng)計(jì)的方法進(jìn)行機(jī)器翻譯的研究。對(duì)于機(jī)器翻譯來(lái)說(shuō),基于統(tǒng)計(jì)的方法可以從兩個(gè)層面上來(lái)理解,一種是指某些概率統(tǒng)計(jì)的方法在具體的機(jī)器翻譯過(guò)程中的應(yīng)用,比如用概率統(tǒng)計(jì)的方法解決詞性標(biāo)注的問(wèn)題、詞義消歧的問(wèn)題等。另一種較狹義的理解是指純粹的基于統(tǒng)計(jì)的機(jī)器翻譯,翻譯所需的所有知識(shí)都來(lái)源于語(yǔ)料庫(kù)本身。IBM的Brown在1990年首先將最初應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域的統(tǒng)計(jì)模型用于法英機(jī)器翻譯。基本思想是:用信道模型把機(jī)器翻譯看作一種解碼的過(guò)程?;诮y(tǒng)計(jì)的機(jī)器翻譯也可以用下面這個(gè)公式來(lái)說(shuō)明:best-translationT=argmaxTluency(T)faithfulness(T,S)其中,T表示目標(biāo)語(yǔ)言句,S表示源語(yǔ)言句。fluency(T)相當(dāng)于語(yǔ)言模型,它反映目標(biāo)語(yǔ)言句子的質(zhì)量,faithfulness(T,S)相當(dāng)于翻譯模型,表示從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯質(zhì)量。從上面的公式可以看出,翻譯的過(guò)程其實(shí)也是一個(gè)尋求最優(yōu)翻譯結(jié)果的過(guò)程。因此,基于統(tǒng)計(jì)的機(jī)器翻譯的關(guān)鍵首先是定義最適合的語(yǔ)言概率模型和翻譯概率模型,其次,需要從已經(jīng)存在的語(yǔ)言資源中,對(duì)語(yǔ)言模型和參數(shù)模型的概率參數(shù)進(jìn)行估計(jì)。早期的語(yǔ)言模型基本上采用二元、三元模型,語(yǔ)言模型的參數(shù)估計(jì)需要大量的單語(yǔ)語(yǔ)料庫(kù),二元模型參數(shù)通過(guò)兩個(gè)詞的搭配頻率來(lái)計(jì)算,三元模型參數(shù)則通過(guò)計(jì)算相鄰三元詞的出現(xiàn)頻率進(jìn)行估計(jì)。近年來(lái),基于統(tǒng)計(jì)的機(jī)器翻譯翻譯采用基于語(yǔ)法的語(yǔ)言模型,利用樹(shù)庫(kù)訓(xùn)練語(yǔ)言模型參數(shù)。翻譯模型需要計(jì)算源語(yǔ)和目標(biāo)語(yǔ)對(duì)之間的轉(zhuǎn)換概率,因此翻譯模型參數(shù)估計(jì)需要大量對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)。Brown詳細(xì)介紹了五種翻譯模型,并且用EM算法對(duì)雙語(yǔ)語(yǔ)料進(jìn)行訓(xùn)練,估計(jì)翻譯模型參數(shù),盡管統(tǒng)計(jì)機(jī)器翻譯在語(yǔ)音識(shí)別領(lǐng)域取得了一定的成功,但是它需要大量的雙語(yǔ)語(yǔ)料庫(kù),而且存在著數(shù)據(jù)稀疏問(wèn)題。因此,如何構(gòu)建大規(guī)模的對(duì)齊雙語(yǔ)語(yǔ)料庫(kù),以及找到比較好的平滑算法進(jìn)行準(zhǔn)確的參數(shù)估計(jì),成了基于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)中的關(guān)鍵問(wèn)題。除此之外,要找到最優(yōu)的譯文,也需要好的搜索算法。模型和翻譯模型,而最初的統(tǒng)計(jì)模型很少考慮語(yǔ)言的特征信息,對(duì)一些特定語(yǔ)言所特有的語(yǔ)言特征分析得不夠。例如,在英語(yǔ)的詞匯形態(tài)分析中,對(duì)單詞“see”和“saw”,原型和過(guò)去型完全按照不同的詞匯進(jìn)行參數(shù)估計(jì),這就造成了對(duì)語(yǔ)言模型和翻譯模型構(gòu)建的不準(zhǔn)確性°IBM[7]將一些淺層的詞匯信息結(jié)合到統(tǒng)計(jì)模型當(dāng)中去,F(xiàn)ranzJosef在ACL’02上發(fā)表的文章介紹的基于最大熵的統(tǒng)計(jì)機(jī)器翻譯方法中,訓(xùn)練模型中也充分考慮了源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)言特征。語(yǔ)言特征的引入,提高了基于統(tǒng)計(jì)的機(jī)器翻譯的性能,同時(shí)也對(duì)語(yǔ)料庫(kù)的標(biāo)注提出了更高的要求,這從某種意義上說(shuō)也是基于規(guī)則的機(jī)器翻譯方法和基于統(tǒng)計(jì)機(jī)器翻譯方法的融合,或者說(shuō)是統(tǒng)計(jì)方法在處理語(yǔ)言學(xué)問(wèn)題上的延伸,體現(xiàn)了下面我們要介紹的基于混合策略的機(jī)器翻譯方法研究的必要性。

3.基于實(shí)例的機(jī)器翻譯方法(Example-BasedMachineTranslation)基于實(shí)例的機(jī)器翻譯思想最早由Nagao⑵提出,其基本思想是,在已有的源語(yǔ)言實(shí)例句庫(kù)中,待翻譯句子按照類(lèi)比原理匹配出最相似的實(shí)例句,取出實(shí)例句對(duì)應(yīng)的目標(biāo)語(yǔ)句子,進(jìn)行適當(dāng)?shù)母脑?,最終得出待翻譯句子所相應(yīng)的目標(biāo)語(yǔ)句子。整個(gè)翻譯過(guò)程實(shí)際上是一個(gè)匹配過(guò)程。它的特點(diǎn)是不需要對(duì)源語(yǔ)言進(jìn)行任何的分析,僅僅是通過(guò)類(lèi)比進(jìn)行翻譯。從翻譯過(guò)程來(lái)看,句子一級(jí)對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)是基于實(shí)例的機(jī)器翻譯系統(tǒng)的知識(shí)源,在基于實(shí)例的機(jī)器翻譯系統(tǒng)中,雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)被稱(chēng)為翻譯記憶庫(kù)(TranslationMemory)o對(duì)于基于實(shí)例的系統(tǒng),首先,待翻譯句子需要從翻譯記憶庫(kù)中找出最相似的源語(yǔ)言句子,一般根據(jù)詞典或者語(yǔ)言的本體知識(shí)(Ontology),根據(jù)句子中詞匯或者詞類(lèi)之間的語(yǔ)義距離來(lái)計(jì)算句子的相似度,F(xiàn)ederica在2002年的一篇文章概述了基于實(shí)例機(jī)器翻譯相似度的計(jì)算方法以及句子匹配算法?;趯?shí)例的機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量取決于翻譯記憶庫(kù)的規(guī)模和覆蓋率。因此如何構(gòu)建大規(guī)模翻譯記憶庫(kù)成為基于實(shí)例的機(jī)器翻譯研究的關(guān)鍵問(wèn)題。對(duì)于雙語(yǔ)語(yǔ)料對(duì)齊研究,Gale等描述了基于長(zhǎng)度和基于偏移量的語(yǔ)料庫(kù)的句子和段落對(duì)齊方法,Kay提出了基于詞匯特征的句子對(duì)齊方法?,F(xiàn)階段,由于缺少大規(guī)模的雙語(yǔ)對(duì)齊語(yǔ)料庫(kù),基于實(shí)例的機(jī)器翻譯方法匹配率并不是很高,而基于實(shí)例的機(jī)器翻譯如果匹配成功,可以獲得高質(zhì)量的譯文,因此基于實(shí)例的機(jī)器翻譯一般和基于規(guī)則的機(jī)器翻譯結(jié)合使用,Satoshi就提出了基于規(guī)則和基于實(shí)例相結(jié)合的機(jī)器翻譯方法,產(chǎn)生了比較好的翻譯結(jié)果。對(duì)于匹配命中率過(guò)低的問(wèn)題,我們?cè)囍龅蕉陶Z(yǔ)級(jí)的雙語(yǔ)對(duì)齊,以提高匹配命中率,通過(guò)短語(yǔ)結(jié)構(gòu)的局部匹配,組合相應(yīng)的目標(biāo)語(yǔ)句子框架,完成句子的翻譯,這種方法進(jìn)而泛化為基于模板(Template-based)的機(jī)器翻譯,通過(guò)大規(guī)模的雙語(yǔ)語(yǔ)料,自動(dòng)抽取翻譯模板,翻譯過(guò)程匹配模板庫(kù)。這種方法增加了匹配的命中率,模板庫(kù)規(guī)模比實(shí)例庫(kù)要小,因此也提高了系統(tǒng)的效率。而模板的自動(dòng)獲取仍然是翻譯的關(guān)鍵。基于實(shí)例的機(jī)器翻譯方法依然面臨著很多的問(wèn)題,對(duì)于相似度計(jì)算,如果計(jì)算詞類(lèi)或者短語(yǔ)級(jí)的相似度,則需要首先對(duì)我們的翻譯記憶庫(kù)本身進(jìn)行標(biāo)注。而且很難定義一個(gè)相似度標(biāo)準(zhǔn)選出最合適的相似句,此外隨著翻譯記憶庫(kù)規(guī)模的擴(kuò)大,需要一個(gè)高速的查詢(xún)匹配算法,同時(shí)需要在增加翻譯記憶庫(kù)的規(guī)模、提高匹配率的同時(shí),保證翻譯記憶庫(kù)的冗余度。在機(jī)器翻譯研究的過(guò)程中,各種機(jī)器翻譯方法層出不窮,其它的還有基于模式的機(jī)器翻譯、基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯、基于對(duì)話的機(jī)器翻譯、基于原則的機(jī)器翻譯等等,現(xiàn)有的各種機(jī)器翻譯方法在現(xiàn)階段的機(jī)器翻譯研究中被廣泛采用,它們之間已經(jīng)沒(méi)有嚴(yán)格的界限?;谝?guī)則的機(jī)器翻譯方法結(jié)合語(yǔ)料庫(kù)的方法,大量使用統(tǒng)計(jì)方法獲取語(yǔ)言信息,而基于統(tǒng)計(jì)的機(jī)器翻譯和基于實(shí)例的機(jī)器翻譯更是相互滲透,基這兩種方法統(tǒng)稱(chēng)為基于語(yǔ)料庫(kù)的方法,因?yàn)樗鼈兺瑯右揽侩p語(yǔ)語(yǔ)料庫(kù)。

(二)國(guó)際國(guó)內(nèi)的較為成熟的機(jī)器翻譯系統(tǒng)Google的在線翻譯已為人熟知,其背后的技術(shù)即為基于統(tǒng)計(jì)的機(jī)器翻譯方法,基本運(yùn)行原理是通過(guò)搜索大量的雙語(yǔ)網(wǎng)頁(yè)內(nèi)容,將其作為語(yǔ)料庫(kù),然后由計(jì)算機(jī)自動(dòng)選取最為常見(jiàn)的詞與詞的對(duì)應(yīng)關(guān)系,最后給出翻譯結(jié)果。不可否認(rèn),Google采用的技術(shù)是先進(jìn)的,但它還是經(jīng)常鬧出各種“翻譯笑話”。其原因在于:基于統(tǒng)計(jì)的方法需要大規(guī)模雙語(yǔ)語(yǔ)料,翻譯模型、語(yǔ)言模型參數(shù)的準(zhǔn)確性直接依賴(lài)于語(yǔ)料的多少,而翻譯質(zhì)量的高低主要取決于概率模型的好壞和語(yǔ)料庫(kù)的覆蓋能力?;诮y(tǒng)計(jì)的方法雖然不需要依賴(lài)大量知識(shí),直接靠統(tǒng)計(jì)結(jié)果進(jìn)行歧義消解處理和譯文選擇,避開(kāi)了語(yǔ)言理解的諸多難題,但語(yǔ)料的選擇和處理工程量巨大。因此通用領(lǐng)域的機(jī)器翻譯系統(tǒng)很少以統(tǒng)計(jì)方法為主。下面對(duì)幾個(gè)常見(jiàn)的翻譯系統(tǒng)做個(gè)比較支持的語(yǔ)言數(shù)量誰(shuí)最多網(wǎng)站翻譯系統(tǒng)支持的語(yǔ)種越多,該網(wǎng)站擁有的不同國(guó)家的用戶(hù)數(shù)量就越多,同時(shí)也會(huì)給廣大用戶(hù)提供更多的方便。下面我們來(lái)看一下這幾個(gè)網(wǎng)站的翻譯系統(tǒng)所支持的語(yǔ)種數(shù)量Google支持11語(yǔ)種25類(lèi)直譯 Google涵蓋了漢語(yǔ)(簡(jiǎn)體、繁體漢語(yǔ)統(tǒng)稱(chēng)為漢語(yǔ))、英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)和阿拉伯語(yǔ)11個(gè)語(yǔ)種共計(jì)25個(gè)類(lèi)型的直譯選項(xiàng)。Yahoo支持12語(yǔ)種40類(lèi)直譯Yahoo在線翻譯提供涵蓋了漢語(yǔ)、英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、荷蘭語(yǔ)和希臘語(yǔ)12個(gè)語(yǔ)種共計(jì)40個(gè)類(lèi)型的直譯選項(xiàng)。愛(ài)詞霸支持3語(yǔ)種6類(lèi)直譯金山“愛(ài)詞霸”提供了簡(jiǎn)(繁)體中文與英文的互譯,日文翻譯為簡(jiǎn)(繁)體中文3種語(yǔ)言的常見(jiàn)翻譯類(lèi)別。兩個(gè)復(fù)選框搭配組合最多實(shí)現(xiàn)6個(gè)類(lèi)型的直譯(圖3)。金橋翻譯支持13語(yǔ)種40類(lèi)直譯金橋翻譯在文本翻譯方面涵蓋了漢語(yǔ)、英語(yǔ)、法語(yǔ)、德語(yǔ)、俄語(yǔ)、日語(yǔ)、韓語(yǔ)、葡萄牙語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、荷蘭語(yǔ)、希臘語(yǔ)和阿拉伯語(yǔ)13個(gè)語(yǔ)種共計(jì)40個(gè)類(lèi)型的直譯選項(xiàng)。翻譯的質(zhì)量誰(shuí)最好基于我國(guó)外語(yǔ)的學(xué)習(xí)情況,英文是眾多朋友最為熟悉、最有代表性外語(yǔ)語(yǔ)種,對(duì)英文翻譯的需求也最為廣泛,因此,我們以英文和中文間的翻譯作為本次評(píng)測(cè)的對(duì)象。1).對(duì)單個(gè)單詞的翻譯情況。英語(yǔ)單詞往往包含很多不同的意思。如果不能全面了解單詞包含的意思,可能影響一個(gè)句子甚至一段話的含義。因此,翻譯的正確程度,以及單詞的擴(kuò)展介紹和固定搭配用法舉例等解釋?zhuān)彩呛饬糠g網(wǎng)站翻譯質(zhì)量的一個(gè)重要方面。我們以單詞“drive”為例子,分別系下列網(wǎng)站進(jìn)行測(cè)試。Google不支持中文解釋。Google中的詞典功能很不完善,它甚至不能夠用中文來(lái)解釋這個(gè)單詞的含義,雖然在搜索出的結(jié)果里面增加了 “相關(guān)詞組(relatedphrases)”和“相關(guān)語(yǔ)言(relatedlanguages)”的搜索。但是只支持英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)、韓語(yǔ)、俄語(yǔ)和西班牙語(yǔ)的單詞解釋?zhuān)屩袊?guó)用戶(hù)完全無(wú)法使用。Yahoo功能完善解釋全面。Yahoo的字典功能包含了英漢字典、英英字典、例句、網(wǎng)絡(luò)解釋四個(gè)部分,并且在每個(gè)部分里面,都盡可能的列出了該詞語(yǔ)的語(yǔ)義。在“英漢字典”里面列出了該詞語(yǔ)的名詞(n.)、及物動(dòng)詞(vt.)、不及物動(dòng)詞(vi.)三種詞性,并且在每個(gè)詞性里面都詳細(xì)分條例舉了該詞語(yǔ)的意思,而且在每個(gè)意思的下方都附加了相關(guān)例句。音標(biāo)、同義詞/反義詞、詞性變化、相關(guān)詞組、相似單詞、英英字典、例句、網(wǎng)絡(luò)解釋等一應(yīng)俱全。愛(ài)詞霸解釋簡(jiǎn)明扼要。金山愛(ài)詞霸秉承了其收錄多部詞典的優(yōu)勢(shì),分成4個(gè)大詞典對(duì)詞語(yǔ)分別作出解釋?zhuān)热纭艾F(xiàn)代漢英綜合大詞典”就包含了基本解釋、同義詞、例句(實(shí)際上是詞組)三個(gè)部分。簡(jiǎn)明扼要,符合國(guó)人的使用習(xí)慣。金橋翻譯解釋趨向?qū)I(yè)。金橋翻譯調(diào)用金橋翻譯中心推出的的谷詞()專(zhuān)業(yè)翻譯詞典網(wǎng)站。詞典搜索結(jié)果包括了各條含義、更多例句、相關(guān)詞、變化形等內(nèi)容。同時(shí)可以實(shí)現(xiàn)“專(zhuān)業(yè)解釋”和“簡(jiǎn)單解釋”的搜索效果??偟膶?duì)這幾個(gè)翻譯系統(tǒng)進(jìn)行比較。1?google優(yōu)點(diǎn):支持的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論