




已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
關(guān)于統(tǒng)計機(jī)器翻譯的思考,姚天順 自然語言處理實驗室 東北大學(xué) 2004.7.11,1. 前言 有這么兩條消息: 5月10日參考消息 “隨著又有10個國家加入歐盟,歐盟現(xiàn)有20種官方語言。年度翻譯預(yù)算增加到10億美元?!?5月28日參考消息 “歐盟新通過一項議案,所有成員國在歐盟會議上的文件不得超過15頁A4紙,以減輕翻譯人員的工作量。”,機(jī)器翻譯的現(xiàn)狀和未來到底怎么樣了? 有計算機(jī)的那一天就有機(jī)器翻譯的研究。 計算機(jī)事業(yè)蓬勃發(fā)展,但機(jī)器翻譯的道路至今仍然十分艱難。,上世紀(jì)的八十年代,特別是九十年代, 語料庫語言學(xué)在計算語言學(xué)界興起。 最近的五年到十年,機(jī)器學(xué)習(xí)方法又受到學(xué)術(shù)界 特別的重視,數(shù)學(xué)方法大量地引進(jìn)了語言信息處理。 自然語言處理的研究是進(jìn)了一大步, 但對于機(jī)器翻譯而言,真實的效果在哪里呢?,回憶基于規(guī)則的機(jī)器翻譯系統(tǒng)作為主流技術(shù)的時代, 不管怎么樣?多少還出現(xiàn)過一些有市場價值的系統(tǒng), 例如譯星、華建和史曉東等的漢英翻譯系統(tǒng)。 華建的機(jī)器翻譯,居然取得了國內(nèi)單項軟件出口的最 高出售價。 歐洲和日本情況也是這樣,當(dāng)前主流的機(jī)器翻譯還都 是基于規(guī)則的機(jī)器翻譯系統(tǒng)。,基于語料庫的機(jī)器翻譯方法,一般說來可以分為兩類: 一類是基于統(tǒng)計的機(jī)器翻譯系統(tǒng), 另一類和基于模板的機(jī)器翻譯方法。 基于統(tǒng)計的機(jī)器翻譯,簡稱為統(tǒng)計機(jī)器翻譯。 統(tǒng)計機(jī)器翻譯把源語言中任何一個句子都可能是目標(biāo)語言中 某些句子相似,這些句子的相似程度可能都不相同。那么,一個 好的機(jī)器翻譯系統(tǒng)就是那種能找到最相似句子的系統(tǒng)。 但是這樣的漢外機(jī)器翻譯系統(tǒng)在我們國家從來也沒有出現(xiàn) 過。,1994年,IBM公司的A. Berger, P. Brown 等人發(fā)表了一個技術(shù)報 告,即著名的論文: “The candide System of Machine Translation?!?他們用統(tǒng)計方法,各種不同的對齊技術(shù),給出了命名為Candide 的統(tǒng)計機(jī)器翻譯系統(tǒng). 利用漢莎語料庫(Hansard corpus,英法雙語語料庫),總共 有 2,205,733 英法句對作為訓(xùn)練語料, 實現(xiàn)了國際上第一個較為著名的英語到法語的統(tǒng)計機(jī)器翻譯系 統(tǒng)。,一開始,系統(tǒng)的成績不錯,整體的系統(tǒng)的譯準(zhǔn)率超過了基于 解釋、轉(zhuǎn)換、和生成的規(guī)則系統(tǒng)。 ARPA(美國國防部高級研究計劃署)把這個 Candide 翻譯 系統(tǒng)進(jìn)行評測,并和國際上利用常規(guī)的規(guī)則系統(tǒng)構(gòu)造的 SYSTRAN 機(jī)器翻譯系統(tǒng)作比較,結(jié)果是,,流利程度 適當(dāng)程度 時間比率率 1992 1993 1992 1993 1992 1993 SYSTRAN .466 .540 .686 .743 Candide .511 .580 .575 .670 Transman .819 .838 .837 .850 .688 .625 Manual .833 .840 Transman is the part of the Candide system used as a translation assis- tance tool, i.e. a machine-aided translation system. 這個結(jié)果很了不起,在某種程度上推動了經(jīng)驗主義思潮更進(jìn)一步向前 發(fā)展。,由于計算語言的復(fù)雜性,Candide系統(tǒng)還請了一些語言學(xué)家來幫助他們做形態(tài)分析、語義標(biāo)注、和詞典等。 Candide系統(tǒng)仍不是一個純統(tǒng)計的系統(tǒng)。 這樣的系統(tǒng),看來很有希望,不知為什么,由于IBM 公司外部和內(nèi)部財政方面的原因,支持被撤走,他們的工作堅持到1995年,就被迫停止。呼聲很高的系統(tǒng)被中斷了。 有人說,純統(tǒng)計的機(jī)器翻譯注定是要失敗的!,美國著名機(jī)器翻譯學(xué)者Yorick Wilks在批評 Candide系統(tǒng) 時指出: “他們在系統(tǒng)中引入符號結(jié)構(gòu)就說明了,純統(tǒng)計的假設(shè)已經(jīng)失敗了” (“Incorporating symbolic structure shows the pure statistics hypothesis has failed”) 可見,統(tǒng)計方法是令人鼓舞的,可是它還沒有解決所有困 難的問題。,2新統(tǒng)計機(jī)器翻譯系統(tǒng)的出現(xiàn) 2000年,在Johns Hopkins 的暑假Workshop,有來自南加州大學(xué)、 羅切斯特大學(xué)、約翰.霍普金斯大學(xué)、施樂公司、賓州大學(xué)、斯丹福大學(xué)等學(xué) 校的研究人員, 以O(shè)ch為主的13人,寫了一個Final Report: Syntax for Statistical Machine Translation Och博士發(fā)表的論文: “Discriminative Training and Maximum Entropy Models for Statistical Machine Translation”, 獲ACL2002大會最佳論文獎。 20012003年七月,在美國馬里蘭州Johns Hopkins美國商業(yè)部的 NIST/TIDES (National Institute of Standards and Technology) at University in Baltimore, Maryland 評比過程中獲最好成績。 構(gòu)造了23種阿拉伯和漢語到英語的機(jī)器翻譯系統(tǒng)。 TIDES: Translingual Information Detection, Extraction and Summarization,Och的氣很盛,他說, 偉大的希臘科學(xué)家Archimedes說: “Give me a place to stand on, and I will move the world.” Och說: “Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.” 這是不是說,Och博士已經(jīng)找到 機(jī)器翻譯的有效方法了?,3統(tǒng)計機(jī)器翻譯語法 Berger 關(guān)于機(jī)器翻譯的失敗,一個主要問題是: 統(tǒng)計機(jī)器翻譯(SMT)往往有顯而易見的語法錯誤。 Och希望在SMT里整體組合語法結(jié)構(gòu)。 不斷添加反映語法知識的特征函數(shù)來解決不同語法層次的翻 譯問題,按照最大熵的模型,在各個語法層次都能給出可能的特 征函數(shù) 希望從最簡單的二元特征到復(fù)雜的樹 - 樹的結(jié)構(gòu)分析都能夠 造翻譯模型。,31 邏輯-線性模型 機(jī)器翻譯的目的是:給定一個源句子Chinese) , 翻譯成可能的目標(biāo)句子(English) 那么,所有可能的目標(biāo)句的最大概率:,Och 和 Ney 在 2002年提出的翻譯模型, 不同于 Brown 等的設(shè)想 (1993),是一種后驗概率的直接模型(稱為直接最大熵翻譯模型)。 其中 e 和 f 的位置正好顛倒. 利用Berger等人(1996)提出的最大熵框架,在這個框架里,有一組 特征函數(shù): 對于每一個特征函數(shù),存在一個模型參數(shù), 按照最大熵理論,直接概率模型: 這是標(biāo)準(zhǔn)的最大熵計算公式。其中分母可以不計。,邏輯-線性模型總體結(jié)構(gòu)如下圖所示:,一個統(tǒng)計機(jī)器翻譯系統(tǒng)設(shè)計成為: 切分(短語)、對齊、重排、生成。 由漢語句子: 中國十四個邊境開放城市經(jīng)濟(jì)建設(shè)成就顯著. 翻譯成英文句子: Chinas 14 open border cities marked economic achievements. 切分:,對齊模板處理形象理解為: 本質(zhì)上存在一個隱變量 ,再取參數(shù) , 就有 特征函數(shù)由原來的轉(zhuǎn)換成,各種語法現(xiàn)象的特征函數(shù) 淺層語法的特征函數(shù) WoRD Selection Phrase Alignment Alignment Template Selection Language Model Features,深層句法特征函數(shù) 深層處理的句法特征函數(shù)是通過兩種模型形成: 1、Tree to String 的特征函數(shù) 1) 中文句子和英文分析樹,對齊概率和的特征函數(shù), 2)計算對齊最好的特征函數(shù),2、Tree to Tree 的特征函數(shù) 樹到樹的對齊模型是十分復(fù)雜的。例如漢英句對: 中國十四個邊境開放城市經(jīng)濟(jì)建設(shè)成就顯著. Fourteen Chinese open border city make signficant achievements in economic construction. 標(biāo)注后的雙語句子: 中國_NR 14_CD 個_M 邊境_NN 開放_NN 城市_NN 經(jīng)濟(jì)_NN 建設(shè)_NN 成就_NN 顯著_VV。(不討論標(biāo)注的正確性) Fourteen_CD Chinese_JJ open_JJ border_NN cities_NNS make_VBP signficant_JJ achievements_NNS in_IN economic_JJ construction_NN. 他們的分析樹分別是:例如,這里有兩類標(biāo)注: The Part-of-Speech Tagging Guildelines for Penn Chinese Treebank。 The University of Pennsylvania Treebank Tag-set。 其中, NR proper noun 專有名字 CD cardinal number 基數(shù) M measure word 量詞 NN common noun 普通名字 VV other verb 是、有以外的動詞 JJ other noun modifier 其他名字修飾符 VBP verb, present tense, 3rd person singular 動詞,現(xiàn)在式,第3人稱 IN preposition or conjunction, subordinating 介詞或連詞,連接逐句或從句,中國 十四 個 邊境 開放 城市 經(jīng)濟(jì) 建設(shè) 成就 顯著.,同一個含義的兩種語言的分析樹有著不同的結(jié)構(gòu)。其中有的結(jié) 構(gòu)是可以自動轉(zhuǎn)換和對齊的,如 A A B Z = X Y Z X Y 有的就不可以自動對齊轉(zhuǎn)換 A B C W X Y Z 沒法對齊到 WYXZ,2002年,Hajie等人在他們(11人)的論文: “Natural language generation in the context of machine translation” 提出了非同構(gòu)的平行樹間的兩邊進(jìn)行多于兩個節(jié)點的 m-to-n 的匹配。給出一點彈性處理的許可。 例如兩個樹的詞序不變而結(jié)構(gòu)不同等的原來不可對齊問題,在 沒有引起明顯的計算復(fù)雜度的情況下,也允許子樹對齊。 由于這樣的考慮,他們就提出了所謂克?。–lone)操作的概 念。 克隆操作: 允許在源樹中,拷貝一個節(jié)點到目標(biāo)樹的任意地方。克隆以 后,就像以前一樣使用樹分解(decomposition)和子樹對齊。除 了克隆以外,其他的基本算法都不變。 硬性解決不解之難。,Och的設(shè)想取自于Gildea的工作。 Gildea在2003年的論文中提到,在他們的系統(tǒng)里選用韓英軍事領(lǐng)域雙語語料。 語料包括5083句,使用4982句作為訓(xùn)練語料,101句作評測。韓語句子的平均長度是13個字。對齊結(jié)果的比較,如下表所示:,Och的狂妄,可能并沒有解決問題。 就像阿基米德雖然偉大,但還是不能撬起一個地球, Och可能在幾個小時里,對于任何雙語拿出一個機(jī)器翻譯系統(tǒng),但還是不能真正實用。機(jī)器翻譯任重而道遠(yuǎn)。 回過頭來想,Och 提出了一個完整的統(tǒng)計機(jī)器翻譯思想,在各個層次給出了各個特征函數(shù),借用了克隆的思想,提出了統(tǒng)計機(jī)器翻譯語法的理論。不是點滴的,而是完整的構(gòu)思。我們似乎可以從中找到起步的光芒,那就是為什么他的論文是一篇最佳論文的原因。 但是,最終還沒有找到統(tǒng)計機(jī)器翻譯可遵循的研究道路。路在那里???,Tree to String, Tree to Tree 的對齊,可能是實現(xiàn)機(jī)器翻譯的一 個瓶頸問題。 統(tǒng)計機(jī)器翻譯的領(lǐng)頭人物可能是南加州大學(xué)ISI的Kevin Knight。 提出了基于語法的語言模型(Syntax-based Language Models), 與一種tree-to-string翻譯模型(YK01)組合在一起,得到較好的翻譯 精度。 這里所提的基于語法,不是普通意義上的人工規(guī)則,而是在樹庫條 件下自動生成語法。是很有意思的。但其試驗結(jié)果:346個句子,YC, 就是他們文章上寫的系統(tǒng), 也就是 YK01翻譯模型, Cha01語言模型 和 基于森林的解碼器組成的系統(tǒng)。 YT, YK01翻譯模型, 標(biāo)準(zhǔn)三元語言模型 和 YK02解碼器 BT, BPPM93翻譯模型, 標(biāo)準(zhǔn)三元語言模型 和 GJM+01貪婪解碼器 注:E. Charniak, Kevin Knight and K. Yamada, Suntax-based Language Models for Statistical Machine Translation.,另一位是:約翰 霍普金斯大學(xué)計算機(jī)系的 Jason Eisner 討論非同構(gòu)樹(Non-Isomorphic Tree)映射問題。 即通過訓(xùn)練美對齊的樹或者樹和串混合的隊,學(xué)習(xí) tree-to-tree 映 射。 提出一種所謂 STSG。 它是一種共時樹置換文法(Synchronous tree substitution grammar)。 這是對齊的基本樹隊(有序)的聚集。 它也是一個簡單的共時樹鄰接文法(Synchronous tree-adjoining grammar)。 現(xiàn)已用所有的樹對作訓(xùn)練集,利用EM算法獲得基本樹的概率,和 Viterbi解碼器找到最優(yōu)的翻譯。 這些方法也是在暑期(2002)約翰 霍普金斯大學(xué)CLSP暑期研討會 開發(fā)和實現(xiàn)的。效果有待考驗。 注:Jasson Eisner, Laerning Non-Isomorphic Tree Mapping for Machine Translation,不僅如此, 在機(jī)器學(xué)習(xí)方面,最近又有了新的發(fā)展。 自然語言處理的學(xué)習(xí)都被認(rèn)為是一種帶標(biāo)序列學(xué)習(xí)問題: Label Sequence Learning 以前的 Hidden Markov Models Maximum Entropy Markov Models 都是帶標(biāo)序列學(xué)習(xí)問題。 現(xiàn)在提出一種新的理論和方法 Condition Random Fields 那有事么不同呢?直觀地講:,可以比喻如下圖形: HMM MEMM CRF,這主要是解決了兩大問題: Long-distance dependences 長距離相關(guān) Overlapping features 重疊特征 這是個重大的改進(jìn),學(xué)術(shù)界出現(xiàn)了CRF熱。 HMM 方法早就不行了,Och用 MEMM 也可以改進(jìn), 出現(xiàn)了CRF。,當(dāng)初,NIST在2001年和2003年兩次評測得第一, 是漢英機(jī)器翻譯的評比獲得第一。 可能是專了一個空子,只是漢英機(jī)器翻譯。如果是其他語種 的機(jī)器翻譯,可能得不了第一。 這就是為什么多年來 SYSTRAN 還是一直堅持老辦法,為什么歐 洲和日本機(jī)器翻譯的主流技術(shù)還是基于規(guī)則的,為什么著名的計算 語言學(xué)家Wilkes 這么反對統(tǒng)計機(jī)器翻譯。 我們國內(nèi)也是如此,直到現(xiàn)在,甚至連一個實驗性的統(tǒng)計機(jī)器 翻譯系統(tǒng)都沒有! 機(jī)器翻譯是 NLP 領(lǐng)域的百科全書,如果樹串對齊、樹樹對齊, 這個瓶頸問題不解決, 統(tǒng)計語言學(xué)的前景將黯然失色,對他們的信心將產(chǎn)生懷疑。 相信,這個瓶頸問題總能解決。,為了進(jìn)一步開發(fā)基于語料庫的機(jī)器翻譯系統(tǒng),必須解 決兩個問題: 必須盡快構(gòu)造海量帶標(biāo)語料庫,帶標(biāo)樹庫。 盡快攻克漢外結(jié)構(gòu)化樹庫對齊的技術(shù)難點。 把統(tǒng)計機(jī)器翻譯的研究前進(jìn)一大步! 語言標(biāo)注,樹庫的建設(shè)仍在國際上迅速展開。 可是我們國家的步伐太慢了!,2003年美國的計算語言學(xué)者們不滿足現(xiàn)有的,多達(dá) 2000 萬詞 的英國國家語料庫(BNC,Beritish National Corpus)帶標(biāo)語料庫的 需求,向全世界發(fā)布了美國國家語料庫(ANC,American National Corpus)的第一個版本。 這是一個具有 11, 508, 216 詞匯的帶標(biāo)語料庫。由兩部分內(nèi)容組 成:其中口語 3, 224, 388字,書面語8, 283, 828字。 使用規(guī)范的 XML corpus Encoding Standard(XCES)書寫。并 宣布再做兩年,至少可以達(dá)到 100 million。 氣魄很大! 為了開展這個活動,組織了 ANC 聯(lián)盟,有 16 個大公司和學(xué)校 作為商業(yè)成員,8個大公司和學(xué)校作為學(xué)術(shù)成員,參加并支持這項研 究工作。,Commercial Members Pearson Education Langenscheidt Publishing Group HarperCollins Publishers Cambridge University Press Microsoft Corporation Shogakukan Inc. ALC Press Inc. Taishukan Publishing Company Oxford University Press Kenkyusha Ltd. IBM Corporation Obunsha Publishing Co. Ltd. Benesse Corporation Sanseido Co., Ltd. Sony Electronics Inc. Macmillan Publishers Academic Members Vassar College Northern Arizona University New York University Linguistic Data Consortium, University of Pennsylvania International Computer Science Institute University of California, Berkeley University of Colorado at Boulder,Penn Chinese Treebank 起源于1998年。目標(biāo)是500,000詞漢 語語料的語法樹。 2000年出了第一版,2001年進(jìn)一步校正,出了第二版。 Chinese Treebank 4.0 包含有 404,156 詞,664, 633 漢字, 15, 162個句子,和 838 個數(shù)據(jù)文件。 非會員價格:US$225。 部分資助來自DARPA-TIDES grant numb
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆山東省青島市三十九中學(xué)高三第一次調(diào)研測試英語試卷含答案
- 變電檢修工復(fù)習(xí)題(含答案)
- 江蘇省宿遷市沭陽縣2024-2025學(xué)年高一下學(xué)期期中英語試題(原卷版+解析版)
- 老年人、殘疾人養(yǎng)護(hù)服務(wù)考核試卷
- 洗浴行業(yè)商業(yè)模式創(chuàng)新趨勢分析與應(yīng)用考核試卷
- 環(huán)境監(jiān)測儀器在公共安全中的應(yīng)用考核試卷
- 稀土金屬壓延加工的技術(shù)創(chuàng)新驅(qū)動發(fā)展考核試卷
- 眼鏡行業(yè)跨界合作案例考核試卷
- 稀土金屬壓延加工的表面質(zhì)量控制技術(shù)考核試卷
- 紡織品的智能生產(chǎn)執(zhí)行系統(tǒng)實施策略考核試卷
- 山東鐵投集團(tuán)招聘筆試沖刺題2025
- 政府績效評估 課件 蔡立輝 第1-5章 導(dǎo)論 -政府績效評估程序
- 化糞池、隔油池清掏承攬合同2025年
- 食堂負(fù)責(zé)人崗位職責(zé)
- 收藏證書內(nèi)容模板
- 不銹鋼管接件行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025屆湖北省武漢市高考數(shù)學(xué)一模試卷含解析
- 2024-2030年中國煤礦電機(jī)行業(yè)供需狀況發(fā)展戰(zhàn)略規(guī)劃分析報告
- 管理心理學(xué)-第一次形成性考核-國開(SC)-參考資料
- 考而析得失思而明未來-考后分析班會-主題班會 課件
- 物業(yè)業(yè)主入住儀式活動方案
評論
0/150
提交評論