基于平行語料的查詢翻譯詞典改進(jìn)方法研究_第1頁
基于平行語料的查詢翻譯詞典改進(jìn)方法研究_第2頁
基于平行語料的查詢翻譯詞典改進(jìn)方法研究_第3頁
基于平行語料的查詢翻譯詞典改進(jìn)方法研究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于平行語料的查詢翻譯詞典改進(jìn)方法研究    摘要面對(duì)基于雙語詞典的跨語言檢索查詢翻譯方法中固有的一對(duì)多等翻譯模糊問題,已有研究成果存在對(duì)于非組合型復(fù)合詞無法進(jìn)行準(zhǔn)確翻譯、雙語詞典和其他翻譯資源聯(lián)合使用引入較大計(jì)算開銷等弊端。為建立英漢雙向跨語言檢索實(shí)用性系統(tǒng),在現(xiàn)有的一部包含若干科技詞匯和短語的雙語科技詞典的基礎(chǔ)上,著重研究如何引入平行語料來改進(jìn)已有的雙語詞典問題。目標(biāo)是生成一部基于句對(duì)齊平行語料的科技類雙語概率詞典,為跨語言檢索查詢翻譯消歧提供實(shí)時(shí)性支持。關(guān)鍵詞查詢翻譯機(jī)讀詞典句對(duì)齊平行語料分類號(hào)G3551基于雙語詞典的查詢翻譯方法跨語言信息檢索(c

2、ross-language information retiev-al,CLlR)是指以一種語言的查詢檢索出另一種語言信息的檢索方法。查詢語言稱為源語言(SOurcc lan-guage),要檢索的文檔語言稱為目標(biāo)語言(target lan-guage)。由于跨語言檢索中源語言和目標(biāo)語言分屬不同的語言空間,因此除了要解決一般信息檢索問題之外,關(guān)鍵是要在查詢和文獻(xiàn)表示匹配之前采取措施使二者的語言統(tǒng)一,最終轉(zhuǎn)化為單語言檢索模式。查詢翻譯(query translation)策略是最為常用的語言轉(zhuǎn)化策略,這種方法將用戶輸入的查詢翻譯為系統(tǒng)支持的其他語言,然后進(jìn)行單語言檢索??缯Z言檢索中有三種得到廣泛

3、認(rèn)可的查詢翻譯方法:機(jī)器翻譯、基于雙語機(jī)讀詞典的翻譯(machine readable dictionary,MRD)、基于平行或可比語料的翻譯。由于查詢通常很短,且不能提供足夠的上下文信息,更常見的情況是,查詢經(jīng)常被表示為一個(gè)詞匯集合,不充足的信息表示束縛了機(jī)器翻譯系統(tǒng)的手腳,基于雙語機(jī)讀詞典的方法是機(jī)器翻譯系統(tǒng)不錯(cuò)的替代品。目前,大部分信息檢索系統(tǒng)仍是基于所謂的“詞袋(bag-of-words)”結(jié)構(gòu),即查詢和文檔都被分解為同或短語的集合。因此很容易通過查詢雙語詞典或雙語術(shù)語列表來實(shí)現(xiàn)查詢的翻譯。Ballesteros等指出,基于MRD的翻譯方法存在如下問題:詞典中沒有的詞無法翻譯;詞典翻

4、譯存在固有的模糊性,并引入了無關(guān)信息;對(duì)諸如短語等多詞概念的無效翻譯降低了翻譯的效率。上述問題直接導(dǎo)致了跨語言檢索系統(tǒng)性能弱于相應(yīng)的單語言檢索系統(tǒng)。Hull等的實(shí)驗(yàn)結(jié)果表明,翻譯歧義和術(shù)語缺失是查詢翻譯的兩大錯(cuò)誤來源;采用手工翻譯多個(gè)名詞組成的短語可以有效改善檢索系統(tǒng)的性能,文獻(xiàn)結(jié)論有力揭示了多詞短語翻譯的重要性。Boughanem等提出以雙向翻譯技術(shù)來解決基于MRD的查詢翻譯問題。假定需要將英文查詢式翻譯成法語,利用雙向翻譯方法,先從英一法詞典中找到某個(gè)英文詞的所有法語翻譯集;然后,利用法一英詞典將每個(gè)法語翻譯成一組英文詞,如果該集合中包含源查詢?cè)~,此法語翻譯就可作為優(yōu)選翻譯。楊輝等將基本詞

5、典、專業(yè)詞典、搭配詞典與雙語詞典混合使用,來改善詞典翻譯的翻譯模糊性問題。囿于MRD方法的固有難題,研究者們開始把目光放在MRD與其他資源的混合使用上。Dong Zhou等將一種混合技術(shù)應(yīng)用于英一中跨語言檢索,采用圖模型和基于模式的方法解決翻譯歧義性和未知術(shù)語翻譯問題。該方法將源語言查詢?cè)~的每個(gè)候選翻譯看作“圖”中的一個(gè)節(jié)點(diǎn),兩節(jié)點(diǎn)之間的邊用詞的共現(xiàn)信息來度量,這些共現(xiàn)信息來源于語料。張金柱等為解決科技領(lǐng)域跨語言檢索的查詢翻譯問題,將MRD與平行語料相結(jié)合,針對(duì)科技領(lǐng)域詞匯的復(fù)合詞特征,在MRD提供的基本詞匯翻譯基礎(chǔ)上將結(jié)果進(jìn)行組合,再利用平行語料的共現(xiàn)信息進(jìn)行消歧。引入其他翻譯資源拓展了基于

6、MRD的查詢翻譯方法的消歧信息,這種結(jié)合成為基于詞典查詢翻譯方法的一個(gè)發(fā)展方向。本文的研究背景是科技類文獻(xiàn)的跨語言檢索,正如文獻(xiàn)8所述,科技文獻(xiàn)的特征之一就是文獻(xiàn)中的術(shù)語多為由多個(gè)詞匯組成的短語,面對(duì)MRD方法中固有的一對(duì)多等翻譯模糊問題,上述的研究成果大多采用對(duì)復(fù)合詞的各基本詞匯翻譯進(jìn)行組合,然后利用其他翻譯資源進(jìn)行過濾消歧處理的方法。這樣處理的主要弊端在于:對(duì)于非組合型復(fù)合詞(即:意義不能夠由其組成詞推斷出來的復(fù)合詞(non-compositional)無法進(jìn)行準(zhǔn)確翻譯,而這類復(fù)合詞在科技領(lǐng)域非常普遍;復(fù)合詞的多種翻譯組合到語料中去消歧會(huì)帶來很大的計(jì)算開銷,該方法不具有實(shí)時(shí)性。本文的研究成

7、果是為建立英漢雙向跨語言檢索實(shí)用性系統(tǒng)服務(wù)的,在現(xiàn)有的一部帶類別信息、包含若干科技詞匯和短語的英漢雙語科技詞典的基礎(chǔ)上,研究如何引入平行語料來改進(jìn)已有的雙語詞典。本文的目標(biāo)是生成一部基于句對(duì)齊平行語料的科技類雙語概率詞典,為跨語言檢索查詢翻譯消歧提供實(shí)時(shí)性支持。2基于平行語料的帶概率的雙語詞典2.1 雙語詞典的翻譯概率計(jì)算如何區(qū)別雙語詞典中同一個(gè)詞的多個(gè)候選翻譯是本節(jié)需要解決的問題。本文采用的方法是依據(jù)一部翻譯概率詞典進(jìn)行翻譯優(yōu)選,翻譯概率詞典的生成以平行語料為基礎(chǔ),因此認(rèn)為翻譯詞典中詞匯的多個(gè)翻譯結(jié)果的概率值反映了現(xiàn)實(shí)中(特別是同一領(lǐng)域中)該詞匯的使用習(xí)慣,概率值越大則選擇該翻譯結(jié)果的傾向性

8、越大。英漢雙語詞典詞匯概率計(jì)算方法描述如圖1所示:該方法利用了平行語料中的詞匯共現(xiàn)信息,但由于本文中采用的雙語同典是科技領(lǐng)域的,所以在計(jì)算翻譯概率時(shí)特別依賴于平行語料的領(lǐng)域范圍,采用新聞?lì)I(lǐng)域的平行語料效果應(yīng)該不會(huì)很明顯。本文采用的句對(duì)齊平行語料包括計(jì)算機(jī)領(lǐng)域90萬句對(duì)和新聞?lì)I(lǐng)域121萬句對(duì),因此詞典中計(jì)算機(jī)相關(guān)領(lǐng)域詞匯的翻譯概率準(zhǔn)確程度要遠(yuǎn)遠(yuǎn)高于其他領(lǐng)域。該方法具有一般性,當(dāng)增加了新領(lǐng)域的平行語料時(shí),詞典中相關(guān)詞匯的翻譯概率的準(zhǔn)確性會(huì)得到提高。2.2雙語詞典更新結(jié)果及分析2.1節(jié)方法的核心是在已有雙語詞典的基礎(chǔ)上,依據(jù)平行語料(特別是特定領(lǐng)域的平行語料),在詞典中出現(xiàn)一對(duì)多的翻譯關(guān)系時(shí),賦予不

9、同譯項(xiàng)以不同的概率值。更新后的雙語詞典的示例見表1。從表1的數(shù)據(jù)中可以看出,采用本文2.1節(jié)基于平行語料的詞典慨率計(jì)算方法,可以將雙語詞典中原本沒有任何區(qū)別的詞匯譯項(xiàng)加上概率值,從而保證了基于詞典的跨語言檢索查詢翻譯方法具有統(tǒng)計(jì)方法的特征,且避開了統(tǒng)計(jì)方法復(fù)雜的訓(xùn)練過程,翻譯結(jié)果更加符合不同領(lǐng)域的語言習(xí)慣,對(duì)提高跨語言檢索的系統(tǒng)性能作用明顯。表1的實(shí)驗(yàn)結(jié)果能夠說明2.1節(jié)方法的可行性。采用該方法存在的問題前面已分析過,即由于本文項(xiàng)目中采用的雙語詞典是科技領(lǐng)域的,所以在計(jì)算翻譯概率時(shí)特別依賴于平行語料的領(lǐng)域范圍,采用新聞?lì)I(lǐng)域的平行語料效果不明顯。這就加大了對(duì)建設(shè)不同領(lǐng)域平行語料的需求。2.3基于

10、概率詞典的查詢翻譯消歧本文采用的基于平行語料的查詢翻譯詞典改進(jìn)方法的目標(biāo)是:為跨語言檢索提供查詢翻譯消歧的依據(jù)。任選與表1詞匯相關(guān)的用戶查詢,采用基于本文生成的帶概率信息的雙語詞典的查詢翻譯策略(注:除依據(jù)翻譯概率外,本文的跨語言檢索系統(tǒng)還采用了其他的查詢翻譯消歧方法,由于篇幅有限,這里不全部敘述),翻譯結(jié)果如表2所示:3結(jié)論及下一步的工作本文采用的“基于平行語料的翻譯概率詞典改進(jìn)方法”的基本思想是:當(dāng)詞典中每個(gè)詞(短語)對(duì)應(yīng)多個(gè)翻譯結(jié)果時(shí),在詞典本身不能提供更多額外信息的情況下,利用從平行語料中獲得的翻譯概率對(duì)詞典進(jìn)行改進(jìn)。該方法默認(rèn)的背景是,翻譯概率詞典米源于大規(guī)模語料(本文采用的是數(shù)量上

11、百萬的句對(duì)齊平行語料),詞匯的翻譯概率反映了詞匯在現(xiàn)實(shí)場(chǎng)景巾的應(yīng)用概率。因此在進(jìn)行跨語言檢索的查詢翻譯時(shí),可以優(yōu)先選擇那些在翻譯概率詞典中翻譯值更大的詞匯譯項(xiàng),來降低翻譯的歧義性,已有基于本文翻譯概率詞典的跨語言檢索實(shí)驗(yàn)成果驗(yàn)證了本文方法的可行性。該方法仍然存在一些問題:需要有不同領(lǐng)域的平行語料來計(jì)算詞匯屬于某個(gè)類別時(shí)的概率值,但獲取不同領(lǐng)域的平行語料是比較困難的;當(dāng)某詞屬于多個(gè)類別時(shí),其屬于不同類別時(shí)的概率值不具可比性。對(duì)第一個(gè)問題,需要語料資源的不斷累積,這也是筆者課題小組語料建設(shè)的未來目標(biāo);對(duì)第二個(gè)問題,需要加入詞匯歸屬類別的概率信息,擬引入詞匯在類別間的分布信息來確定詞匯對(duì)類別的隸屬度,一旦得到該值,需要和詞匯在類別內(nèi)的概率信息一起來最終確定雙語詞典中詞匯的翻譯概率。問題二的解決方法較為復(fù)雜,是筆者所在課題組下一步的工作目標(biāo)。作者簡(jiǎn)介高影繁,女,1974年生,講師,博士,發(fā)表論文10余篇;徐紅姣,女,1985年生,助理研究員,碩士,發(fā)表論文2篇;王惠臨,男,1948年生,研究員,博士,發(fā)表論文30余篇。    你可能感興趣的畢業(yè)論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論