翻譯語料庫建設(shè)中一些問題的軟件處理法-文檔資料_第1頁
翻譯語料庫建設(shè)中一些問題的軟件處理法-文檔資料_第2頁
翻譯語料庫建設(shè)中一些問題的軟件處理法-文檔資料_第3頁
翻譯語料庫建設(shè)中一些問題的軟件處理法-文檔資料_第4頁
翻譯語料庫建設(shè)中一些問題的軟件處理法-文檔資料_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、譯語料庫建設(shè)中一些問題的軟件處理法The core of Computer Aided Translation - theaccumulation of translation memory makes the corpus. The size of corpus determines the efficiency of computer aided translation software. Therefore , the construction of the corpus is a subject that CAT users must do. In the construction o

2、f corpus , sentence segmentation , will encounter problems such as repetition , impurity. The most efficient way to deal with this large scale is software.A software processing method is proposed in this paper,which can solve and deal with the problems encountered in the construction of the corpus.0

3、引言“累積大量的英漢雙語語料并建立語料庫,對(duì)于計(jì)算機(jī)輔助 譯的幫助日益擴(kuò)大.而“語料庫,尤其是雙語平行語料庫, 在譯實(shí)踐方面的應(yīng)用潛力也十分巨大.為此,文章旨在研究主要用于計(jì)算機(jī)輔助譯CAT的語料庫建設(shè)中遇到的一些 問題的解決方法.在CAT行業(yè),一般把這種譯語料庫即譯 記憶庫簡(jiǎn)稱為“句庫.所以本文下面也簡(jiǎn)稱為“句庫.為建設(shè)大型句庫,需通過各種途徑,采用各種方法收集或制 作句庫.但是,“經(jīng)過語料采集程序所收集的各類語料、尤其是通過網(wǎng)絡(luò)下載、掃描識(shí)別等方法獲得的文本大多會(huì)存在各種不合 標(biāo)準(zhǔn)的符號(hào)或格式,這些不標(biāo)準(zhǔn)的符號(hào)格式會(huì)導(dǎo)致語料標(biāo)注錯(cuò) 誤,為了防止這一問題,在做好原始文件備份工作后,就需要對(duì)

4、語料進(jìn)行清潔整理.更麻煩的是,即使是質(zhì)量好的句庫,也 可能會(huì)與自己已有的句庫重復(fù). 對(duì)于上萬句對(duì)的句庫來說, 要處 理這些問題靠手工操作是很難完成的,更不用說幾十萬甚至上百萬句對(duì)的語料庫了.這就要求我們對(duì)句庫的質(zhì)量缺陷和重復(fù)問題 進(jìn)行研究,并針對(duì)這些問題提出簡(jiǎn)便易行的解決方法.1語料庫建設(shè)中存在的問題1.1 重復(fù)問題對(duì)于搜集來的句庫,首要問題是重復(fù).也就是說,新來的句 庫與自己已有的句庫可能有重復(fù). 如果一個(gè)CAT用戶只有幾百萬 句對(duì)以下的句庫時(shí),句庫的重復(fù)與否是無關(guān)緊要的,由于電腦的運(yùn)行速度不會(huì)受這點(diǎn)重復(fù)句庫多占電腦內(nèi)存的影響.但是當(dāng)句庫擁有量超過幾千萬句對(duì)時(shí),電腦的內(nèi)存就會(huì)變得極其珍貴,電

5、腦的運(yùn)行速度將會(huì)受到極大的影響, 甚至造成電腦或CATa件不能 運(yùn)行.這就要求對(duì)自己的每個(gè)句庫都檢測(cè)并刪除重復(fù)的句對(duì),以最大限度地利用電腦內(nèi)存空間并提升CAT的運(yùn)行速度.如果句庫擁有量在幾十萬句對(duì)以下,這個(gè)問題是不難解決 的.如現(xiàn)在有些CAT有去重功能.我們只要把自己原有的句庫導(dǎo) 入CAT再把新來的句庫導(dǎo)入,兩者合并起來后,CA儂件就能自動(dòng)把重復(fù)的句對(duì)刪除. 但是當(dāng)句庫太大時(shí),就超過了 CATa件 的容量,其重復(fù)問題就無法處理了. 而且現(xiàn)在一般的CAT件只 能合并不能拆分還會(huì)導(dǎo)致這樣一種結(jié)果一一不同專業(yè)的句庫合 并后原來句庫的專業(yè)分類狀態(tài)會(huì)被破壞.上述問題對(duì)我們提出了一個(gè)要求一一需要有一種“去

6、重手段,這種手段既能快速大批量地刪除重復(fù)的句對(duì), 又能保持新 句庫的原有專業(yè)分類狀態(tài). 對(duì)于這樣的要求,目前一般的CATt 件仍無法做到.1.2 切分問題句庫的切分也稱拆分.目前一般的 CA鍬件只有合并功能,沒有切分功能.拿Trados來說,它的單個(gè)句庫容量比一般的 CAT 要大.但它導(dǎo)入句庫合并后卻不能切分,這對(duì)于需要按專業(yè)分類 的句庫來說就不能滿足需要了. 而且單個(gè)句庫太大時(shí)會(huì)影響電腦 的運(yùn)行速度,也就影響了譯速度.更令人頭痛的是,有些來自 Trados的單個(gè)句庫可能多達(dá)幾百萬句對(duì),而一般的CA儂件沒有這么大的容量.如雪人軟件單個(gè)句庫的容量只有一百幾十萬句 對(duì),大于這個(gè)容量就無法導(dǎo)入,因而

7、就無法把來自Trados的TMX 格式的句庫導(dǎo)入并轉(zhuǎn)換成雪人的 STM格式,這樣雪人就無法使用 這個(gè)句庫.這就要求有種方法來按需求切分句庫,特別是切分大 型句庫.對(duì)此,目前一般的 CATa件也做不到.1.3 雜質(zhì)問題為了加快句庫的制作速度,大型句庫往往是借助軟件自動(dòng)生成的.但是“某些軟件不能識(shí)別其他編碼格式的文本,對(duì)一些特殊格式標(biāo)識(shí)符號(hào)在讀取中會(huì)出現(xiàn)亂碼.此外,“制作雙語對(duì)應(yīng)語料庫,較為高效的方式是利用 Trados的WinAlign工具自動(dòng) 對(duì)齊句對(duì),其優(yōu)點(diǎn)是速度快,準(zhǔn)確率較高,優(yōu)于雙語語料庫檢索 軟件ParaConc內(nèi)置的句對(duì)工具;具缺點(diǎn)是對(duì)中文的支持不夠完 美,有時(shí)會(huì)出現(xiàn)亂碼.而且,在句

8、庫制作、文件轉(zhuǎn)換及不同 CA傲件之間的交換過程中,由于格式不同及其他種種原因,句 庫中也會(huì)產(chǎn)生各種各樣的亂碼和其他非詞語性的東西,甚至還會(huì)產(chǎn)生原文或譯文空白的句對(duì).對(duì)于這些亂碼、非詞語性的東西及 原文或譯文空白的句對(duì),本文下面統(tǒng)稱為雜質(zhì).這些雜質(zhì)的存在 影響了句庫的質(zhì)量,并且會(huì)影響譯時(shí)語料查找速度和精確度, 因此需要?jiǎng)h除.這種刪除功能現(xiàn)在一般的CATa件是沒有的.2語料庫建設(shè)中問題的解決方法綜上所述,在句庫建設(shè)中我們會(huì)面臨三大問題一一重復(fù)、切分、雜質(zhì).而雜質(zhì)又可歸納并分類為:1有原文無譯文;2 有譯文無原文;3譯文錯(cuò)誤;4譯文與原文錯(cuò)亂,即對(duì)齊 錯(cuò)誤;5其他各類雜質(zhì).上述這些問題,對(duì)于一個(gè)只有

9、幾百或者幾千句對(duì)以下的小型 句庫來說,是可以人工修正的. 但是對(duì)于幾萬或幾十萬句對(duì)以上 的句庫來說,人工修整需要花費(fèi)極大的人力和極長(zhǎng)的時(shí)間,所以實(shí)際上是不可行的.為此,需要專門研究出一個(gè)簡(jiǎn)便易行的方法 來解決這些問題.由于目前的人工智能水平還無法判斷譯文的錯(cuò)誤或者譯文 的好壞,所以對(duì)于第三大問題中的譯文錯(cuò)誤和對(duì)齊錯(cuò)誤, 軟件是 很難解決的;而譯文對(duì)齊錯(cuò)誤就性質(zhì)上來說與譯文錯(cuò)誤是一樣的,因此軟件也無法識(shí)別.所以這兩個(gè)問題目前需要人工檢查處 理.但是,“建設(shè)語料庫是一件比擬繁瑣的事情,光靠人力是不 能滿足需求的,隨著現(xiàn)代科技的快速開展,強(qiáng)大的軟件支持將為 我國(guó)語料的建設(shè)提供極大的便利.筆者經(jīng)過長(zhǎng)期

10、的實(shí)踐和研究發(fā)現(xiàn),上述三大問題中的前面二大問題及第三大問題中除了譯 文錯(cuò)誤和對(duì)齊錯(cuò)誤外,其他問題根本都可以用軟件解決.為此, 筆者與軟件設(shè)計(jì)人員合作, 設(shè)計(jì)開發(fā)出了 一個(gè)句庫處理軟件,其性能簡(jiǎn)介如下:2.1 軟件分類由于是與軟件設(shè)計(jì)人員合作,具將軟件分試用版和正式版二 種.試用版的功能有較多限制; 且試用期過后軟件會(huì)自動(dòng)禁止使 用.正式版各項(xiàng)功能齊全,處理速度比試用版要快得多.由于目前幾乎所有的 CATt件都備有TMX#式,且“ TMX翻 譯記憶交換標(biāo)準(zhǔn),Translation Memory Exchange 是一種不依 賴任何軟件廠商的公開的譯記憶數(shù)據(jù)庫格式標(biāo)準(zhǔn)創(chuàng)立TMX標(biāo)準(zhǔn),目的是為了讓譯

11、者可以更容易地在不同的工具之間交換數(shù) 據(jù),因此,本軟件選擇 TMXM式作為本軟件的運(yùn)行格式.對(duì) 于其它格式的句庫,可以用CATa件轉(zhuǎn)換成TM潞式后再導(dǎo)入本 軟件運(yùn)行.2.2 軟件容量由于軟件的工作效果極度依賴內(nèi)存,因此,軟件使用當(dāng)時(shí)電腦的剩余內(nèi)存決定了當(dāng)時(shí)可以處理的最大句庫尺寸.據(jù)測(cè)試,對(duì)于試用版,電腦剩余內(nèi)存3.6GB時(shí),軟件可處理的文件大小上限 約為600MEB對(duì)于正式版,只要電腦放得下,軟件的容量無限.2.3 軟件適用的語種此軟件可適用于中英、中西、中俄、中日、中法、中德、英 俄、西日等各種語言.以中英為例,該軟件能夠處理英譯中或者 中譯英的句庫.但因目前市場(chǎng)上流行的絕大多數(shù)句庫均為中英

12、, 且都采用英譯中模式互相交換, 所以英譯中模式為該軟件的最常 用句庫處理模式.2.4 軟件運(yùn)行速度軟件切分和刪除雜質(zhì)時(shí)的運(yùn)行速度很快,根本上以秒計(jì),能夠滿足快速操作的要求. 對(duì)于檢測(cè)和刪除重復(fù),試用版的運(yùn)行速 度比擬緩慢,且受句庫大小的影響較大; 而正式版的速度受句庫 容量大小的影響很小,無論是小型還是大型句庫,都能高速運(yùn)行; 可見正式版的功能遠(yuǎn)比試用版強(qiáng)大.3結(jié)論句庫經(jīng)過以上“拆分、“去重和“刪除雜質(zhì)三大方法 處理后,質(zhì)量可以得到較大的提升.止匕外,軟件還有將句庫中的 漢字繁體轉(zhuǎn)換成簡(jiǎn)體及Excel格式轉(zhuǎn)換等處理功能,可以滿足多 用途的需要.但是另一方面,限于目前的人工智能水平,句庫中 的錯(cuò)譯、對(duì)齊錯(cuò)亂、譯文不完整等缺陷問題,尚未解決,需要作進(jìn)一步的研究和探索.注釋 張倩.計(jì)算機(jī)輔助譯的應(yīng)用J.雞西大學(xué)學(xué)報(bào),2021 (6) : 74. 李毅鵬.從雙語平行語料庫到譯記憶庫J.雞西大學(xué) 學(xué)報(bào),2021 (12) : 63.董愛華.專門用途語料庫的建設(shè)、應(yīng)用、問題與開展趨勢(shì) J.北京印刷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論