


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、平行語料庫與雙語詞典編纂語料庫已廣泛應(yīng)用于單語詞典編纂,但在雙語詞典的編纂 中,語料庫的應(yīng)用還相對(duì)較少。筆者在詞典編纂實(shí)踐中發(fā)現(xiàn),現(xiàn) 在廣為流行的普通單語語料庫對(duì)雙語詞典的編纂的作用是有限 的,大量問題仍需通過查閱各種資料來解決。 若利用平行語料庫 (parallel corpora) ,則問題常??梢杂卸?。平行語料庫是一種雙語或多語的語料庫, 即庫中不但有源語 文本,還有對(duì)應(yīng)的譯語文本。 兩種或多種文本一般采用句子或段 落對(duì)齊方式編排。 計(jì)算機(jī)可以對(duì)源語文本和譯語文本進(jìn)行全文檢 索,并提供對(duì)照顯示。常見的平行語料庫有以下幾種:其一,由源語A的文本和譯語B(或C、D等)的對(duì)應(yīng)文本構(gòu) 成的平
2、行語料庫。?疋潿?,由源語A和源語B的文本及其相互的 譯語文本構(gòu)成的平行語料庫。其三,只有A、B或C等語言的譯語文本構(gòu)成的平行語料庫, 源語文本不出現(xiàn)。 1?它虻廿廝擔(dān)?第一種是從源語到譯語的單向語料庫, 第二種 是兩種語言的雙向語料庫, 第三種是譯語語料庫 (不含源語 )。以 英語和漢語為例; 英漢語料庫屬第一種; 英漢漢英語料庫屬第 二種;從同一源語文本分別翻譯成英語和漢語, 則英漢兩種文本 可構(gòu)成第三種語料庫。 編纂不同的雙語詞典, 應(yīng)該使用不同的語 料庫。本文以英漢詞典編纂為例, 探討基于平行語料庫的雙語詞典編纂,希望能給平行語料庫的建設(shè)和利用帶來一些啟迪。?弧叫杏锪峽獾姆(17)棺純
3、 ?目前世界上單語語料庫的發(fā)展十分迅猛,技術(shù)也已臻成熟。 但平行語料庫的發(fā)展才剛剛起步, 對(duì)平行語料庫的作用的認(rèn)識(shí)也 有待深化。 平行語料庫在機(jī)器翻譯中的作用已得到肯定, 而在雙 語詞典編纂中的應(yīng)用則尚處于初始階段。筆者在因特網(wǎng)上搜索發(fā)現(xiàn), 歐洲各種語言間的平行語料庫較 多,英漢平行語料庫卻不多。 英國建有蘭開斯特英漢平行語料庫, 我國有北京外國語大學(xué)王克非等建的英漢平行語料庫。 可見, 建 設(shè)大型的平行語料庫在技術(shù)支持上已經(jīng)沒有多少障礙, 上海世紀(jì) 出版集團(tuán)與復(fù)旦大學(xué)、 交通大學(xué)等單位合作建立的大型英漢雙語 語料庫現(xiàn)在也已經(jīng)啟動(dòng)。 網(wǎng)上還有一些小型英漢語料庫, 如互聯(lián) 網(wǎng)上有中科院計(jì)算機(jī)研究
4、所開發(fā)的“雙語句對(duì)數(shù)據(jù)庫” (http: / mtgroupictaccn/corpus)和麓巍的“英漢雙語平 行語料庫”檢索頁面(http: / oechwxmueducn/hanyu/data/eccorpus/queryasp) 。此 外還有外語教師自建的小型英漢平行語料庫 2 。? ?、平行語料庫建設(shè)的難點(diǎn)與單語語料庫相比, 建設(shè)平行語料庫存在兩個(gè)難題: 一是雙 語語料的收集,二是雙語語料的對(duì)齊處理 ( alignment) 。網(wǎng)絡(luò)上存在大量雙語文本, 如雙語對(duì)照的新聞報(bào)道、 法律文 書、電影劇本、經(jīng)典著作和小說等。這些語料的優(yōu)點(diǎn)是更新快、 數(shù)量大,可以從中采集到最新的語料, 而且網(wǎng)上
5、的電子文本可直 接采用,節(jié)約掃描錄入等方面的工作量。網(wǎng)上語料的缺點(diǎn)是準(zhǔn)確 率不高,譯文質(zhì)量良莠不齊,很難把握。已出版的經(jīng)典著作譯本無疑是良好的雙語語料來源。然而, 由于許多譯本沒有電子文本, 可能需要掃描錄入。在這過程中難 免有錯(cuò)誤發(fā)生。英語口頭語料的采集、記錄、整理及翻譯,是平行語料庫建 設(shè)的最大難題。這項(xiàng)工作在國內(nèi)是無法進(jìn)行的。 但如果語料庫中 沒有一定比例的口語資料, 就無法全面反映語言的真實(shí)情況。 一 個(gè)可能的解決方法,是尋找電影對(duì)白、廣播電視節(jié)目等語料來替 代。語料的對(duì)齊處理,是指將源語文本和譯語文本按段落或按句 對(duì)應(yīng)起來。段落對(duì)齊較容易實(shí)施,但句對(duì)齊的語料使用起來 更便利,價(jià)值更大
6、。平行語料的句子自動(dòng)對(duì)齊,從總體上看,正 確率尚不高。特別是有的譯文十分靈活, 雙語之間的對(duì)應(yīng)并不嚴(yán) 格。這樣,自動(dòng)對(duì)齊之后,尚需人工審校。為此,中科院軟件研 究所開發(fā)了“平行語料自動(dòng)對(duì)齊軟件”和“平行語料對(duì)齊校對(duì) 工具”。這些工具的準(zhǔn)確率較高,但仍需人工校對(duì)。平行語料中的名詞術(shù)語也可以對(duì)齊, 但工作量較大;由于譯 法常存在差異,自動(dòng)對(duì)齊的準(zhǔn)確率不一定會(huì)很高。 語料中普通詞 匯的對(duì)齊,則可行性和實(shí)用性都不大。平行語料的其他處理,如題材分類、標(biāo)注、切分等,與單語語料的處理類似。 一些單語語料庫使用的賦碼和檢索軟件, 在雙 語語料庫中同樣可以使用。三、平行語料庫在雙語詞典編纂中的作用1. 提供真實(shí)
7、例證及譯文 現(xiàn)有雙語詞典中的例證基本來自已有的原文詞典藍(lán)本, 有的 甚至引自現(xiàn)有的雙語詞典。 拿幾本詞典來稍作對(duì)比就可發(fā)現(xiàn), 一 般都是將比較經(jīng)典的例句進(jìn)行改頭換面,如“he”改為“ she”,“ 1980”改為“ 2000”,“ 60 歲”改為“ 70 歲”,“紅色”改 為“藍(lán)色”等。即使最具原創(chuàng)性的英漢大詞典,由編者自己 采集的例證也不過十分之一。 原因是顯而易見的, 在沒有語料庫 的情況下,若要編者自己采集大量例句,不僅時(shí)間不允許,質(zhì)量 也無法保證。由此可見, 平行語料庫可大幅度降低雙語詞典編纂對(duì)藍(lán)本的 依賴性,充分體現(xiàn)“獨(dú)立研編”的思想。2. 提供確切的譯名在雙語詞典的編纂過程中, 一
8、個(gè)常見的難題, 是編者對(duì)詞目 或例句中的某些人名、 地名、商標(biāo)名、術(shù)語等的中文譯名不了解, 而且這些詞一般詞典中也不收錄。 有些譯名實(shí)際上是詞典編者杜 撰的,離語言現(xiàn)實(shí)太遠(yuǎn),也不符合現(xiàn)代語言學(xué)的描寫主義思想。 如英漢大詞典將 walkman 一詞譯為“步行者錄放機(jī)”,而其 常用名為“隨身聽”。有了大型的平行語料庫, 尋找合適的譯名就非常便捷。 但目 前已有的小型平行語料庫尚難以提供這些譯名。 筆者在修訂 英 漢大詞典的過程中,因?yàn)闆]有大型的平行語料庫,便只能在網(wǎng) 上搜索一些雙語網(wǎng)頁, 從中找到合適的譯名。 這雖也能取得較好 效果,但畢竟網(wǎng)上的內(nèi)容過于繁雜,有時(shí)為找到一個(gè)譯名,耗時(shí) 甚多;對(duì)所找
9、到的譯名的正確性也沒有把握,還要反復(fù)驗(yàn)證。近來有學(xué)者認(rèn)為,平行語料庫可用于術(shù)語抽取以及術(shù)語 詞典的編纂和自動(dòng)生成。 3 但筆者認(rèn)為,編纂這樣的詞典,語 料庫的主題與所編詞典必須有相當(dāng)大的學(xué)科關(guān)聯(lián)性, 才有可能取 得成功。3. 用于雙語詞典的修訂和新詞語詞典的編纂 新一代語料庫基本上都是開放性的, 即新語料一直源源不斷 地輸入庫中。這就是辛克萊爾教授提出的監(jiān)控語料庫 (monitor corpus) 的概念。大型平行語料庫同樣應(yīng)該是開放性的,不僅可 以監(jiān)控源語的新變化, 而且可以監(jiān)控譯語中新譯名的出現(xiàn)及舊譯 名的變化。 這樣將大大縮短詞典修訂和增補(bǔ)的周期, 還可以為編 寫新詞語詞典提供便利。在英
10、漢大詞典的修訂中,筆者就曾 根據(jù)新的雙語語料對(duì)一些英語新詞的譯名作了更改,如:Euro 歐元原譯:歐羅 (擬議中的歐洲通用貨幣單位 ) convenience store 便利店原譯: ( 經(jīng)特許延長營業(yè)時(shí)間 的) 方便小商店hedge fund 對(duì)沖基金原譯:有限合伙投機(jī)基金;投機(jī)性 投資集團(tuán)Nicam麗音英漢大詞典補(bǔ)編原譯:納坎系統(tǒng)ZK)T4. 查尋經(jīng)典語句的經(jīng)典譯法 一些名著名篇,如圣經(jīng)、莎劇、著名演說等,可以全文收入語料庫, 同時(shí)錄入經(jīng)典譯文。 有的軟件系統(tǒng)還可以支持多種 譯文。這樣我們就可以從平行語料庫中方便地查得一些經(jīng)典著作 中的名句的譯法。5. 查尋超詞匯語言單位的譯法語言中有些
11、較大的語言單位在詞典中是查不到的, 但在平行 語料庫中檢索就非常便利。 有時(shí)一些句子結(jié)構(gòu)的譯法也可以從中 獲得參考。例如:The bloody visions passed in and out of her mind那血淋淋的幻影在她腦海中時(shí)隱時(shí)現(xiàn)。I have a bottomeddown mind 我是個(gè)沒有多少獨(dú)到見解的 人。The last years passed from her mind 過去的歲月從她的 腦子中閃過。It was borne in the latter with decent philosophy四鄰八舍對(duì)這件事都抱著相當(dāng)超然的態(tài)度。No sooner had
12、 I entered the room than I noticed thesmell not only of tobacco but of gas我一進(jìn)房間就注意到不僅有煙味還有煤氣味。由此可見,英語中一些用法早已有了較貼切的漢語對(duì)應(yīng)譯 法,后來的譯者不必再重復(fù)做同樣的工作。 否則,不僅費(fèi)時(shí)費(fèi)力, 而且往往還不如前人譯得好。由上文的討論可以看出, 在不遠(yuǎn)的將來, 平行語料庫可能會(huì) 成為雙語詞典編纂必不可少的工具, 但這不是唯一的工具。 平行 語料庫可以與規(guī)模較大的詞典數(shù)據(jù)庫以及詞典編纂軟件聯(lián)合在 一起,構(gòu)成一個(gè)詞典編纂平臺(tái)。在這樣的平臺(tái)上,詞典的編寫、 修訂、簡縮都將非常便捷。 由于國內(nèi)尚無較實(shí)用的大型英漢平行 語料庫,我國英漢詞典的編纂、 修訂在質(zhì)量和速度上均受到制約。 以詞典編纂為目標(biāo)的英漢平行語料庫的建設(shè)非常迫切。大型平行語料庫的建設(shè)需要語言專家、 計(jì)算機(jī)專家的共同參 與,耗資較大,立項(xiàng)時(shí)一定要慎重。語料庫的使用目的要明確, 最好首先確定國內(nèi)是否已有現(xiàn)成的技術(shù)或同類的語料庫, 盡可能 避免重復(fù)建設(shè)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)管理系統(tǒng)開發(fā)合作協(xié)議
- 農(nóng)業(yè)科技推廣應(yīng)用案例分析
- 維修服務(wù)委托合同
- 金融產(chǎn)品開發(fā)合作協(xié)議
- 旅游行業(yè)游客安全與責(zé)任免除合同
- 學(xué)生自制動(dòng)漫電影小感悟
- 昆蟲記的讀后感
- 食品營養(yǎng)與健康功能性食品知識(shí)點(diǎn)題集
- 寵物行業(yè)智能門店與健康管理方案
- 市場營銷策略效果評(píng)估表格模板(行業(yè)A)
- 四川政采評(píng)審專家入庫考試基礎(chǔ)題復(fù)習(xí)測試卷附答案
- 2024解析:第十二章滑輪-基礎(chǔ)練(解析版)
- 《社會(huì)應(yīng)急力量建設(shè)基礎(chǔ)規(guī)范 第2部分:建筑物倒塌搜救》知識(shí)培訓(xùn)
- 國有企業(yè)管理人員處分條例培訓(xùn)2024
- 浙江省寧波市2025屆高三上學(xué)期一??荚嚁?shù)學(xué)試卷 含解析
- 代理記賬業(yè)務(wù)內(nèi)部規(guī)范(三篇)
- 腰椎間盤突出癥課件(共100張課件)
- 委托調(diào)解民事糾紛協(xié)議書合同
- 中醫(yī)四季養(yǎng)生之道課件
- 消防安全教育主題班會(huì)課件
- 7.1.2 直觀圖的畫法-【中職專用】高一數(shù)學(xué)教材配套課件(高教版2021·基礎(chǔ)模塊下冊(cè))
評(píng)論
0/150
提交評(píng)論