




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、中日雙語(yǔ)平行語(yǔ)料庫(kù)之日語(yǔ)科技語(yǔ)標(biāo)注技術(shù)中日雙語(yǔ)平行語(yǔ)料庫(kù)之日語(yǔ)科技語(yǔ)標(biāo)注技術(shù)一、科技語(yǔ)的定義及表現(xiàn)形式科技實(shí)際內(nèi)容的另一種表現(xiàn)形式是科技語(yǔ)文章。科技文獻(xiàn)存在的前提是科技語(yǔ)言的掌握。語(yǔ)言學(xué)給出這樣的結(jié)論,科技日語(yǔ)是以日語(yǔ)為根基,傳遞的是科技方面的思想內(nèi)容,是日語(yǔ)中必不可少的一局部??萍既照Z(yǔ)語(yǔ)體描繪的主體是現(xiàn)實(shí)生活中客觀存在的事實(shí),這就是自身最大的特點(diǎn),由于這個(gè)原因使其在表現(xiàn)手段、邏輯思維等方面有鮮明的特色。換句話說(shuō),科技日語(yǔ)語(yǔ)體在遣詞造句等方面有其自身的特點(diǎn)。只有充分地掌握這些特點(diǎn),才能正確理解科技日語(yǔ)文章。語(yǔ)言是思維的外在表現(xiàn)形式,思維有賴于語(yǔ)言,尤其有賴于文章的準(zhǔn)確性表達(dá)思維的明晰性,文章的
2、層次性表達(dá)思維的條理性,文章的周密性表達(dá)思維的邏輯性閱讀過(guò)程中的判斷推理、分析綜合、類(lèi)比想象、欣賞評(píng)價(jià),都離不開(kāi)思維。換言之,文章閱讀的過(guò)程,就是整理思維的過(guò)程而閱讀科技語(yǔ)體的文章,不僅是一個(gè)語(yǔ)義識(shí)別、語(yǔ)法分析的過(guò)程,同時(shí)也是讀者運(yùn)用相關(guān)學(xué)科的知識(shí)和經(jīng)歷對(duì)寫(xiě)作者所傳遞的新理論,新信息,新資料進(jìn)展判斷、推理、分析、綜合的復(fù)雜邏輯思維過(guò)程。因此,在閱讀整理科技日語(yǔ)語(yǔ)體的文獻(xiàn)時(shí),除了掌握科技日語(yǔ)的根本語(yǔ)言特點(diǎn),具有較高程度的語(yǔ)言分析才能外,還必須理解有關(guān)學(xué)科的根本知識(shí)和較強(qiáng)的邏輯思維才能,才能把握原文的精神本質(zhì),用恰當(dāng)?shù)母拍钊ヅ袛嘣摹6?、中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)一中日雙語(yǔ)日語(yǔ)科技語(yǔ)標(biāo)注技術(shù)采用的主要
3、方法。目前,大多數(shù)語(yǔ)料庫(kù)采用數(shù)據(jù)庫(kù)處理和文本處理相結(jié)合的組織模本文由論文聯(lián)盟搜集整理式,采用XLExtendarkingLanguage標(biāo)記語(yǔ)言。該標(biāo)記語(yǔ)言的優(yōu)點(diǎn)在于語(yǔ)料處理比擬直觀,根本和實(shí)際的文章相似。此種標(biāo)記語(yǔ)言需要高配置、高性能的硬件設(shè)施,但是對(duì)于數(shù)據(jù)的處理才能較低,所以很難完成多用戶的共同處理任務(wù)。相對(duì)于其他的標(biāo)記語(yǔ)言,該技術(shù)的功能較繁瑣,數(shù)據(jù)庫(kù)的管理和平安性的維護(hù)都很難能實(shí)現(xiàn)。由此得出該種標(biāo)注技術(shù)只適用于數(shù)據(jù)量較小,雙語(yǔ)語(yǔ)料庫(kù)。但是,到目前為止還沒(méi)有研究出比XL標(biāo)記語(yǔ)言更便利的標(biāo)記語(yǔ)言,因此,市場(chǎng)照舊采用XL語(yǔ)言,在此根底上研發(fā)出了多用戶并發(fā)操作形式,即群組分布式操作形式,以到達(dá)揚(yáng)
4、長(zhǎng)避短的目的。群組分布式操作形式,通過(guò)市場(chǎng)熱門(mén)的數(shù)據(jù)庫(kù)應(yīng)用軟件,分解文本數(shù)據(jù),并將其存儲(chǔ)在一個(gè)公共數(shù)據(jù)庫(kù)中,主機(jī)之外的計(jì)算機(jī)只能為客戶機(jī)的身份操作數(shù)據(jù)庫(kù)。分布式計(jì)算機(jī)系統(tǒng)是由廣域網(wǎng)或局域網(wǎng)互相連接,可以在數(shù)臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行程序的不同局部。通過(guò)B/SBrser/Server,閱讀器/效勞器或/Slient/Server,客戶端/效勞器構(gòu)造,不僅能將語(yǔ)料數(shù)據(jù)有效的存儲(chǔ)和完成復(fù)雜的檢索,而且能實(shí)現(xiàn)了多用戶的群組操作,到達(dá)了事半功倍的效果。中日雙語(yǔ)語(yǔ)料庫(kù)的建立系統(tǒng)和使用系統(tǒng)是由數(shù)臺(tái)互相聯(lián)網(wǎng)的計(jì)算機(jī)組成,將一臺(tái)計(jì)算機(jī)放在中心的位置,充當(dāng)效勞器,剩下的計(jì)算機(jī)只有通過(guò)局域網(wǎng)訪問(wèn)效勞器才能獲得需要加工的數(shù)據(jù)
5、。以此讓語(yǔ)言翻譯有關(guān)的研究人員都能操作數(shù)據(jù)庫(kù)。群組分布式操作形式像網(wǎng)一樣將用戶、創(chuàng)立人員、研究人員等與效勞器相連,從而操作翻譯語(yǔ)料庫(kù)。二中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)遇到的主要問(wèn)題。1語(yǔ)言學(xué)理論上的問(wèn)題。首先,中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)缺乏統(tǒng)一的文法理論基矗從自然語(yǔ)言處理理論來(lái)看,還沒(méi)有哪一種語(yǔ)言學(xué)流派成為一種理想的理論根底,因此建立中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)就面臨著缺乏語(yǔ)言學(xué)理論基矗這樣,一方面是缺乏一個(gè)統(tǒng)一的語(yǔ)言理論來(lái)指導(dǎo)建立中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù),從而造成中日標(biāo)注分別建立在兩個(gè)不同的語(yǔ)法體系的現(xiàn)象;另一方面,一旦選定某種文法理論來(lái)設(shè)定標(biāo)注技術(shù),那么要引入另一個(gè)文法進(jìn)展某些研究時(shí),就會(huì)造成標(biāo)注技術(shù)的沖突和
6、冗余,其結(jié)果就是雙語(yǔ)標(biāo)注技術(shù)的標(biāo)準(zhǔn)性無(wú)從談起。其次,中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)面臨著描繪雙語(yǔ)現(xiàn)象的難題,這一點(diǎn)在語(yǔ)言學(xué)中也是一個(gè)有待深化研究的問(wèn)題。雙向機(jī)器翻譯系統(tǒng)的下一步工作是:利用等值翻譯理論,建立等值翻譯表達(dá)式,從而實(shí)現(xiàn)雙向機(jī)器翻譯系統(tǒng)的知識(shí)級(jí)的共享。但是這一方案在理論上還有很多問(wèn)題有待克制,其中之一就是如何進(jìn)展雙語(yǔ)的描繪問(wèn)題:不僅需要分別充分描繪漢語(yǔ)和日語(yǔ)各自的特點(diǎn),而且還要可以刻畫(huà)出二者互相轉(zhuǎn)換時(shí)的特征,也就是說(shuō)需要刻畫(huà)出雙語(yǔ)的異同點(diǎn)。而恰恰在這里,語(yǔ)言學(xué)和比擬語(yǔ)言學(xué)研究乃至翻譯研究,都沒(méi)有可以提供一個(gè)充分可行的理論。也就是說(shuō),中日雙語(yǔ)標(biāo)注集需要首先確定所需要表示的知識(shí)范圍:漢語(yǔ)和日語(yǔ)之
7、間終究在什么范圍、什么程度上存在那些異同,標(biāo)注技術(shù)終究在什么層次上刻畫(huà)雙語(yǔ)現(xiàn)象。此外,在雙語(yǔ)標(biāo)注技術(shù)的出發(fā)點(diǎn)上,還存在著理性主義和經(jīng)歷主義兩種不同的意見(jiàn)。理性主義意見(jiàn)認(rèn)為雙語(yǔ)標(biāo)注技術(shù)應(yīng)該根據(jù)雙語(yǔ)研究的成果,對(duì)于雙語(yǔ)間一樣的語(yǔ)言現(xiàn)象使用一樣的符號(hào),而對(duì)于那些不同的現(xiàn)象再引入互相區(qū)別的標(biāo)志。當(dāng)然這種狀態(tài)比擬理想,但是目前這方面的語(yǔ)言學(xué)研究還不太成熟。另一種經(jīng)歷主義認(rèn)為,雙語(yǔ)標(biāo)注技術(shù)應(yīng)該針對(duì)每種語(yǔ)言的特點(diǎn)設(shè)置各自符號(hào),而后在此根底上進(jìn)展雙語(yǔ)的比擬和對(duì)照研究,才可以充分提醒兩種語(yǔ)言的異同。這種意見(jiàn)從理論的角度來(lái)看是可取的,其缺點(diǎn)是可能造成一定的符號(hào)冗余。2雙語(yǔ)標(biāo)注技術(shù)設(shè)計(jì)的幾個(gè)難點(diǎn)。首先,公認(rèn)性是雙語(yǔ)
8、標(biāo)注技術(shù)存在的基矗公認(rèn)常常意味著人們對(duì)某個(gè)事物達(dá)成了共識(shí),但對(duì)于語(yǔ)言標(biāo)注乃至整個(gè)自然語(yǔ)言處理來(lái)說(shuō),這種共識(shí)幾乎不存在。其次,開(kāi)放性是中日雙語(yǔ)標(biāo)注技術(shù)的設(shè)計(jì)核心。標(biāo)注技術(shù)的開(kāi)放性在機(jī)器翻譯研究中不僅僅是技術(shù)上的問(wèn)題,而且具有非常重要的理論意義。機(jī)器翻譯研究包括句法分析、詞義消歧識(shí)獲娶口語(yǔ)機(jī)器翻譯等不同專(zhuān)業(yè)眾多的研究方向。最后,兼容性是中日雙語(yǔ)標(biāo)注技術(shù)實(shí)用化的表達(dá)。目前,語(yǔ)料庫(kù)研究和其他自然語(yǔ)言處理研究的果是機(jī)器翻譯研究的一個(gè)豐富的資源,假如可以使標(biāo)注技術(shù)兼容這些研究所使用的符號(hào)集,也是說(shuō)在彼此之間可以建立比擬好的對(duì)應(yīng)關(guān)系,那么不僅可以利用這些豐富的研究成果和已的研究工具,而且可以使我們的研究和相
9、關(guān)的研究之間具備了真正的可比性。三中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)問(wèn)題的初步解決方案。1中日科技語(yǔ)標(biāo)注技術(shù)從整體上不依賴于某個(gè)特定的文法,而是根據(jù)目前漢語(yǔ)和日語(yǔ)的研究經(jīng)歷,分別對(duì)兩種語(yǔ)言中比擬普遍的、公認(rèn)需要研究的語(yǔ)言現(xiàn)象設(shè)置符號(hào);對(duì)于其他可能需要的知識(shí)表示,留待后期完善。2標(biāo)注技術(shù)包括詞法標(biāo)注和句法標(biāo)注兩大類(lèi),兩者的語(yǔ)法層次、符號(hào)大不一樣,在詞法標(biāo)注技術(shù)和句法標(biāo)注技術(shù)中,分別將各自的符號(hào)劃分成三個(gè)局部:根本符號(hào),常用符號(hào)和專(zhuān)用符號(hào)。3根本符號(hào)描繪自然語(yǔ)言共有的一些特征或者中日雙語(yǔ)的根本概念,這些概念在各種語(yǔ)料庫(kù)中幾乎都有類(lèi)似或一樣的符號(hào)代表,例如詞法標(biāo)注中的名詞、動(dòng)詞等概念和句法標(biāo)注中的名詞詞組、動(dòng)詞
10、詞組、介詞詞組等等。4中日文常用符號(hào)集主要包括一些比擬公認(rèn)或應(yīng)用比擬廣泛的語(yǔ)法概念,例如人稱(chēng)、數(shù)、性別、時(shí)態(tài)、語(yǔ)態(tài);甚至可能包括所需要的某個(gè)文法中的一些根本概念,如格語(yǔ)法中各種格的符號(hào)等等。中日文專(zhuān)用符號(hào)集可以看作是對(duì)以上兩種符號(hào)的補(bǔ)充,它往往是根據(jù)各種分支研究的需要所填補(bǔ)的各種表示符號(hào)。例如口語(yǔ)機(jī)器翻譯所需要的額外符號(hào),漢語(yǔ)分詞研究所添加的特征標(biāo)記等等。根本符號(hào)和常用符號(hào)一般來(lái)說(shuō)是比擬固定的,但是常用符號(hào)可能隨著研究的深化,經(jīng)課題組和有關(guān)專(zhuān)家討論后,進(jìn)展有系統(tǒng)的改動(dòng)或添加。5專(zhuān)用符號(hào)表達(dá)整體的開(kāi)放性,可以根據(jù)需要隨時(shí)添加。不過(guò),應(yīng)該首先盡可能沿用已有的符號(hào),只有在非常必要時(shí)再進(jìn)展增補(bǔ)。對(duì)于每
11、個(gè)新增的符號(hào),都要有嚴(yán)格的說(shuō)明和定義;而新增一批專(zhuān)門(mén)用于某個(gè)分支研究的符號(hào)時(shí),應(yīng)該專(zhuān)門(mén)書(shū)寫(xiě)說(shuō)明,記載該項(xiàng)研究繼承了哪些已有的符號(hào),新增了哪些符號(hào)等等。一般來(lái)說(shuō),這些專(zhuān)用的符號(hào)都不允許脫離已有的標(biāo)注集而另成體系。三中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)的研究意義。其意義主要有以下幾個(gè)方面:1穩(wěn)定的研究根底標(biāo)準(zhǔn)的中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)是機(jī)器翻譯、雙語(yǔ)語(yǔ)料庫(kù)以及其他有關(guān)研究的知識(shí)表示基矗以一個(gè)統(tǒng)一的根底開(kāi)展研究可以確保研究的延續(xù)性和一致性。2研究成果的積累有利于機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)和有關(guān)的雙語(yǔ)語(yǔ)料加工。假如可以以一個(gè)標(biāo)準(zhǔn)的中日雙語(yǔ)標(biāo)注技術(shù)為根底,那么每個(gè)為此目的開(kāi)發(fā)的輔助工具和系統(tǒng)都可以直接繼承并加以利用,從而節(jié)省科
12、研勞動(dòng),依靠成果積累加快研究的深化。3統(tǒng)一的比照平臺(tái)和轉(zhuǎn)換標(biāo)準(zhǔn)英漢雙語(yǔ)的語(yǔ)料加工在國(guó)內(nèi)外已經(jīng)有比擬豐富的成果,而且所使用的符號(hào)體系各有特點(diǎn)。假如沒(méi)有一個(gè)標(biāo)準(zhǔn)的雙語(yǔ)標(biāo)注集,就無(wú)法對(duì)這些工作進(jìn)展比擬,而且對(duì)于這些語(yǔ)料的進(jìn)一步加工利用就會(huì)需要額外的轉(zhuǎn)換工作。因此,標(biāo)準(zhǔn)的中日雙語(yǔ)標(biāo)注技術(shù)會(huì)促進(jìn)對(duì)已有資源的利用??梢?jiàn),一個(gè)標(biāo)準(zhǔn)的中日雙語(yǔ)標(biāo)注技術(shù)對(duì)于涉及中日雙語(yǔ)的研究來(lái)說(shuō)具有戰(zhàn)略意義假如可以在全國(guó)范圍內(nèi)建立這樣一個(gè)標(biāo)準(zhǔn),其意義將更加宏大。在這一過(guò)程中,我們發(fā)現(xiàn)建立中日雙語(yǔ)標(biāo)注技術(shù)不只是對(duì)原有單向標(biāo)注集的簡(jiǎn)單歸納整理。雙語(yǔ)標(biāo)注技術(shù)不僅涉及到一些比擬復(fù)雜的實(shí)現(xiàn)策略問(wèn)題,還涉及到比擬語(yǔ)言學(xué)和翻譯理論中懸而未決的一些問(wèn)題。結(jié)語(yǔ):中日雙語(yǔ)科技語(yǔ)標(biāo)注技術(shù)是中日雙語(yǔ)處理研究的知識(shí)表達(dá)基矗由于目前國(guó)內(nèi)文獻(xiàn)對(duì)此類(lèi)問(wèn)題關(guān)注較少,本文比擬詳細(xì)地闡述了設(shè)計(jì)雙語(yǔ)標(biāo)注技術(shù)的必要性、設(shè)計(jì)中的難點(diǎn)并提出了一個(gè)可行的解決方案。該方案不僅可以適應(yīng)相當(dāng)長(zhǎng)的時(shí)間內(nèi)中日雙向機(jī)器翻譯和漢語(yǔ)語(yǔ)料庫(kù)研究,而且對(duì)于其他跨語(yǔ)言
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東省清遠(yuǎn)市連州市中考語(yǔ)文一模試卷
- 【鼎帷咨詢】2025年馬斯克商業(yè)帝國(guó)之X平臺(tái)(推特)發(fā)展戰(zhàn)略研究報(bào)告
- 大學(xué)生就業(yè)教程第二版 文厚潤(rùn) 課件 第九講學(xué)習(xí)資料
- 河南省信陽(yáng)市高三上學(xué)期第二次教學(xué)質(zhì)量檢測(cè)歷史試題
- 人教版(2024)八年級(jí)下冊(cè)第7課 偉大的歷史轉(zhuǎn)折一等獎(jiǎng)教學(xué)設(shè)計(jì)
- 初中地理人教版 (新課標(biāo))八年級(jí)上冊(cè)第二節(jié) 氣候教案設(shè)計(jì)
- 七年級(jí)數(shù)學(xué)上冊(cè) 第3章 一元一次方程3.4一元一次方程模型的應(yīng)用第3課時(shí) 利用一元一次方程解決行程問(wèn)題教學(xué)設(shè)計(jì) (新版)湘教版
- 人教部編版七年級(jí)下冊(cè)第五單元20 外國(guó)詩(shī)二首假如生活欺騙了你教案設(shè)計(jì)
- 人美 版四年級(jí)美術(shù)下冊(cè)(北京)《第18課 靠墊設(shè)計(jì)》教學(xué)設(shè)計(jì)
- 內(nèi)部培訓(xùn)刑法有關(guān)知識(shí)考試題庫(kù)附答案
- (完整版)行政文員筆試題庫(kù)及答案-打印版
- 2025年宣傳策劃類(lèi)面試題及答案
- DBJ50-T-047-2024 建筑地基基礎(chǔ)設(shè)計(jì)標(biāo)準(zhǔn)
- 陶行知教育思想在高中生物教學(xué)中的實(shí)踐與應(yīng)用
- 5.1《水經(jīng)注》序教案-【中職專(zhuān)用】高二語(yǔ)文同步教學(xué)(高教版2023·拓展模塊下冊(cè))
- 2025年河南水利與環(huán)境職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)及參考答案
- 【高考真題】2023年新高考?xì)v史真題試卷(江蘇卷)
- 樓頂發(fā)光字安全施工方案
- 2025年春季教導(dǎo)處工作計(jì)劃(附2至6月工作安排)
- 廣播節(jié)目播音主持知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋浙江工業(yè)大學(xué)
- 2024-2025年度小學(xué)班級(jí)管理創(chuàng)新計(jì)劃
評(píng)論
0/150
提交評(píng)論