




已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
多語種的拼音到漢字的轉(zhuǎn)換和翻譯,趙海上海交通大學(xué)zhaohai2013.05.31長沙,目錄,問題概述拼音輸入法機器翻譯:服務(wù)于漢字文化圈語言結(jié)語,漢字文化圈,漢字亦稱中文字、中國字,是世界上仍被廣泛使用的高度發(fā)展的表意文字。仍在使用和曾經(jīng)使用漢字的國家和地區(qū)包括漢字的誕生地中國、周邊深受其影響的越南、朝鮮半島和日本,以及近代華人移民聚集的新加坡、馬來西亞等東南亞國家。接受漢字及中國文化影響的地理區(qū)域在某些文獻(xiàn)中被非正式地稱為漢字文化圈,漢字文化圈的拼音化,漢字文化圈各語言均是世界意義上的大語種漢語有超過13億人使用,是使用人口最多的語言日語有1.3億的使用者朝鮮語/韓語有超過7,000萬的使用人口越南語則擁有世界范圍內(nèi)約8,000萬的使用者,使用人數(shù),應(yīng)用驅(qū)動的音字轉(zhuǎn)化任務(wù),中文的拼音輸入法從漢語拼音到漢字句子機器翻譯從假名、諺文或者越南語國語字到漢字串從語義等價的角度,觀察不同語言的讀音差異和演化軌跡,目錄,問題概述拼音輸入法機器翻譯:服務(wù)于漢字文化圈語言結(jié)語,基于拼音的中文輸入法,主流的輸入法大部分是基于拼音的不考慮聲調(diào),漢語拼音的音節(jié)數(shù)少于500個漢字,則有3000-20000個,根據(jù)應(yīng)用場合不同而不同無論哪種情形,基于拼音輸入面臨的主要問題是:針對輸入拼音音節(jié),快速選定漢字。,通用策略,輸入一個拼音音節(jié),會有幾十個漢字對應(yīng)輸入雙音節(jié)詞對應(yīng)的拼音,則會快速降低到只有幾個合法的漢字詞對應(yīng)所以輸入盡可能長的音節(jié)串!,拼音輸入法作為漢字串解碼任務(wù),輸入:漢語拼音串輸出:一一對應(yīng)的(合乎漢語語法語義的)漢字串串標(biāo)注任務(wù)最大熵模型解碼統(tǒng)計機器翻譯解碼,作為機器翻譯的漢字串解碼PACLIC2012,流程:沒有對齊過程僅適用標(biāo)準(zhǔn)的MERT調(diào)試以及MOSES解碼有效集成語言模型等豐富特征精度和整句正確率均優(yōu)于標(biāo)準(zhǔn)的最大熵模型,不僅僅是串解碼任務(wù),我們使用字的精度來評估漢字串解碼任務(wù)對于串解碼任務(wù)這是標(biāo)準(zhǔn)度量,因而它不是問題但是,我們服務(wù)于中文輸入法,它的真正目標(biāo)是最少的擊鍵選擇來完成輸入,新型的漢字串解碼評估度量,基于擊鍵次數(shù)解碼不可能100%正確,如果1-best輸出不是完全正確的,我們依賴于輸入法給出的其他次優(yōu)的候選這就是核心問題!假定所有的輸入都是基于數(shù)字鍵的選擇完成,我們得到一個擊鍵次數(shù)度量,簡單的擊鍵行為模型,假定全部選擇都由數(shù)字選擇完成,不考慮光標(biāo)移動、刪除等操作輸入完整拼音需要n次擊鍵,需要m次數(shù)字選擇完成漢字輸入目標(biāo)的擊鍵效率評估度量是m/(n+m)這個值越高,輸入法越友好優(yōu)化候選長度、排序等以降低以上的度量,觸摸屏上的中文輸入法更加復(fù)雜的擊鍵行為,目錄,問題概述拼音輸入法機器翻譯:服務(wù)于漢字文化圈語言結(jié)語,漢字作用再審視,中國1950s:漢語拼音曾經(jīng)計劃用來替換漢字作為正式的文字廢除漢字1980s:漢字的計算機處理面臨挑戰(zhàn)但是,現(xiàn)在。你懂的,漢字作用再審視,日本明治維新后,中國衰落,漢字的使用的合法性和合理性引起爭議最終,漢字在日語中的使用得以保留,但是使用大幅度減少存在2000個漢字的當(dāng)用漢字表,漢字作用再審視,朝鮮1949年開始徹底使用純諺文印刷主要出版物,標(biāo)志著國漢混用朝鮮語的時代在朝鮮正式結(jié)束韓國1948年,韓國制憲會議制定了韓字專用的法律。1950年,韓國內(nèi)務(wù)部通令容許夾寫漢字,但是五年以后該通令被取消。1970年,樸正熙政府強化了韓字專用政策的推行,鼓勵出版界使用純韓字。1974年,文教省又公布“教科書韓漢并書方針”,結(jié)束了“禁用漢字”政策。1999年,金大中總統(tǒng)發(fā)布總統(tǒng)令,要求在必要情況下并書漢字以確保公文內(nèi)容的準(zhǔn)確傳達(dá)。2011年開始,韓國把漢字重新列入中小學(xué)的課程。2004年:賤出將軍事件,漢字作用再審視,字喃,不晚于13世紀(jì)創(chuàng)造出來用于記錄越南語19世紀(jì)由法國殖民者主導(dǎo),開始普及法國傳教士設(shè)計的越南語的羅馬字書寫體系。1919年的科舉廢除,漢字的使用也被廢除。1945年越南民主共和國在越南北部成立后,北部的教育中的漢字教學(xué)已經(jīng)不存在;南越在1975年前的中等教育中仍保留“漢文科”。今天,漢字在越南的地位類似于拉丁語在歐洲的情形。沒有漢字,你不知道你在說什么,基于漢字的密切的詞匯聯(lián)系,日語約有至少50%的日語詞匯來自漢語。在近代,則是大量反應(yīng)現(xiàn)代西方科技文化的術(shù)語首先通過日語中的漢字書寫,繼而重新傳播回漢語韓語/朝鮮語漢語借詞占韓文詞匯量的60%越南語漢語借詞可達(dá)60%,越南語、朝鮮語/韓語使用純拼音文字,日語是拼音-漢字混合書寫語言,因此中國人看到日文,多少能猜測出所表達(dá)的意思但是越南語、朝鮮語/韓語。統(tǒng)計機器翻譯:沒有對齊語料,韓文也可以這樣寫,韓漢書寫的不同模式的例子純韓文.韓漢并書(忠道)(執(zhí)持).韓漢夾寫(韓主漢從)忠道執(zhí)持.韓漢夾寫(漢主韓從)只今三年以後忠道執(zhí)持過失盟誓.,韓國憲法(韓漢混合書寫),前文悠久史傳統(tǒng)大韓國民31運動建立大韓民國時政府法統(tǒng)義抗拒419民主念,祖國民主改革平和的統(tǒng)一使命正義人道同胞愛民族團(tuán)結(jié),社會的弊習(xí)義,自調(diào)和自由民主的基本秩序政治經(jīng)濟(jì)社會文化域各人機會,能力最高度,自由權(quán)利責(zé)任義務(wù),國民生活世界平和人類共榮子孫安全自由幸福1948年7月12日制定8次改正憲法國會議決國民投票改正.第1章總綱第1條大韓民國民主共和國.大韓民國主權(quán)國民,權(quán)力國民.第2條大韓民國國民法律.國家法律在外國民義務(wù).第3條大韓民國土韓半島附屬島嶼.第4條大韓民國統(tǒng)一指向,自由民主的基本秩序平和的統(tǒng)一政策.第5條大韓民國國際平和侵略的戰(zhàn)爭否認(rèn).國軍國家安全保障國土防衛(wèi)神聖義務(wù)使命,政治的中立性.,訓(xùn)讀漢字串,借鑒這些周邊語言和漢語的歷史性聯(lián)系,我們提出使用一種嚴(yán)格按照詞匯語義等價條件下的漢字轉(zhuǎn)寫形式,分別用于相關(guān)語言到漢語的翻譯處理。這個以源語言的語法和語序書寫的漢字串,其中的各個詞匯在源語言和現(xiàn)代漢語之間語義等價,借用日語的術(shù)語,我們稱之為“訓(xùn)讀漢字串”。,語義翻譯和語法翻譯,以訓(xùn)讀漢字串為中間語言,可以將機器翻譯任務(wù)分解為兩個階段語義翻譯階段完全類似于漢語拼音輸入法中漢語拼音串到漢字句子的逐一轉(zhuǎn)換過程,基于雙語詞典提供的候選,源語言音節(jié)到漢字的轉(zhuǎn)換是嚴(yán)格對應(yīng)的(在越南語的情形,國語字到漢字的轉(zhuǎn)換甚至是一個音節(jié)恰好可以嚴(yán)格映射到一個漢字),而無須考慮詞序的重排和詞匯的復(fù)雜改寫。語法翻譯階段把遵照源語言語法的訓(xùn)讀漢字串重排詞序,必要時改寫個別詞匯,轉(zhuǎn)為合乎漢語語法的句子。注意這是一個單語言處理過程!,語言差異:韓語-漢語,語音:和日語一樣,韓語沒有聲調(diào)。存在元音和諧現(xiàn)象。語法:韓語的語法結(jié)構(gòu)是主賓謂(SOV)結(jié)構(gòu),不同于漢語的主謂賓(SVO)。韓語是黏著語,這種類型的語言靠粘著在詞干后面的大量、豐富的詞尾的變化來表達(dá)語意。漢語是孤立語,靠詞序來表達(dá)語意。五組九類詞,助詞(關(guān)系語)反映黏著語功能和特性。可翻譯的是體語(名詞、代詞等)。,語言差異:越南語-漢語,語音越漢都有聲調(diào),前者有6個,后者有5個。語法越漢都是孤立語,動詞沒有型態(tài)變化,名詞既沒有性、數(shù)、格的形式和變化,形容詞無需和名詞保持性、數(shù)、格上的一致。通過詞序來表達(dá)語法作用。都是主謂賓結(jié)構(gòu)(SVO)。跟多數(shù)東南亞語言(泰、高棉、馬來語等)一樣,越南語也是形容詞后置的語言。越南語就不是Vit(越)Nam(南)Ting(語),而是TingVitNam;京族的正式語言就應(yīng)該寫成ngnng(言語)chnhthc(正式)ca屬于、的dntc(民族)Kinh(京)。,最簡機器翻譯方案,語義翻譯基于雙語詞典語法翻譯基于語言模型聯(lián)合得分最大化重排句子,為什么可以這么做,漢字的序順其實不響影的你閱讀和理解,是吧?既然大部分漢語借詞本來就是用漢字書寫的,那我們就恢復(fù)它的本來面目!這就是最精確的翻譯!分離語義和語法翻譯,讓機器翻譯過程更為明確,更有針對性把雙語的翻譯轉(zhuǎn)換為單語的重述任務(wù),存在的問題1,語義翻譯:消歧一個音對應(yīng)多個字基于上下文特征處理使用長詞的雙語詞典進(jìn)行最大匹配處理(用于漢越語詞匯),存在的問題2,語法翻譯訓(xùn)讀漢字串是非法順序的中文解決方案基于重述的修正簡化方案:使用語言模型調(diào)序相當(dāng)于哈密頓路問題,這是NP完全問題,不存在多項式解法。優(yōu)化方法是,一邊搜索一邊保存已經(jīng)搜過的答案,不重復(fù)計算。,存在的問題2:例子1,紅星是他的一個特殊的紙覆蓋著太陽曬黑的葡萄,他用一種特種紙包住葡萄,以防止果皮被曬焦。RedStarishisgrapescoveredwithaspecialpapertosuntanning,存在的問題2:例子2,據(jù)統(tǒng)計,目前一群在寧順,約80,000已籌得超過150個農(nóng)場。據(jù)統(tǒng)計,目前在寧順羊群,有大約80,000名兒童在150戶以上。Accordingtostatistics,thecurrentflockinNinhThuan,about80,000hadbeenraisedformorethan150farms.,存在的問題2:例子2,據(jù)統(tǒng)計,寧順現(xiàn)飼養(yǎng)有大約8萬只綿羊,分散在150個莊園。,存在的問題2:例子2,在寧順省的干旱經(jīng)常遭受饑餓。thedroughtinNinhThuanprovinceoftensufferfromhunger.大旱之年往往缺糧。,重述策略,把非人的話語轉(zhuǎn)化為人話。機器翻譯的終極問題仔細(xì)觀察大量的高質(zhì)量的機器翻譯輸出文本,發(fā)現(xiàn):其文本其實是可以理解,或者是可以猜測的,但是,可惜的是,描述并不地道。使用重述處理來增強翻譯質(zhì)量,越南語轉(zhuǎn)換實例,對照原文DukhchTyBanNhathngthctrtiTrmAnhqun.西班牙游客在簪纓館品茶。逐詞的訓(xùn)讀漢字串轉(zhuǎn)化如下進(jìn)一步通過基于語言模型的改寫和語序重排后得到的最終結(jié)果是西班牙游客賞識茶在簪纓店。Google翻譯西班牙游客享受茶在英國的前哨基地。SpanishtouristsenjoyteaattheBritishoutpost.考慮到谷歌翻譯對于British這個詞翻譯為越南語“ngiAnh”,恰和上文的TrmAnh這個詞共享主要音節(jié)Anh。我們有理由推測,谷歌翻譯使用了英文作為中間語言來處理越漢翻譯。,評估度量,BLEU等度量綜合考慮機器翻譯文本的質(zhì)量但是我們這里涉及兩個階段的輸出文本因此,我們額外引入一個理解率的度量,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025鋼筋加工承包合同
- 2025企業(yè)經(jīng)營抵押擔(dān)保的借款合同
- 防水施工盈虧分析合同
- 2025企業(yè)合作協(xié)議資料范本合同模板
- 婚慶策劃承包協(xié)議
- 2025技術(shù)研發(fā)服務(wù)合同范本
- 購房者合同的爭議點
- 餐飲風(fēng)險管理協(xié)議
- 購房定金合同法律咨詢
- 魚類生殖細(xì)胞形成機制研究
- 薪酬管理的試題及答案
- 校長在高考壯行儀式上講話以青春做槳讓夢想為帆
- 中國鴉膽子油行業(yè)市場現(xiàn)狀調(diào)查及前景戰(zhàn)略研判報告
- 倉庫管理測試題及答案
- 2025年國際貿(mào)易實務(wù)考試模擬題及答案
- 2025-2030年中國熱風(fēng)槍行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025年團(tuán)的基礎(chǔ)知識試題及答案
- 3D打印技術(shù)在建材中的應(yīng)用-洞察闡釋
- 5G網(wǎng)絡(luò)中SDN與邊緣計算的深度融合-洞察闡釋
- 車庫贈送協(xié)議書范本
- 裝修續(xù)簽協(xié)議合同協(xié)議
評論
0/150
提交評論