計算機輔助翻譯技術(shù)Review復習課程_第1頁
計算機輔助翻譯技術(shù)Review復習課程_第2頁
計算機輔助翻譯技術(shù)Review復習課程_第3頁
計算機輔助翻譯技術(shù)Review復習課程_第4頁
計算機輔助翻譯技術(shù)Review復習課程_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、精品文檔計算機輔助翻譯技術(shù)概論押題:1、隱馬爾科夫模型 2、機器翻譯的方法 3、文本電子化OCR 4、雙語對齊處理5、漢語切分的方法和關鍵問題5-20考試一一計算機輔助翻譯技術(shù)考試題型:填空、判斷、問答7-8個考查內(nèi)容:基本概念梳理,理解分析能力,考題思路,課件!1、概論1.1概況為什么要研究翻譯技術(shù)??何謂翻譯技術(shù)(translation technology) ?能夠用來進行語言翻譯或輔助進行語言翻譯的信息技術(shù)。解決或緩解語言障礙(language barrier)問題,提高翻譯從業(yè)人員的生產(chǎn)率。翻譯技術(shù)的研究始于機器翻譯 關于機器翻譯?機器翻譯(Machine Translation)定

2、義:利用計算機及其軟件把一種語言(自動)翻譯成為另外一種語言的技術(shù)。?機器翻譯研究的目標是研制具有翻譯能力的計算機軟件系統(tǒng)。?機器翻譯的研究始于 20世紀40年代末期。?機器翻譯結(jié)論很困難。翻譯技術(shù)的分流?機器翻譯(MT):機器翻譯的主體是機器。目前比較困難。(目標是尋找徹底的解決方案)?計算機輔助翻譯(CAT:計算機輔助翻譯的主體是人。相對比較容易,但卻很實用。?計算機輔助翻譯立足為翻譯人員提供(軟件)工具。協(xié)助翻譯人員提高效率(生產(chǎn)率)。名詞辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) Translatio

3、nMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT 關于翻譯技術(shù)的理解?狹義的理解,翻譯技術(shù)指計算機輔助翻譯技術(shù)和機器翻譯技術(shù)。?廣義的理解,翻譯技術(shù)指的是對翻譯人員工作有益的任何信息技術(shù)。文字處理工具(MS Word)(不可或缺)國際互聯(lián)網(wǎng)及其應用(WWW、Email.)各種電子資源(百科全書光盤)?本課程的定位:主要是狹義的翻譯技術(shù)。配合翻譯技術(shù)的一

4、些通用技術(shù)(數(shù)據(jù)獲取技術(shù)、文本處理技術(shù))關于本地化何謂本地化(localization) ?The term “l(fā)ocalization ” refers to the prosusSsnofzing or adapting a product for a targetlanguage and culture.全球化沒有帶來其他語言的消亡,帶來了本地化。本地化的特點:量大、時間緊迫、技術(shù)(應用)性強simshipAn abbreviation of “ simultaneous shipmwhtch refers to the practice of releasing multiple la

5、nguage versions of a product at the same time (or at least as close to the same time as is possible).翻譯技術(shù)概觀翻譯技術(shù)體現(xiàn)為一組翻譯工具,是若干軟件工具的集合。翻譯工具可以涵蓋翻譯的不同階段、面向不同的需要。資料的收集原文的理解術(shù)語的處理1.2工具語言材料的電子化工具Data-capture tools使用翻譯技術(shù)的前提:待翻譯的文本需要是電子化的,是計算機可以處理的。翻譯過程中所需要的各種資源需要是電子化的。何為機器可讀(Machine readable)?文字變成編碼形式常見的電子化手段

6、:手工鍵盤輸入(keyboarding)、 Scanning + Optical Character Recognition、 VoiceRecognition文件格式轉(zhuǎn)換工具編碼轉(zhuǎn)換工具多語種處理能力 語料庫分析工具Corpus: a large collection of electronic texts that have been gathered according to specific criteria .Type of corpus:monolingual corpus : orpus which consists of texts in one language.parall

7、el corpus: corpus containing source texts aligned with their translations.語料電子化工具、語料處理工具? Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful featur

8、es that allow users to generate and manipulate word frequency lists, concordances, and collocations.(頻率表、關鍵詞、搭配)? Frequency list?Concordance (bilingual or monolingual)?CollocationCorpus-analysis toolsallow users to have access to frequency data and to see terms in a variety of contexts simultaneousl

9、y - features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context直觀認識語料處理工具 漢語切詞(segmentation)詞性標注(POS tagging)屈折語形態(tài)還原(lemmatization)句法分

10、析(parsing)雙語對齊(alignment) 既是語料處理工具通常也是機器翻譯或機器輔助翻譯系統(tǒng)的組成部分術(shù)語管理工具翻譯中的術(shù)語一致性問題:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identifica

11、tion)Monolingual or BilingualQuality of term extraction翻譯記憶工具Translation Memory:a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match Fuzzy match No matchTM tools and localizationTM CreationTM tool是CA

12、T的核心工具機器翻譯用作輔助翻譯工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略Sublanguagecontrolled language集成翻譯工具? Translator's workbench (workstation) : an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management,

13、 translation memory, and automatic translation.? Workflow management1.3翻譯技術(shù)與計算語言學?計算語言學是通過建立形式化的計算模型來分析、理解和處理自然語言的學科。是一門文理交叉的學科。(源于翻譯技術(shù)的需求)?翻譯技術(shù)建立在計算語言學的基礎之上,翻譯技術(shù)的突破有待于計算語言學的發(fā)展。?自然語言2、P2-翻譯技術(shù)的數(shù)學基礎2.1概率統(tǒng)計的基本概念 2.1.1隨機事件隨機事件:在一定條件下,可能發(fā)生也可能不發(fā)生的事件稱為隨機事件,簡稱事件。一般用大寫拉丁字母A,B,C,表示事件。隨機事件的兩個特殊情況必然事件:每次試驗都必定發(fā)生

14、的事件(W )。不可能事件:每次試驗都一定不發(fā)生的事件(F)。2.1.2頻率和概率頻率:如果在相同條件下進行了 n次重復試驗,事件A岀現(xiàn)了 v次,那么事件A在n次實驗中岀現(xiàn)的頻率為 是 v/n。當n無限增大時,頻率呈現(xiàn)穩(wěn)定性。這一統(tǒng)計規(guī)律性表明事件發(fā)生的可能性大小是事件本身所固有的、不以人們主觀意志而改變的一種客觀屬性。概率:概率:事件A發(fā)生的可能性大小稱為事件的概率,記作P(A)。F(/l)隔一當試驗的次數(shù)n足夠大,可以用事件的頻率近似地表示該事件的概率,即"概率的基本性質(zhì)櫃舉的基*性廣:0冬刊(2)尺亠尺應撚爭件Lh卩新=已干可範爭件冃jq(5)若一七皿則應存妙.(v'i

15、若.:”:.禹函產(chǎn)寶斥*且-+月汁+-如=乩1鞏.*如 AIlHJX-lJ- .-“d(ALnJ-L 對任鳶事許月.條件概率條件概率在事件B發(fā)生的條件下,事件 A發(fā)生的概率稱為事件 A在事件B已發(fā)生的條件下的條件概 率,記作P(A|B)。當P(B)>0時,規(guī)定:尸(屮)=P(AB)P(B)當 P(B)=0 時,規(guī)定 P(A|B)=O。乘法公式?jīng)r4二幾尸陽1訊一牡m屮4 Mi 411 a < |&孕2 -右)=嚴(衛(wèi)丄討止一右)r=i2.1.3獨立性和貝葉斯公式若事件A和B,滿足條件P(AB)=P(A)P(B則稱事件A和B相互獨立貝葉斯公式:根據(jù)乘法公式,可以得到下面的重要公

16、式2.1.4隨機變量隨機變量:每次試驗的結(jié)果可以用一個實值變量X的取值來表示,這個變量稱為隨機變量。它是隨機現(xiàn)象的數(shù)量化。離散型隨機變量 如果隨機變量X只能取有限個(或可列個)數(shù)值x1,x2,,xn,,就稱X為離散型隨 機變量。在語言的統(tǒng)計處理中,一般僅用到離散型隨機變量。2.1.5概率質(zhì)量函數(shù)(pmf)設X是一個離散型隨機變量,它所有可能取的值為x1, x2,xn,PX =xk=pk(k = 1,2,n,),則可以用下面的表格來表達X統(tǒng)計的規(guī)律:XX:.心唧率地Pn 其中,1 >pk>0且工pk=1,稱表格所表示的函數(shù) 為離散型隨機變量的分布質(zhì)量函數(shù),記作p(x)。2.1.6隨機

17、變量的數(shù)字特征一一期望方差標準差數(shù)學期望:隨機變量X的數(shù)學期望E(X)是該變量取值的概率加權(quán)平均。數(shù)學期望簡稱期望,描述了隨機變 量的平均值。若X為離散型隨機變量,則:E(X) = X1*p(X1)+ X2*p(X2)+ + Xn*p(Xn)i隨機變量(X - E(X)2的數(shù)學期望稱為隨機變量 X的方差,記作D(X)或Var(X)。方差描述了隨機變量的取值 距離其平均值(即期望值)的分散程度。即D(X)=E(X標準差隨機變量X的標準差定義為隨機變量 X的方差的算術(shù)平方根,記作 s (X )。即:O-(X )= Jd(x)2.1.7總體、樣本總體研究對象的所有可能的觀察結(jié)果稱為總體。樣本從總體中

18、抽取一部分樣品,稱為總體的一個樣本。數(shù)理統(tǒng)計方法是通過研究樣本來了解和判斷總體的統(tǒng)計特性的科學方法。22信息論的基本概念2.2.1最優(yōu)編碼變長編碼:給小概率信息賦以較長的編碼,而給大概率消息賦以較短的編碼。個長度為|P-log 2X)1個二進制位的編碼。消息的編碼長度大,可理解為消息所含信息量大。消息的編碼長度小,則消息所含信息量小。平均信息量即為發(fā)送一個消息的平均編碼長度信息論中用熵描述隨機變量平均信息量2.2.2 熵(entropy)熵描述了隨機變量的不確定性。41設X是収有顒個慎的園機變它的分布戰(zhàn)St宙敬為 則.1的埔定義為Hi Xpn tJb百護I t 惜殊述了陸機變的平確鋌性&quo

19、t;適議n=2業(yè)吋爛的單位為比特°靖的棊本性噴i. HL詢第號詭明購毎場(無fiB機性齊HR戢屮"1/禮1上也世XI*尊號&團蒔糊場的域童丸°2.2.3 互信息(mutual information)互信址矛件心之間的瓦信息定文知J(x.y)=£ pMp(y)互信息岌量兩個耳體事件之間的相關程度 當 7xt/)» 0 時* xfOi ft度相關。B當/(Xiy)二0時* 丫和、高度相遼獨立。時丫和呈互補分布.-bank"的翻譯.“銀行”還是“河岸”2.2.4噪音信道模型在利用噪聲信道處理語言問題時,人們并不關心編碼問題,而更多

20、關心的是,在有噪聲存在的情況下, 何解碼將輸岀還原為信道輸入。隨機變量X服從概率分布P,如果消息x的分布密度為p(x),則給其分配2.3統(tǒng)計語言模型簡介語言建模(Language Modeling)對于一個服從某個未知概率分布P的語言L,根據(jù)給定的語言樣本估計 P的過程被稱作語言建模。3、P3-語言材料電子化工具-文本電子化:手段編碼及格式3.1關于文本電子化? 定義:文本電子化就是指將文本轉(zhuǎn)換為機器可讀形式進行存儲。.?使用翻譯技術(shù)的前提:仃M):術(shù)A待譯文本需要是電子化的。B、翻譯過程中使用的語言資源需要電子化:語料庫:翻譯記憶庫語資源、詞典資源?文本的機器可讀形式:計算機及其軟件可以讀寫

21、以及處理。如文字編輯。對于文本而言,字符以適當?shù)木幋a形式存儲。如:ASCII碼、GB2312碼、UNICODE碼等。非機器可讀形式的文本:手寫文稿、打印文稿傳真文稿文稿的數(shù)字照片3.2關于文字編碼和編碼轉(zhuǎn)換?文字在計算機中是以編碼形式表示的?編碼的標準化:英文字符編碼標準 ASCII碼西文字符編碼標準 ISO8859漢字編碼標準 GB18030、BIG-5統(tǒng)一碼 UNICODE?文字的輸入和輸岀文字編碼的處理過程:輸入碼機內(nèi)碼字形碼除輸入和輸岀外,計算機內(nèi)的任何文字處理都是以機內(nèi)碼形式進行的,如編輯、統(tǒng)計? 關于編碼的轉(zhuǎn)換從機器可讀到軟件可讀編碼與軟件對編碼的支持軟件可能不支持所有編碼,若軟件

22、不支持某文本采用的編碼,會岀現(xiàn)處理錯誤或得不到預期的處理結(jié) 果。不兼容的編碼之間可以轉(zhuǎn)換:GB <-> BIG-5 GB <-> UNICODE3.3文本的電子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition? 掃描(scanning)將硬拷貝文稿經(jīng)掃描儀掃描轉(zhuǎn)換為圖像格式存儲,如:*.bmp、*.jpg、*.tif等。圖像存儲格式的特點:點陣存儲基本單位是像素(pixel)?光學字符識別(OCR):將印刷體或手寫體圖像中的文字辨認出來,轉(zhuǎn)換為規(guī)定的編碼格式存儲,如:ASCI、GB2

23、312、UNICODE等? OCR的基本過程圖像處理:縮放、旋轉(zhuǎn)、去除污痕,目標是提高識別率版面劃分:區(qū)分文字、表格板塊以及非文字板塊,判別識別順序,便于按序分別處理文字識別:根據(jù)特定模型及文字識別特征,逐行逐字進行識別文字編輯:對識別結(jié)果進行編輯,糾正錯誤3.4關于文件格式和格式轉(zhuǎn)換?常見的文件格式有:純文本文件(txt文件)Web頁面文件(html文件)Word文檔(doc文件)Portable Document Format (PDF 文檔)Rich Text Format (RTF文 件)純文本文件中只能有文字信息,不能有格式信息、圖表信息輔助翻譯軟件未必支持所有文件格式。許多語料處理

24、工具僅僅支持純文本文件。要注意文檔格式轉(zhuǎn)換常常會損失信息。例如圖表、格式信息會丟失或不能很好保持。4、語料處理工具工作原理P4-現(xiàn)代漢語詞語切分技術(shù)?什么是漢語自動切分?通過計算機把組成漢語文本的字串自動轉(zhuǎn)換為詞串的過程被稱為自動切分segmentation)英語中的切分問題英語中不是完全沒有切分問題,不能僅僅憑借空格和標點符號解決切分問題。英語中的切分通常被叫做 Tokenization。同漢語相比,英語切分問題較為容易。?為什么要進行漢語的切分研究應用的要求:語音合成和信息檢索? 漢語自動切分的方法基于詞表的方法最大匹配法(MM)(特點:長詞優(yōu)先,算法非常簡單)1. 正向最大匹配法(MM)

25、:從左向右匹配詞典2. 逆向最大匹配法(RMM):從右向左匹配詞典全切分+ 路徑選擇序列標注方法:把切分問題看作給句子中每個字加標記的過程。四個標記:B詞首(2) M詞中(3) E詞尾(4)單獨成詞S 例如:提/B高/E人/B民/E的/S生/B活/E水/B平/E?自動切分的評價準確率(P)=切分結(jié)果中正確分詞數(shù)/切分結(jié)果中所有分詞數(shù)*100%召回率(R)=切分結(jié)果中正確分詞數(shù)/標準答案中所有分詞數(shù)*100%F評價(F-measure綜合準確率和召回率的評價指標 )F-指標=2PR/(P+R)?漢語切分的關鍵問題切分歧義(消解)一個字串有不止一種切分結(jié)果交集型歧義:從小學組合型歧義:中將混合型歧

26、義:人才能歧義的分類真歧義:歧義字段在不同的語境中確實有多種切分形式。偽歧義:歧義字段單獨拿岀來看有歧義,但在真實語境中僅有一種切分形式可接受。歧義的發(fā)現(xiàn)歧義消解的前提是發(fā)現(xiàn)歧義。切分算法應該有能力檢測到輸入文本中何時岀現(xiàn)了歧義切分現(xiàn)象。1雙向最大匹配(MM+RMM):同時采用MM法和RMM法。如果MM法和RMM法給出同樣的結(jié)果, 則認為沒有歧義,若不同,則認為發(fā)生了歧義。雙向最大匹配法不能發(fā)現(xiàn)所有的歧義,存在盲點最大匹配法不能發(fā)現(xiàn)組合型歧義(長詞優(yōu)先)在一定條件下(鏈長為偶數(shù)),雙向最大匹配法也不能發(fā)現(xiàn)交集型歧義2MM+逆向最小匹配法3全切分算法歧義消解基于統(tǒng)計的歧義消解:在詞圖上尋找統(tǒng)計意

27、義上的最佳路徑未登錄詞識別專有名詞新詞未登錄詞識別困難未登錄詞沒有明確邊界許多未登錄詞的構(gòu)成單元本身都可以獨立成詞通常,每一類未登錄詞都要構(gòu)造專門的識別算法:在序列標注法中,未登錄詞無需單獨處理。識別依據(jù)-內(nèi)部構(gòu)成規(guī)律(用字規(guī)律)-外部環(huán)境(上下文)P5-詞類的自動標注什么是詞?是由語素構(gòu)成的、能夠獨立運用的最小的語言單位。?隱馬爾可夫模型(HMM)簡介簡介:Hidden Markov Model, HMM)是對馬爾科夫模型的一種擴充。隱馬爾科夫模型的基本理論成形于上世紀60年代末期和70年代初期。(L.E.Baum)70年代,CMU的JKBaker以及IBM的F.Jelinek等把隱馬爾科夫

28、模型用于語音識別研究。隱馬爾科夫模型在語言信息處理領域中有著廣泛的應用。例如隱馬爾科夫模型在詞類自動標注中的應用。馬爾科夫:一階馬爾科夫模型可以描述為一個二元組 (S, A ) , S是狀態(tài)的集合,而 A是所有狀態(tài)轉(zhuǎn)移 概率組成的一個n行n列的矩陣,其中每一個元素 aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率。在馬爾科 夫模型中,給定了觀察序列,同時也就確定了狀態(tài)轉(zhuǎn)換序列。隱馬爾科夫:如果給定一個觀察序列(不同顏色的小球序列),不能直接確定狀態(tài)轉(zhuǎn)換序列(壇子的序列), 因為狀態(tài)轉(zhuǎn)移過程被隱藏起來了。所以這類隨機過程被稱為隱馬爾科夫過程。隱馬爾可夫過程是一個雙重隨機過程,其中一重隨機過程不能直接觀察到-

29、通過狀態(tài)轉(zhuǎn)移概率表示。另一重隨機過程輸岀可以觀察到的觀察符號,這由輸岀概率來定義。妙油:可夬模電丄4以表示為-個五元組(5. S堪一絹狀態(tài)的集合5- L2.3,N(我息丹對嚴了町-卩是一組輸岀苻號紹成的集合。vp i Tj仙璀應紅豈小咔】艮是狀態(tài)嘉移矩眼¥廳一¥列注=如砌-= j護=f)*1三X j乞州丘是輸出符號的概率分布*B= bj(k) bjik)農(nóng)示在狀態(tài)耐輸山符號4的慨率怎是初始狀態(tài)概率分布龍一 f叫埼虧=0表示時刻1選擇某個狀態(tài)的槪率.隱馬爾科夫模型的三個問題:給定 HMM I = ( A, B, p ) 給定觀察序列 0 = (o1 02 03oT )如何有效

30、地計算出觀察序列的概率,即 P(O|l )?(估算問題 )給定 HMM l = ( A, B, p )給定觀察序列 0 =(01 02 03oT )如何尋找一個狀態(tài)轉(zhuǎn)換序列q = (q1 q2 q3qT ),使得該狀態(tài)轉(zhuǎn)換序列最有可能產(chǎn)生上述觀察序列?(解碼問題 )在模型參數(shù)未知或不準確的情況下,如何根據(jù)觀察序列0 = ( 01 02 030T )求得模型參數(shù)或調(diào)整模型參數(shù)(學習問題 或 訓練問題 )估算觀察序列概率對隱馬爾可夫模型而言,狀態(tài)轉(zhuǎn)換序列是隱藏的,一個觀察序列可能由任何一種狀態(tài)轉(zhuǎn)換序列產(chǎn)生。因此要計算一個觀察序列的概率值,就必須考 慮所有可能的狀態(tài)轉(zhuǎn)換序列。求解最佳狀態(tài)轉(zhuǎn)換序列 隱

31、馬爾可夫模型的第二個問題是計算出一個能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列。理論上,可以通過枚舉所有的狀態(tài)轉(zhuǎn)換序列,并對每一個狀態(tài)轉(zhuǎn)換序列q計算P(0, q |l),能使P(0, q |l)取最大值的狀態(tài)轉(zhuǎn)換序列q*就是能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列,參數(shù)學習隱馬爾科夫模型的前兩個問題均假設模型參數(shù)已知,第三個問題是模型參數(shù)未知,求最佳模型 的問題,是三個問題中最為困難的問題。在模型(I)未知的情況下,如果給定觀察序列的同時,也給定了狀態(tài)轉(zhuǎn)換序列,此時可以通過有指導的學習方法學習模型參數(shù)。例如給定下面的訓練數(shù)據(jù),可以通過最大似然估計法估計模型參 數(shù)。詞類標注的語言學基礎1 詞的分類依據(jù)形態(tài)標準W0

32、rds that functi0n simiIarIy with respect t0 the affixes they take (their m0rph0I0gicaI pr0perties) are gr0uped int0 cIasses.分布標準W0rds that functi0n simiIarIy with respect t0 what can 0ccur nearby (their “ syntacticdistributi0naI pr0perties ” ) are gr0upinetd0 cIasses.意義標準(X )WhiIe w0rd cIasses d0 ha

33、ve tendencies t0ward semantic c0herence (n0uns d0 in fact 0ften describe “ pe0pIe, pIaces 0rthings ” , and adjectives 0ften describe pr0perties), this is n0tnecessariIy the case, and in generaI we d0n' t use the semca0nhteicrence as a definiti0n criteri0n f0r part-0f-speech.2 英語中詞的分類封閉詞類和開放詞類功能詞

34、類和內(nèi)容詞類3 漢語中詞的分類主要依據(jù) :詞的分布特征或者說語法功能(主要指詞在句法結(jié)構(gòu)里所能占據(jù)的語法 位置。)實詞和虛詞:從功能上看,實詞可以充當主語、謂語和賓語。虛詞則不可以。從意義上看,實詞有實在的意義,表示事物、動作、行為、變化、性質(zhì)、狀態(tài)、處所、時間等。虛詞基本只起語法作用,本身多無實在意義。從數(shù)量上看,實詞多為開放類,虛詞多為封閉類。體詞和謂詞:實詞可分成體詞和謂詞。體詞可以做主語和賓語。謂詞主要做謂語。4兼類問題如果同一個詞具有不同詞類的語法功能,則認為這個詞兼屬不同的詞類,簡稱兼類。5英語詞類標記集Brown corpus tagsetPenn treebank tagset

35、 UCREL s C5 tagset6漢語詞類標記集北京大學人民日報語料庫詞類標記集國家語委語用所詞類標記集詞類標注的基本方法1詞類自動標注判定自然語言句子中的每個詞的詞類并給每個詞賦以詞類標記。對于兼類詞,詞類標注程序應根據(jù)上下文確定兼類詞在句子中最合適的詞類標記。(難點所在)詞類自動標注是深層語言分析的基礎。詞類標注程序判定依據(jù):要標注的詞的不同詞類的分布,上下文中其它詞的詞類信息2基本方法(基于規(guī)則的、基于統(tǒng)計的、統(tǒng)計規(guī)則相結(jié)合的)基于規(guī)則的詞類標注早期均為基于規(guī)則方法基于規(guī)則的詞類標注程序工作過程1. 查詞典,給句中各詞標記所有可能的詞類標記。2. 應用規(guī)則,逐步刪除錯誤的標記,最終只

36、留下正確的標記?;陔[馬爾科夫模型的詞類標注HMMJKXijftu<J 處 iii.lfe «n(17)r可Mt的塚貫極T庁列弒畜轉(zhuǎn)換痔列人予特比禪墜 燈詞類成阿碼旳罔:; 詞塑卄啊現(xiàn)在旬苜的權(quán)舉f" =iif I =皺妙 JJ( nV | R - 11)屮ft i-F基于轉(zhuǎn)換的詞類標注特點(兼具規(guī)則和統(tǒng)計兩個方面的特性)應用規(guī)則進行標注,規(guī)則稱為轉(zhuǎn)換。規(guī)則不是人工總結(jié),而是應用機器學習的辦法學習得到。使用的機器學方法通常稱作基于轉(zhuǎn)換的學習(Transformation-Based Learning or TBL)。什么是一個轉(zhuǎn)換 (transformation) ?

37、激發(fā)環(huán)境(triggering environment):描述了應用該轉(zhuǎn)換需要滿足的條件重寫規(guī)則(rewriting rule):描述了應用規(guī)則所要進行的動作 轉(zhuǎn)換規(guī)則可以視為一種糾錯規(guī)則在轉(zhuǎn)換規(guī)則使用前,待標注的句子已經(jīng)進行過初步標注,轉(zhuǎn)換規(guī)則負責改正其中的錯 誤標注激發(fā)環(huán)境:當前詞前面一個詞的詞類是副形詞(ad)重寫規(guī)則:把當前詞的詞類從名詞 (n)改作動詞(v)未登錄詞視作兼類詞,可能是任何一個詞類,均勻分布依照出現(xiàn)一次的詞(hapax legomenon)的規(guī)律處理更可能是名詞不大可能是限定詞等將出現(xiàn)一次的詞的分布平均作為未登錄詞的分布對于英文等語言可以利用形態(tài)特性(詞綴)、拼寫特性判

38、定(首字母大小寫)P6-屈折語的形態(tài)分析?什么是形態(tài)學(Morphol ogy)?形態(tài)學研究屈折語中詞的構(gòu)成規(guī)則詞通常由語素(morpheme)組成。語素是語言中最小的意義單位(minimal meaning bearing unit)??偟膩碚f,語素可以分成兩大類1詞根(root):提供詞的主要意義2詞綴(affix):提供詞的各種附加意義(修改詞根義或改變詞的語法功能)1) 前綴(prefix):出現(xiàn)在詞根的前面2) 后綴(suffix):出現(xiàn)在詞根的后面?語素如何構(gòu)成詞?1. 派生(derivation):詞根+詞綴形成的詞通常與原詞根不屬一類,詞義通常與原詞根有聯(lián)系(有時難以預料),詞

39、根與詞綴派生的結(jié)果也稱作詞干(stem)。computerize+ation (verb noun)2. 屈折變化(inflection):詞干+詞綴形成的詞通常與原詞干同屬一類,常用來使詞具備數(shù)、時態(tài)等 功能 cat+s walk+ed walk+ing?英語中的屈折變化不規(guī)則變化的詞數(shù)量有限,但多是常用詞大部分詞的變化屬規(guī)則變化?英語中的派生詞英語中派生現(xiàn)象較為復雜,僅看幾個例子動詞、形容詞的名詞化 (nominalization):computerize (V) computerization從名詞、動詞派生出形容詞clue (N) clueless派生規(guī)則規(guī)律性不如屈折變化規(guī)則、不能隨

40、意派生什么是形態(tài)分析?形態(tài)分析研究如何利用計算機把屈折語中的詞分解成語素為什么要進行形態(tài)分析?應用的要求:信息檢索、TM中的應用、深層英語分析的基礎形態(tài)分析的技術(shù)基礎有限狀態(tài)自動機有限狀態(tài)轉(zhuǎn)換機形式語言有限狀態(tài)自動機和語言構(gòu)建形態(tài)分析器所需要的資源1. 詞典(lexicon):詞干(詞根)和詞綴;詞干(詞根)和詞綴的基本信息2. 形態(tài)知識(morphotactics):語素間的順序關系哪一類語素可以和哪一類語素組合(例如:名詞后面可以加一個復數(shù)語素 )3. 正字規(guī)則(orthographic rule or spelling rule):兩個語素組合時應進行怎樣的變化(如:把y改寫為i加es)

41、P8-平行文本的自動對齊?什么是平行文本(parall el text) ?雙語語料庫是涉及兩種語言的語料庫,由雙語平行文本組成。多語平行文本由多個單語文本組成,這些文本之間具有翻譯關系。雙語平行文本由兩個單語文本組成,這兩個單語文本互為譯文。多語平行語料庫又稱作翻譯語料庫(translation corpora) o多語平行語料庫包含原文及其譯文,是機器(輔助)翻譯等多語信息處理的重要資源。?雙語對齊處理(Bilingual Alignment)所謂雙語對齊處理就是在不同語言文本的不同語言單位之間建立對應關系,也就是確定源語言文本中哪個(些)語言單位和目標語言文本中哪個(些)語言單位互為翻譯

42、關系。所謂自動雙語對齊處理指的是通過一定的算法,由計算機在雙語文本間建立對齊關系。對齊可以在各種語言單位間進行,例如:文本級、段落級、句子級、短語級、詞匯級句子級對齊是最基本的對齊(段落對齊可視為一種特殊的句子的對齊)o關鍵問題:機器不能在理解的基礎上進行對齊、并非嚴格的一一對應、譯文可能涉及語序的調(diào)整、可能岀現(xiàn)省略不譯的現(xiàn)象、反之譯文中也可能增加原文中沒有的內(nèi)容從句子層級看,語序不會劇烈調(diào)整大部分情況是一一對應?句子對齊的方法句子對齊的基本方法基于長度的對齊方法基于單詞的對齊方法兩種方法對齊準確率都較高,對一般文本,都在90%以上。基于長度的對齊方法效率優(yōu)于基于單詞的對齊方法?;趩卧~的對齊

43、方法:利用單詞的對應關系,來決定句子的對齊關系。 基于長度的對齊方法依據(jù):互為翻譯的兩個句子在長度上高度相關?;陂L度的對齊方法只利用了文本中句子的長度信息 待對齊的兩個文本不過是兩個數(shù)字(長度)序列 長度對齊的基本原理:基于長度對齊的基本過程可以概括為(1) 枚舉文本間所有可能的對齊(2) 評價每種對齊模式的合理性(3) 選擇最佳對齊詞匯信息的引入可利用詞匯對應信息改善基于長度對齊的效果錨點:雙語文本中有明顯對應關系的詞匯(數(shù)字、日期、人名、地名)5、翻譯技術(shù)及其原理語料分析(詞頻、搭配和檢索)P7-術(shù)語管理和提?。ù钆浜托g(shù)語自動提?。┦裁词谴钆??定義:A COLLOCATION is an

44、 expression consisting of two or more words that correspond to some conventional way of saying things.Within the area of corpus linguistics, COLLOCATION is defined as a pair of words (the 'node' and the 'collocate') which co-occur more often than would be expected by chance.搭配構(gòu)成的一般原則

45、廣義搭配:語法上合法的詞語序列狹義搭配:固定搭配和半固定搭配什么是術(shù)語?terminology is the specialized vocabulary of a field. These terms have specific definitions within the field, which is not necessarily the same as their meaning in common use.常用的搭配提取方法統(tǒng)計方法與規(guī)則方法常用的統(tǒng)計方法基于頻率的方法(frequency-based approach)通過統(tǒng)計兩個詞(bigram)的共現(xiàn)頻率的方法來發(fā)現(xiàn)并提取搭配

46、。通常最高頻的詞語組合是虛詞的組合??赏ㄟ^詞類組合模式進行過濾,剔除高頻的虛詞組合。詞語及其搭配詞未必比鄰出現(xiàn),前述頻率法不能直接應用,此時可以通過定義搭配窗 口的方法進行解決,統(tǒng)計詞語和窗口范圍內(nèi)的其他所有詞的共現(xiàn)頻率。大小為卜5,+5的搭配窗口基于方差的方法(variance-based approach)若w1和w2出現(xiàn)的位置相對固定,則二者有可能構(gòu)成一個搭配。計算w1和w2兩個詞在語料庫中位置偏移的均值 m。計算位置偏移的方差s2均值和方差刻畫了兩個詞之間距離的分布情況。如果兩個詞的距離的方差較小,則有可能二者構(gòu)成一個搭配。較小的方差意味著兩個詞之間的距離相 對固定。假設檢驗法(hyp

47、othesis testing)采用假設檢驗的方法首先假設w1w2是在語料庫中是機會共現(xiàn)(co-occur by chance),該假設通常稱為原假設(null hypothesis)。 基于原假設,利用樣本數(shù)據(jù)進行檢驗,若不能推翻原假設,則w1w2不構(gòu)成搭配,若推翻原假設,則w1w2構(gòu)成搭配,即認為備擇假設成立。若w1w2為機會共現(xiàn),則 w1、w2相互獨立,即 p(w1w2) = p(w1) p(w2)t-檢驗法(基本原則是假定樣本數(shù)據(jù)來自均值為m的分布,然后通過對比樣本均值和預期的均值m之間的差異,判斷樣本是否來自于所假設的分布,從而推斷出原假設是否成立。t-檢驗和其他檢驗常用來給搭配排序

48、,即t-值越大,w1w2越可能是一個搭配。)x2檢驗法(主要思想是對比預期頻率以及觀察頻率,若二者差別較大,則拒絕原假設。)互信息法(mutual information)一個事件中所蘊含的關于另外一個事件的信息量兩個事件之間的關聯(lián)度若兩個事件獨立,則有l(wèi)(x,y)=0若兩個事件高度依賴,一個出現(xiàn)必然意味著另外一個事件出現(xiàn)?;バ畔τ趦蓚€事件是否獨立可以給出較好的判別?;バ畔⒅到咏?兩個事件相互獨立.但對于兩個事件互相依賴,僅依靠互信息值有缺陷?;バ畔⒅蹬c事件的頻率有關低頻率事件有可能獲得較高的互信息值,因而對于稀疏數(shù)據(jù),互信息結(jié)果未必可靠領域性處理停用詞(stop list)領域無關詞匯在任

49、何領域都以相同的規(guī)律出現(xiàn)翻譯記憶技術(shù)P9-機器翻譯的原理和方法?什么是機器翻譯及其研究目標研制岀能把一種自然語言(源語言)的文本翻譯為另外一種自然語言(目標語言)的文本的計算機軟. 件系統(tǒng)。全自動高質(zhì)量的機器翻譯系統(tǒng) (FAHQMT)仍將是人類一個遙遠的夢。?機器翻譯的基本方法1基于規(guī)則的機器翻譯方法(傳統(tǒng)的機器翻譯方法)直接翻譯法(逐詞進行翻譯,無需對源語言文本進行分析,對翻譯過程的認識過于簡化)中間語言法一種中間表達,通常是一種句法 -語義表達,中間語言獨立于任何具體的自然語言。源文本經(jīng)過深層分析得到源語言的中間語言表示。再由該中間表示生成目標語文本。翻譯過程為兩個階段。2n中間語言法在理

50、論上非常經(jīng)濟,可有效減少翻譯模塊的數(shù)量??砂裯(n-1)個直接翻譯模塊減少為個翻譯模塊。(目前沒有特別成功的基于中間語言的機器翻譯系統(tǒng)。)轉(zhuǎn)換法分析源語言文本,得到其源語言內(nèi)部表達將源語言內(nèi)部表達轉(zhuǎn)換成目標語內(nèi)部表達根據(jù)目標語內(nèi)部表達生成目標語文本翻譯過程分成三個階段(商業(yè)上最為成功的方法,目前絕大部分商品化機器翻譯系統(tǒng)采用轉(zhuǎn)換式機器 翻譯方法。)規(guī)則系統(tǒng)中的知識表示開發(fā)一個基于規(guī)則的機器翻譯系統(tǒng),首先要設計一個知識表示系統(tǒng),將翻譯過程中所有需要的知識以 計算機可以操作的形式表述岀來。一般而言,翻譯過程往往需要下述一些知識的支撐:(1)源語言知識。系統(tǒng)利用源語言知識分析源語言句子,得到源語言句子的結(jié)構(gòu)和意義。(2)目標語言知識。系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論