




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、計算機輔助翻譯技術(jsh)概論押題: HYPERLINK l _隱馬爾可夫模型(mxng)(HMM)簡介 隱馬爾科夫模型(mxng) 2、 HYPERLINK l _機器翻譯的基本方法 機器翻譯的方法 3、 HYPERLINK l _3.3_文本的電子化手段 文本電子化OCR 4、 HYPERLINK l _句子對齊的方法 雙語對齊處理 5、 HYPERLINK l _P4-現(xiàn)代漢語詞語切分技術 漢語切分的方法和關鍵問題5-20考試計算機輔助翻譯技術考試題型:填空、判斷、問答7-8個考查內(nèi)容:基本概念梳理,理解分析能力,考題思路,課件!1、概論1.1概況為什么要研究翻譯技術?何謂翻譯技術(t
2、ranslation technology)?能夠用來進行語言翻譯或輔助進行語言翻譯的信息技術。解決或緩解語言障礙(language barrier)問題,提高翻譯從業(yè)人員的生產(chǎn)率。翻譯技術的研究始于機器翻譯 HYPERLINK l _P9-機器翻譯的原理和方法 關于機器翻譯機器翻譯(Machine Translation)定義:利用計算機及其軟件把一種語言(自動)翻譯成為另外一種語言的技術。機器翻譯研究的目標是研制具有翻譯能力的計算機軟件系統(tǒng)。機器翻譯的研究始于20世紀40年代末期。機器翻譯結論很困難。翻譯技術的分流機器翻譯(MT):機器翻譯的主體是機器。目前比較困難。(目標是尋找徹底的解決
3、方案)計算機輔助翻譯(CAT):計算機輔助翻譯的主體是人。相對比較容易,但卻很實用。計算機輔助翻譯立足為翻譯人員提供(軟件)工具。協(xié)助翻譯人員提高效率(生產(chǎn)率)。名詞辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) TranslationMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quali
4、ty MT關于翻譯技術(jsh)的理解狹義的理解(lji),翻譯技術指計算機輔助翻譯技術和機器翻譯技術。廣義的理解(lji),翻譯技術指的是對翻譯人員工作有益的任何信息技術。 文字處理工具(MS Word) (不可或缺) 國際互聯(lián)網(wǎng)及其應用(WWW、Email.) 各種電子資源(百科全書光盤.)本課程的定位: 主要是狹義的翻譯技術。 配合翻譯技術的一些通用技術(數(shù)據(jù)獲取技術、文本處理技術)關于本地化何謂本地化(localization)?The term “l(fā)ocalization” refers to the process of customizing or adapting a prod
5、uct for a targetlanguage and culture.全球化沒有帶來其他語言的消亡,帶來了本地化。本地化的特點:量大、 時間緊迫、 技術(應用)性強simshipAn abbreviation of “simultaneous shipment”, which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible).翻譯技術概觀翻譯技術體
6、現(xiàn)為一組翻譯工具,是若干軟件工具的集合。翻譯工具可以涵蓋翻譯的不同階段、面向不同的需要。 資料的收集 原文的理解 術語的處理1.2工具 HYPERLINK l _3、P3-語言材料電子化工具-文本電子化:手段編碼及格式 語言材料的電子化工具Data-capture tools使用翻譯技術的前提:待翻譯的文本需要是電子化的,是計算機可以處理的。 翻譯過程中所需要的各種資源需要是電子化的。何為機器可讀(Machine readable)? 文字變成編碼形式常見的電子化手段:手工鍵盤輸入(keyboarding)、 Scanning + Optical Character Recognition、
7、Voice Recognition文件格式轉換工具編碼轉換工具多語種處理能力語料庫分析工具Corpus:a large collection of electronic texts that have been gathered according to specific criteria.Type of corpus: monolingual corpus:orpus which consists of texts in one language. parallel corpus:corpus containing source texts aligned with their transl
8、ations.語料電子化工具(gngj)、語料處理工具Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency l
9、ists, concordances, and collocations.(頻率(pnl)表、關鍵詞、搭配)Frequency listConcordance (bilingual or monolingual)CollocationCorpus-analysis toolsallow users to have access to frequency data and tosee terms in a variety of contexts simultaneously features that dictionaries can not easily provide.Keyword in
10、context (KWIC): a method of displayingconcordance lines in which all occurrences of thesearch word are centered on the screen surroundedby the immediate context直觀(zhgun)認識語料處理工具漢語切詞(segmentation)詞性標注(POS tagging)屈折語形態(tài)還原(lemmatization)句法分析(parsing)雙語對齊 (alignment)既是 語料處理工具 通常也是機器翻譯或機器輔助翻譯系統(tǒng)的組成部分術語管理工
11、具翻譯中的術語一致性問題:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identification)Monolingual or BilingualQuality of term extraction翻譯記憶工具
12、Translation Memory: a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match Fuzzy match No matchTM tools and localizationTM CreationTM tool是CAT的核心(hxn)工具機器翻譯(j qfny)用作輔助翻譯工具Pre-editing + Machine Transla
13、tionMachine Translation + Post-editing其他(qt)策略 Sublanguage controlled language集成翻譯工具Translators workbench (workstation):an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management, translation memory, and automatic translation.Wor
14、kflow management1.3 翻譯技術與計算語言學計算語言學是通過建立形式化的計算模型來分析、理解和處理自然語言的學科。是一門文理交叉的學科。(源于翻譯技術的需求)翻譯技術建立在計算語言學的基礎之上,翻譯技術的突破有待于計算語言學的發(fā)展。自然語言2、P2-翻譯技術的數(shù)學基礎2.1概率統(tǒng)計的基本概念2.1.1隨機事件隨機事件:在一定條件下,可能發(fā)生也可能不發(fā)生的事件稱為隨機事件,簡稱事件。一般用大寫拉丁字母A,B,C,表示事件。隨機事件的兩個特殊情況必然事件:每次試驗都必定發(fā)生的事件(W )。不可能事件:每次試驗都一定不發(fā)生的事件(F)。2.1.2頻率(pnl)和概率頻率(pnl):如
15、果在相同條件(tiojin)下進行了n次重復試驗,事件A出現(xiàn)了v次,那么事件A在n次實驗中出現(xiàn)的頻率為是 v/n。當n無限增大時,頻率呈現(xiàn)穩(wěn)定性。這一統(tǒng)計規(guī)律性表明事件發(fā)生的可能性大小是事件本身所固有的、不以人們主觀意志而改變的一種客觀屬性。概率:概率:事件A發(fā)生的可能性大小稱為事件的概率,記作P(A)。當試驗的次數(shù)n足夠大,可以用事件的頻率近似地表示該事件的概率,即概率的基本性質條件概率條件概率 在事件B發(fā)生的條件下,事件A發(fā)生的概率稱為事件A在事件B已發(fā)生的條件下的條件概率,記作P(A|B)。當P(B)0時,規(guī)定: 當P(B)=0時,規(guī)定P(A|B)=0。乘法公式2.1.3獨立性和貝葉斯公
16、式 若事件A和B,滿足條件P(AB)=P(A)P(B)則稱事件A和B相互獨立。貝葉斯公式:根據(jù)乘法公式,可以得到下面的重要公式2.1.4隨機變量(su j bin lin)隨機變量(su j bin lin): 每次試驗的結果可以(ky)用一個實值變量X的取值來表示,這個變量稱為隨機變量。它是隨機現(xiàn)象的數(shù)量化。離散型隨機變量 如果隨機變量X只能取有限個(或可列個 )數(shù)值x1,x2,xn,就稱X為離散型隨機變量。在語言的統(tǒng)計處理中,一般僅用到離散型隨機變量。2.1.5概率質量函數(shù)(pmf)設X是一個離散型隨機變量,它所有可能取的值為x1, x2, , xn, ,PX =xk=pk (k = 1,
17、 2, , n, ),則可以用下面的表格來表達X統(tǒng)計的規(guī)律:其中,1pk0且pk=1 ,稱表格所表示的函數(shù)為離散型隨機變量的分布質量函數(shù),記作p(x)。2.1.6 隨機變量的數(shù)字特征期望 方差 標準差數(shù)學期望: 隨機變量X的數(shù)學期望E(X)是該變量取值的概率加權平均。數(shù)學期望簡稱期望,描述了隨機變量的平均值。若X為離散型隨機變量,則:E(X) = X1*p(X1) + X2*p(X2) + + Xn*p(Xn)隨機變量(X E(X)2的數(shù)學期望稱為隨機變量X 的方差,記作D(X)或Var(X)。方差描述了隨機變量的取值距離其平均值(即期望值)的分散程度。即標準差 隨機變量X的標準差定義為隨機變
18、量X的方差的算術平方根,記作s (X ) 。即:2.1.7總體、樣本總體 研究對象的所有可能的觀察結果稱為總體 。樣本 從總體中抽取一部分樣品,稱為總體的一個樣本。數(shù)理統(tǒng)計方法是通過研究樣本來了解和判斷總體的統(tǒng)計特性的科學方法。2.2信息論的基本概念2.2.1最優(yōu)編碼(bin m)變長編碼(bin m):給小概率信息賦以較長的編碼,而給大概率消息賦以較短的編碼。隨機變量(su j bin lin) X 服從概率分布 P,如果消息 x 的分布密度為 p(x),則給其分配一個長度為個二進制位的編碼。消息的編碼長度大,可理解為消息所含信息量大。消息的編碼長度小,則消息所含信息量小。平均信息量即為發(fā)送
19、一個消息的平均編碼長度 。信息論中用熵描述隨機變量平均信息量。2.2.2熵(entropy)熵描述了隨機變量的不確定性。2.2.3 互信息(mutual information)2.2.4噪音信道模型在利用噪聲信道處理語言問題時,人們并不關心編碼問題,而更多關心的是,在有噪聲存在的情況下,如何解碼將輸出還原為信道輸入。2.3統(tǒng)計(tngj)語言模型簡介語言(yyn)建模(Language Modeling)對于一個服從(fcng)某個未知概率分布P的語言L,根據(jù)給定的語言樣本估計P的過程被稱作語言建模。3、P3-語言材料電子化工具-文本電子化:手段編碼及格式3.1 關于文本電子化定義:文本電子
20、化就是指將文本轉換為機器可讀形式進行存儲。使用翻譯技術的前提:A 待譯文本需要是電子化的。 B、翻譯過程中使用的語言資源需要電子化:語料庫:翻譯記憶庫(TM):術語資源、詞典資源文本的機器可讀形式:計算機及其軟件可以讀寫以及處理。如文字編輯。對于文本而言,字符以適當?shù)木幋a形式存儲。如:ASCII碼、GB2312碼、UNICODE碼等。非機器可讀形式的文本:手寫文稿、打印文稿 傳真文稿 文稿的數(shù)字照片3.2 關于文字編碼和編碼轉換文字在計算機中是以編碼形式表示的編碼的標準化:英文字符編碼標準 ASCII碼西文字符編碼標準 ISO8859漢字編碼標準 GB18030、BIG-5統(tǒng)一碼 UNICOD
21、E文字的輸入和輸出文字編碼的處理過程: 輸入碼機內(nèi)碼字形碼除輸入和輸出外,計算機內(nèi)的任何文字處理都是以機內(nèi)碼形式進行的,如編輯、統(tǒng)計關于編碼的轉換從機器可讀到軟件可讀編碼與軟件對編碼的支持軟件可能不支持所有編碼,若軟件不支持某文本采用的編碼,會出現(xiàn)處理錯誤或得不到預期的處理結果。不兼容的編碼之間可以轉換: GB BIG-5 GB UNICODE3.3 文本(wnbn)的電子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition掃描(somio)(scanning) 將硬拷貝文稿(wngo)經(jīng)掃描儀掃描轉換為圖像格
22、式存儲,如:*.bmp、*.jpg、*.tif等。圖像存儲格式的特點:點陣存儲 基本單位是像素(pixel)光學字符識別(OCR):將印刷體或手寫體圖像中的文字辨認出來,轉換為規(guī)定的編碼格式存儲,如:ASCII、GB2312、UNICODE等OCR的基本過程 圖像處理: 縮放、旋轉、去除污痕,目標是提高識別率 版面劃分: 區(qū)分文字、表格板塊以及非文字板塊,判別識別順序,便于按序分別處理 文字識別: 根據(jù)特定模型及文字識別特征,逐行逐字進行識別 文字編輯: 對識別結果進行編輯,糾正錯誤3.4 關于文件格式和格式轉換常見的文件格式有: 純文本文件(txt文件) Web頁面文件(html文件) Wo
23、rd文檔(doc文件) Portable Document Format (PDF文檔) Rich Text Format (RTF文件) .純文本文件中只能有文字信息,不能有格式信息、圖表信息輔助翻譯軟件未必支持所有文件格式。許多語料處理工具僅僅支持純文本文件。要注意文檔格式轉換常常會損失信息。例如圖表、格式信息會丟失或不能很好保持。4、語料處理工具工作原理P4-現(xiàn)代漢語詞語切分技術什么是漢語自動切分?通過計算機把組成漢語文本的字串自動轉換為詞串的過程被稱為自動切分segmentation)。英語中的切分問題英語中不是完全沒有切分問題,不能僅僅憑借空格和標點符號解決切分問題。英語中的切分通常
24、被叫做Tokenization。同漢語相比,英語切分問題較為容易。為什么要進行(jnxng)漢語的切分研究應用的要求(yoqi):語音合成和信息檢索漢語(Hny)自動切分的方法基于詞表的方法最大匹配法(MM)(特點:長詞優(yōu)先,算法非常簡單)1. 正向最大匹配法(MM):從左向右匹配詞典2. 逆向最大匹配法(RMM):從右向左匹配詞典全切分+路徑選擇序列標注方法:把切分問題看作給句子中每個字加標記的過程。四個標記:(1) B 詞首 (2) M 詞中(3) E 詞尾 (4)單獨成詞 S例如:提/B 高/E 人/B 民/E 的/S 生/B 活/E 水/B 平/E自動切分的評價準確率(P)切分結果中正
25、確分詞數(shù)/切分結果中所有分詞數(shù)*100%召回率(R)切分結果中正確分詞數(shù)/標準答案中所有分詞數(shù)*100%F-評價(F-measure 綜合準確率和召回率的評價指標)F-指標2PR/(P+R)漢語切分的關鍵問題切分歧義(消解) 一個字串有不止一種切分結果交集型歧義:從小學組合型歧義:中將混合型歧義:人才能歧義的分類真歧義:歧義字段在不同的語境中確實有多種切分形式。偽歧義:歧義字段單獨拿出來看有歧義,但在真實語境中僅有一種切分形式可接受。歧義的發(fā)現(xiàn)歧義消解的前提是發(fā)現(xiàn)歧義。切分算法應該有能力檢測到輸入文本中何時出現(xiàn)了歧義切分現(xiàn)象。1雙向最大匹配(MM+RMM): 同時采用MM法和RMM法。如果MM
26、法和RMM法給出同樣的結果,則認為沒有歧義,若不同,則認為發(fā)生了歧義。雙向最大匹配法不能發(fā)現(xiàn)所有的歧義,存在盲點最大匹配法不能發(fā)現(xiàn)組合型歧義(長詞優(yōu)先)在一定條件下(鏈長為偶數(shù)),雙向最大匹配法也不能發(fā)現(xiàn)交集型歧義2MM+逆向最小匹配法3全切分算法歧義(qy)消解基于統(tǒng)計的歧義消解(xioji):在詞圖上尋找統(tǒng)計意義上的最佳路徑未登錄(dn l)詞識別 專有名詞新詞 未登錄詞識別困難 未登錄詞沒有明確邊界 許多未登錄詞的構成單元本身都可以獨立成詞通常,每一類未登錄詞都要構造專門的識別算法:在序列標注法中,未登錄詞無需單獨處理。識別依據(jù)內(nèi)部構成規(guī)律(用字規(guī)律)外部環(huán)境(上下文)P5-詞類的自動標
27、注什么是詞?是由語素構成的、能夠獨立運用的最小的語言單位。隱馬爾可夫模型(HMM)簡介簡介:Hidden Markov Model, HMM)是對馬爾科夫模型的一種擴充。隱馬爾科夫模型的基本理論成形于上世紀60年代末期和70年代初期。(L.E.Baum)70年代,CMU的J.K.Baker以及IBM 的F.Jelinek 等把隱馬爾科夫模型用于語音識別研究。隱馬爾科夫模型在語言信息處理領域中有著廣泛的應用。例如隱馬爾科夫模型在詞類自動標注中的應用。馬爾科夫:一階馬爾科夫模型可以描述為一個二元組( S, A ) ,S是狀態(tài)的集合,而A是所有狀態(tài)轉移概率組成的一個n行n列的矩陣,其中每一個元素ai
28、j表示從狀態(tài)i轉移到狀態(tài)j的概率 。在馬爾科夫模型中,給定了觀察序列,同時也就確定了狀態(tài)轉換序列。隱馬爾科夫:如果給定一個觀察序列(不同顏色的小球序列),不能直接確定狀態(tài)轉換序列(壇子的序列),因為狀態(tài)轉移過程被隱藏起來了。所以這類隨機過程被稱為隱馬爾科夫過程。隱馬爾可夫過程是一個雙重隨機過程,其中一重隨機過程不能直接觀察到-通過狀態(tài)轉移概率表示。另一重隨機過程輸出可以觀察到的觀察符號,這由輸出概率來定義。隱馬爾科夫模型(mxng)的三個問題:給定(i dn)HMM l = ( A, B, p )給定(i dn)觀察序列 O = ( o1 o2 o3 oT )如何有效地計算出觀察序列的概率,即
29、P(O|l )?(估算問題)給定HMM l = ( A, B, p )給定觀察序列O = ( o1 o2 o3 oT )如何尋找一個狀態(tài)轉換序列 q = (q1 q2 q3 qT ),使得該狀態(tài)轉換序列最有可能產(chǎn)生上述觀察序列?(解碼問題)在模型參數(shù)未知或不準確的情況下,如何根據(jù)觀察序列O = ( o1 o2 o3 oT )求得模型參數(shù)或調(diào)整模型參數(shù)(學習問題 或 訓練問題)估算觀察序列概率對隱馬爾可夫模型而言,狀態(tài)轉換序列是隱藏的,一個觀察序列可能由任何一種狀態(tài)轉換序列產(chǎn)生。因此要計算一個觀察序列的概率值,就必須考慮所有可能的狀態(tài)轉換序列。求解最佳狀態(tài)轉換序列隱馬爾可夫模型的第二個問題是計算
30、出一個能最好解釋觀察序列的狀態(tài)轉換序列 。理論上,可以通過枚舉所有的狀態(tài)轉換序列,并對每一個狀態(tài)轉換序列q計算P(O, q |l),能使P(O, q |l)取最大值的狀態(tài)轉換序列q*就是能最好解釋觀察序列的狀態(tài)轉換序列,參數(shù)學習隱馬爾科夫模型的前兩個問題均假設模型參數(shù)已知,第三個問題是模型參數(shù)未知,求最佳模型的問題,是三個問題中最為困難的問題。在模型(l)未知的情況下,如果給定觀察序列的同時,也給定了狀態(tài)轉換序列,此時可以通過有指導的學習方法學習模型參數(shù)。例如給定下面的訓練數(shù)據(jù),可以通過最大似然估計法估計模型參數(shù)。詞類標注的語言學基礎1詞的分類依據(jù)形態(tài)標準Words that function
31、 similarly with respect to the affixes they take (their morphological properties) are grouped into classes.分布標準Words that function similarly with respect to what can occur nearby (their “syntactic distributional properties”) are grouped into classes.意義標準()While word classes do have tendencies toward
32、 semantic coherence (nouns do in fact often describe “people, places or things”, and adjectives often describe properties), this is not necessarily the case, and in general we dont use the semantic coherence as a definition criterion for part-of-speech.2英語中詞(zhngc)的分類封閉詞類(cli)和開放詞類功能詞類(cli)和內(nèi)容詞類3漢語中
33、詞的分類主要依據(jù):詞的分布特征或者說語法功能(主要指詞在句法結構里所能占據(jù)的語法位置。)實詞和虛詞:從功能上看,實詞可以充當主語、謂語和賓語。虛詞則不可以。從意義上看,實詞有實在的意義,表示事物、動作、行為、變化、性質、狀態(tài)、處所、時間等。虛詞基本只起語法作用,本身多無實在意義。從數(shù)量上看,實詞多為開放類,虛詞多為封閉類。體詞和謂詞:實詞可分成體詞和謂詞。體詞可以做主語和賓語。謂詞主要做謂語。4兼類問題如果同一個詞具有不同詞類的語法功能,則認為這個詞兼屬不同的詞類,簡稱兼類。5英語詞類標記集Brown corpus tagsetPenn treebank tagset UCRELs C5 ta
34、gset6漢語詞類標記集北京大學人民日報語料庫詞類標記集國家語委語用所詞類標記集詞類標注的基本方法1詞類自動標注判定自然語言句子中的每個詞的詞類并給每個詞賦以詞類標記。對于兼類詞,詞類標注程序應根據(jù)上下文確定兼類詞在句子中最合適的詞類標記。(難點所在)詞類自動標注是深層語言分析的基礎。詞類標注程序判定依據(jù):要標注的詞的不同詞類的分布,上下文中其它詞的詞類信息2基本方法(基于規(guī)則的、基于統(tǒng)計的、統(tǒng)計規(guī)則相結合的) 基于規(guī)則的詞類標注早期均為基于規(guī)則方法基于規(guī)則的詞類標注程序工作過程1. 查詞典,給句中各詞標記所有可能的詞類標記。2. 應用規(guī)則,逐步刪除錯誤的標記,最終只留下正確的標記。基于隱馬爾
35、科夫模型的詞類標注基于轉換的詞類標注特點(tdin)(兼具規(guī)則和統(tǒng)計兩個(lin )方面的特性) 應用規(guī)則(guz)進行標注,規(guī)則稱為轉換。規(guī)則不是人工總結,而是應用機器學習的辦法學習得到。使用的機器學方法通常稱作基于轉換的學習(Transformation-Based Learning or TBL)。什么是一個轉換(transformation)? 激發(fā)環(huán)境(triggering environment):描述了應用該轉換需要滿足的條件 重寫規(guī)則(rewriting rule): 描述了應用規(guī)則所要進行的動作轉換規(guī)則可以視為一種糾錯規(guī)則在轉換規(guī)則使用前,待標注的句子已經(jīng)進行過初步標注,轉換
36、規(guī)則負責改正其中的錯誤標注激發(fā)環(huán)境:當前詞前面一個詞的詞類是副形詞(ad)重寫規(guī)則:把當前詞的詞類從名詞(n)改作動詞(v)未登錄詞視作兼類詞,可能是任何一個詞類,均勻分布 依照出現(xiàn)一次的詞(hapax legomenon)的規(guī)律處理 更可能是名詞 不大可能是限定詞等 將出現(xiàn)一次的詞的分布平均作為未登錄詞的分布 對于英文等語言可以利用形態(tài)特性(詞綴)、拼寫特性判定(首字母大小寫)P6-屈折語的形態(tài)分析什么是形態(tài)學(Morphology)?形態(tài)學研究屈折語中詞的構成規(guī)則詞通常由語素(morpheme)組成。語素是語言中最小的意義單位(minimal meaning bearing unit)。總
37、的來說,語素可以分成兩大類1詞根(root): 提供詞的主要意義 2詞綴(affix): 提供詞的各種附加意義(修改詞根義或改變詞的語法功能)1) 前綴(prefix): 出現(xiàn)在詞根的前面2) 后綴(suffix): 出現(xiàn)在詞根的后面語素如何構成詞?1. 派生(derivation):詞根+詞綴形成的詞通常與原詞根不屬一類,詞義通常與原詞根有聯(lián)系(有時難以預料),詞根與詞綴派生的結果也稱作詞干(stem)。 computerize+ation (verbnoun)2. 屈折變化(inflection):詞干+詞綴形成的詞通常與原詞干同屬一類,常用來使詞具備數(shù)、時態(tài)等功能 cat+s walk+
38、ed walk+ing英語中的屈折(q sh)變化不規(guī)則變化的詞數(shù)量(shling)有限,但多是常用詞大部分詞的變化(binhu)屬規(guī)則變化英語中的派生詞英語中派生現(xiàn)象較為復雜,僅看幾個例子 動詞、形容詞的名詞化(nominalization): computerize (V) computerization 從名詞、動詞派生出形容詞 clue (N) clueless派生規(guī)則規(guī)律性不如屈折變化規(guī)則、不能隨意派生什么是形態(tài)分析?形態(tài)分析研究如何利用計算機把屈折語中的詞分解成語素.為什么要進行形態(tài)分析?應用的要求:信息檢索、TM中的應用、深層英語分析的基礎形態(tài)分析的技術基礎 有限狀態(tài)自動機 有限
39、狀態(tài)轉換機形式語言有限狀態(tài)自動機和語言構建形態(tài)分析器所需要的資源1. 詞典(lexicon):詞干(詞根)和詞綴;詞干(詞根)和詞綴的基本信息2. 形態(tài)知識(morphotactics):語素間的順序關系哪一類語素可以和哪一類語素組合(例如:名詞后面可以加一個復數(shù)語素)3. 正字規(guī)則(orthographic rule or spelling rule):兩個語素組合時應進行怎樣的變化(如:把y改寫為i加es)P8-平行文本的自動對齊什么是平行文本(parallel text)?雙語語料庫是涉及兩種語言的語料庫,由雙語平行文本組成。多語平行文本由多個單語文本組成,這些文本之間具有翻譯關系。雙語
40、平行文本由兩個單語文本組成,這兩個單語文本互為譯文。多語平行語料庫又稱作翻譯語料庫(translation corpora)。多語平行語料庫包含原文及其譯文,是機器(輔助)翻譯等多語信息處理的重要資源。雙語對齊(du q)處理(Bilingual Alignment)所謂(suwi)雙語對齊(du q)處理就是在不同語言文本的不同語言單位之間建立對應關系,也就是確定源語言文本中哪個(些)語言單位和目標語言文本中哪個(些)語言單位互為翻譯關系。所謂自動雙語對齊處理指的是通過一定的算法,由計算機在雙語文本間建立對齊關系。對齊可以在各種語言單位間進行,例如:文本級、段落級、句子級、短語級、詞匯級句子
41、級對齊是最基本的對齊(段落對齊可視為一種特殊的句子的對齊)。關鍵問題: 機器不能在理解的基礎上進行對齊、并非嚴格的一一對應、 譯文可能涉及語序的調(diào)整、可能出現(xiàn)省略不譯的現(xiàn)象、反之譯文中也可能增加原文中沒有的內(nèi)容 從句子層級看,語序不會劇烈調(diào)整 大部分情況是一一對應句子對齊的方法句子對齊的基本方法 基于長度的對齊方法 基于單詞的對齊方法兩種方法對齊準確率都較高,對一般文本,都在90%以上?;陂L度的對齊方法效率優(yōu)于基于單詞的對齊方法。基于單詞的對齊方法:利用單詞的對應關系,來決定句子的對齊關系?;陂L度的對齊方法依據(jù):互為翻譯的兩個句子在長度上高度相關?;陂L度的對齊方法只利用了文本中句子的長度
42、信息待對齊的兩個文本不過是兩個數(shù)字(長度)序列長度對齊的基本原理:基于長度對齊的基本過程可以概括為(1) 枚舉文本間所有可能的對齊(2) 評價每種對齊模式的合理性(3) 選擇最佳對齊詞匯信息的引入可利用詞匯對應信息改善基于長度對齊的效果錨點:雙語文本中有明顯對應關系的詞匯(數(shù)字、日期、人名、地名)5、翻譯技術及其原理語料分析(詞頻、搭配和檢索)P7-術語管理和提?。ù钆浜托g語自動提取)什么是搭配?定義:A COLLOCATION is an expression consisting of two or more words that correspond to some convention
43、al way of saying things.Within the area of corpus linguistics, COLLOCATION is defined as a pair of words (the node and the collocate) which co-occur more often than would be expected by chance.搭配構成(guchng)的一般原則廣義搭配:語法上合法的詞語(cy)序列狹義搭配(dpi):固定搭配和半固定搭配什么是術語?terminology is the specialized vocabulary of
44、a field. These terms have specific definitions within the field, which is not necessarily the same as their meaning in common use.常用的搭配提取方法統(tǒng)計方法 與 規(guī)則方法常用的統(tǒng)計方法 基于頻率的方法(frequency-based approach)通過統(tǒng)計兩個詞(bigram)的共現(xiàn)頻率的方法來發(fā)現(xiàn)并提取搭配。通常最高頻的詞語組合是虛詞的組合??赏ㄟ^詞類組合模式進行過濾,剔除高頻的虛詞組合。詞語及其搭配詞未必比鄰出現(xiàn),前述頻率法不能直接應用,此時可以通過定義搭配
45、窗口的方法進行解決,統(tǒng)計詞語和窗口范圍內(nèi)的其他所有詞的共現(xiàn)頻率。大小為-5,+5的搭配窗口 基于方差的方法(variance-based approach) 若w1和w2出現(xiàn)的位置相對固定,則二者有可能構成一個搭配。計算w1和w2兩個詞在語料庫中位置偏移的均值 m。計算位置偏移的方差 s2均值和方差刻畫了兩個詞之間距離的分布情況。如果兩個詞的距離的方差較小,則有可能二者構成一個搭配。較小的方差意味著兩個詞之間的距離相對固定。假設檢驗法(hypothesis testing)采用假設檢驗的方法 首先假設w1w2是在語料庫中是機會共現(xiàn)(co-occur by chance),該假設通常稱為原假設(
46、null hypothesis)。基于原假設,利用樣本數(shù)據(jù)進行檢驗,若不能推翻原假設,則w1w2不構成搭配,若推翻原假設,則w1w2構成搭配,即認為備擇假設成立。若w1w2為機會共現(xiàn),則w1、w2相互獨立,即p(w1w2) = p(w1) p(w2)t-檢驗法(基本原則是假定樣本數(shù)據(jù)來自均值為 m的分布,然后通過對比樣本均值和預期的均值m之間的差異,判斷樣本是否來自于所假設的分布,從而推斷出原假設是否成立。t-檢驗和其他檢驗常用來給搭配排序,即t-值越大,w1w2越可能是一個搭配。)x2檢驗法(主要思想是對比預期頻率以及觀察頻率,若二者差別較大,則拒絕原假設。) 互信息法 (mutual in
47、formation)一個事件中所蘊含的關于另外一個事件的信息量兩個事件之間的關聯(lián)度 若兩個事件(shjin)獨立,則有I(x,y)=0 若兩個事件高度依賴,一個出現(xiàn)必然(brn)意味著另外一個事件(shjin)出現(xiàn)。互信息對于兩個事件是否獨立可以給出較好的判別?;バ畔⒅到咏?兩個事件相互獨立.但對于兩個事件互相依賴,僅依靠互信息值有缺陷。 互信息值與事件的頻率有關 低頻率事件有可能獲得較高的互信息值,因而對于稀疏數(shù)據(jù),互信息結果未必可靠領域性處理停用詞(stop list) 領域無關詞匯在任何領域都以相同的規(guī)律出現(xiàn)翻譯記憶技術P9-機器翻譯的原理和方法什么是機器翻譯及其研究目標研制出能把一種自
48、然語言(源語言)的文本翻譯為另外一種自然語言(目標語言)的文本的計算機軟件系統(tǒng)。全自動高質量的機器翻譯系統(tǒng)(FAHQMT)仍將是人類一個遙遠的夢。機器翻譯的基本方法 1基于規(guī)則的機器翻譯方法(傳統(tǒng)的機器翻譯方法) 直接翻譯法(逐詞進行翻譯,無需對源語言文本進行分析,對翻譯過程的認識過于簡化) 中間語言法一種中間表達,通常是一種句法-語義表達,中間語言獨立于任何具體的自然語言。源文本經(jīng)過深層分析得到源語言的中間語言表示。 再由該中間表示生成目標語文本。 翻譯過程為兩個階段。中間語言法在理論上非常經(jīng)濟,可有效減少翻譯模塊的數(shù)量??砂裯(n-1)個直接翻譯模塊減少為2n個翻譯模塊。(目前沒有特別成功
49、的基于中間語言的機器翻譯系統(tǒng)。) 轉換法分析源語言文本,得到其源語言內(nèi)部表達 將源語言內(nèi)部表達轉換成目標語內(nèi)部表達 根據(jù)目標語內(nèi)部表達生成目標語文本翻譯過程分成三個階段(商業(yè)上最為成功的方法,目前絕大部分商品化機器翻譯系統(tǒng)采用轉換式機器翻譯方法。)規(guī)則系統(tǒng)中的知識表示開發(fā)一個基于規(guī)則的機器翻譯系統(tǒng),首先要設計一個知識表示系統(tǒng),將翻譯過程中所有需要的知識以計算機可以操作的形式表述出來。一般而言,翻譯過程往往需要下述一些知識的支撐:(1) 源語言知識。系統(tǒng)利用源語言知識分析(fnx)源語言句子,得到源語言句子的結構和意義。(2) 目標語言知識。系統(tǒng)利用目標語言知識,產(chǎn)生可以(ky)接受的目標語言句子。(3) 源語言到目標語言的對譯知識(zh shi)。在基于轉換的系統(tǒng)中,系統(tǒng)需要根據(jù)各種級別的對應關系來完成源語言到目標語言的轉換。最基本的是詞之間的對譯知識。(4) 領域知識和世界知識。利用源語言知識、目標語言知識,在領域
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人租房押付三合同
- 廣告設計制作合同協(xié)議書
- 客車駕駛員聘用協(xié)議書
- 分期付款設備買賣合同
- 物資倉庫裝修施工方案
- 下部結構施工方案
- 宿遷住宅防水施工方案
- 安徽省部分學校2024-2025學年高三下學期3月調(diào)研考試歷史試題(原卷版+解析版)
- 暖氣片施工方案
- 泡沫箱和紙箱加工生產(chǎn)線環(huán)評報告表
- 《飯店服務與管理》認識飯店的“神經(jīng)中樞”
- GB/T 15856.5-2023六角凸緣自鉆自攻螺釘
- 電子產(chǎn)品質量工程技術與管理高職PPT全套完整教學課件
- 【橡膠工藝】-橡膠履帶規(guī)格
- 小學勞動技術云教三年級下冊植物栽培種植小蔥(省一等獎)
- 2020年環(huán)境法律法規(guī)及其它要求清單
- 綜采工作面主要設備選型設計方案
- 籍貫對照表完整版
- GB/T 7251.3-2017低壓成套開關設備和控制設備第3部分:由一般人員操作的配電板(DBO)
- GB/T 22576.7-2021醫(yī)學實驗室質量和能力的要求第7部分:輸血醫(yī)學領域的要求
- 2023年江蘇省中學生生物奧林匹克競賽試題及答案
評論
0/150
提交評論