計(jì)算機(jī)輔助翻譯技術(shù)Review.doc_第1頁(yè)
計(jì)算機(jī)輔助翻譯技術(shù)Review.doc_第2頁(yè)
計(jì)算機(jī)輔助翻譯技術(shù)Review.doc_第3頁(yè)
計(jì)算機(jī)輔助翻譯技術(shù)Review.doc_第4頁(yè)
計(jì)算機(jī)輔助翻譯技術(shù)Review.doc_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.計(jì)算機(jī)輔助翻譯技術(shù)概論押題:1、 隱馬爾科夫模型 2、機(jī)器翻譯的方法 3、文本電子化OCR 4、雙語(yǔ)對(duì)齊處理 5、漢語(yǔ)切分的方法和關(guān)鍵問題5-20考試計(jì)算機(jī)輔助翻譯技術(shù)考試題型:填空、判斷、問答7-8個(gè)考查內(nèi)容:基本概念梳理,理解分析能力,考題思路,課件!1、概論1.1概況為什么要研究翻譯技術(shù)? 何謂翻譯技術(shù)(translation technology)?能夠用來(lái)進(jìn)行語(yǔ)言翻譯或輔助進(jìn)行語(yǔ)言翻譯的信息技術(shù)。 解決或緩解語(yǔ)言障礙(language barrier)問題,提高翻譯從業(yè)人員的生產(chǎn)率。 翻譯技術(shù)的研究始于機(jī)器翻譯關(guān)于機(jī)器翻譯 機(jī)器翻譯(Machine Translation)定義:利用計(jì)算機(jī)及其軟件把一種語(yǔ)言(自動(dòng))翻譯成為另外一種語(yǔ)言的技術(shù)。 機(jī)器翻譯研究的目標(biāo)是研制具有翻譯能力的計(jì)算機(jī)軟件系統(tǒng)。 機(jī)器翻譯的研究始于20世紀(jì)40年代末期。 機(jī)器翻譯結(jié)論很困難。翻譯技術(shù)的分流 機(jī)器翻譯(MT):機(jī)器翻譯的主體是機(jī)器。目前比較困難。(目標(biāo)是尋找徹底的解決方案) 計(jì)算機(jī)輔助翻譯(CAT):計(jì)算機(jī)輔助翻譯的主體是人。相對(duì)比較容易,但卻很實(shí)用。 計(jì)算機(jī)輔助翻譯立足為翻譯人員提供(軟件)工具。協(xié)助翻譯人員提高效率(生產(chǎn)率)。名詞辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) TranslationMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT關(guān)于翻譯技術(shù)的理解 狹義的理解,翻譯技術(shù)指計(jì)算機(jī)輔助翻譯技術(shù)和機(jī)器翻譯技術(shù)。 廣義的理解,翻譯技術(shù)指的是對(duì)翻譯人員工作有益的任何信息技術(shù)。n 文字處理工具(MS Word) (不可或缺)n 國(guó)際互聯(lián)網(wǎng)及其應(yīng)用(WWW、Email.)n 各種電子資源(百科全書光盤.) 本課程的定位:n 主要是狹義的翻譯技術(shù)。n 配合翻譯技術(shù)的一些通用技術(shù)(數(shù)據(jù)獲取技術(shù)、文本處理技術(shù))關(guān)于本地化何謂本地化(localization)?The term “l(fā)ocalization” refers to the process of customizing or adapting a product for a targetlanguage and culture.全球化沒有帶來(lái)其他語(yǔ)言的消亡,帶來(lái)了本地化。本地化的特點(diǎn):量大、 時(shí)間緊迫、 技術(shù)(應(yīng)用)性強(qiáng)simshipAn abbreviation of “simultaneous shipment”, which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible).翻譯技術(shù)概觀翻譯技術(shù)體現(xiàn)為一組翻譯工具,是若干軟件工具的集合。翻譯工具可以涵蓋翻譯的不同階段、面向不同的需要。n 資料的收集n 原文的理解n 術(shù)語(yǔ)的處理1.2工具語(yǔ)言材料的電子化工具 Data-capture tools 使用翻譯技術(shù)的前提:待翻譯的文本需要是電子化的,是計(jì)算機(jī)可以處理的。 翻譯過程中所需要的各種資源需要是電子化的。 何為機(jī)器可讀(Machine readable)? 文字變成編碼形式 常見的電子化手段:手工鍵盤輸入(keyboarding)、 Scanning + Optical Character Recognition、 Voice Recognition 文件格式轉(zhuǎn)換工具 編碼轉(zhuǎn)換工具 多語(yǔ)種處理能力語(yǔ)料庫(kù)分析工具 Corpus:a large collection of electronic texts that have been gathered according to specific criteria. Type of corpus:n monolingual corpus:orpus which consists of texts in one language.n parallel corpus:corpus containing source texts aligned with their translations.語(yǔ)料電子化工具、語(yǔ)料處理工具 Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency lists, concordances, and collocations.(頻率表、關(guān)鍵詞、搭配) Frequency list Concordance (bilingual or monolingual) Collocation Corpus-analysis tools allow users to have access to frequency data and to see terms in a variety of contexts simultaneously features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context 直觀認(rèn)識(shí)語(yǔ)料處理工具漢語(yǔ)切詞(segmentation)詞性標(biāo)注(POS tagging)屈折語(yǔ)形態(tài)還原(lemmatization)句法分析(parsing)雙語(yǔ)對(duì)齊 (alignment)既是 語(yǔ)料處理工具 通常也是機(jī)器翻譯或機(jī)器輔助翻譯系統(tǒng)的組成部分術(shù)語(yǔ)管理工具翻譯中的術(shù)語(yǔ)一致性問題:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identification)Monolingual or BilingualQuality of term extraction翻譯記憶工具Translation Memory: a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match n Fuzzy matchn No matchTM tools and localizationTM CreationTM tool是CAT的核心工具機(jī)器翻譯用作輔助翻譯工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略n Sublanguagen controlled language集成翻譯工具 Translators workbench (workstation):an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management, translation memory, and automatic translation. Workflow management1.3 翻譯技術(shù)與計(jì)算語(yǔ)言學(xué) 計(jì)算語(yǔ)言學(xué)是通過建立形式化的計(jì)算模型來(lái)分析、理解和處理自然語(yǔ)言的學(xué)科。是一門文理交叉的學(xué)科。(源于翻譯技術(shù)的需求) 翻譯技術(shù)建立在計(jì)算語(yǔ)言學(xué)的基礎(chǔ)之上,翻譯技術(shù)的突破有待于計(jì)算語(yǔ)言學(xué)的發(fā)展。 自然語(yǔ)言n2、P2-翻譯技術(shù)的數(shù)學(xué)基礎(chǔ)2.1概率統(tǒng)計(jì)的基本概念2.1.1隨機(jī)事件隨機(jī)事件:在一定條件下,可能發(fā)生也可能不發(fā)生的事件稱為隨機(jī)事件,簡(jiǎn)稱事件。一般用大寫拉丁字母A,B,C,表示事件。隨機(jī)事件的兩個(gè)特殊情況必然事件:每次試驗(yàn)都必定發(fā)生的事件(W )。不可能事件:每次試驗(yàn)都一定不發(fā)生的事件(F)。2.1.2頻率和概率頻率:如果在相同條件下進(jìn)行了n次重復(fù)試驗(yàn),事件A出現(xiàn)了v次,那么事件A在n次實(shí)驗(yàn)中出現(xiàn)的頻率為是 v/n。當(dāng)n無(wú)限增大時(shí),頻率呈現(xiàn)穩(wěn)定性。這一統(tǒng)計(jì)規(guī)律性表明事件發(fā)生的可能性大小是事件本身所固有的、不以人們主觀意志而改變的一種客觀屬性。概率:概率:事件A發(fā)生的可能性大小稱為事件的概率,記作P(A)。當(dāng)試驗(yàn)的次數(shù)n足夠大,可以用事件的頻率近似地表示該事件的概率,即概率的基本性質(zhì)條件概率條件概率 在事件B發(fā)生的條件下,事件A發(fā)生的概率稱為事件A在事件B已發(fā)生的條件下的條件概率,記作P(A|B)。當(dāng)P(B)0時(shí),規(guī)定: 當(dāng)P(B)=0時(shí),規(guī)定P(A|B)=0。乘法公式2.1.3獨(dú)立性和貝葉斯公式 若事件A和B,滿足條件P(AB)=P(A)P(B)則稱事件A和B相互獨(dú)立。貝葉斯公式:根據(jù)乘法公式,可以得到下面的重要公式2.1.4隨機(jī)變量隨機(jī)變量: 每次試驗(yàn)的結(jié)果可以用一個(gè)實(shí)值變量X的取值來(lái)表示,這個(gè)變量稱為隨機(jī)變量。它是隨機(jī)現(xiàn)象的數(shù)量化。離散型隨機(jī)變量 如果隨機(jī)變量X只能取有限個(gè)(或可列個(gè) )數(shù)值x1,x2,xn,就稱X為離散型隨機(jī)變量。在語(yǔ)言的統(tǒng)計(jì)處理中,一般僅用到離散型隨機(jī)變量。2.1.5概率質(zhì)量函數(shù)(pmf)設(shè)X是一個(gè)離散型隨機(jī)變量,它所有可能取的值為x1, x2, , xn, ,PX =xk=pk (k = 1, 2, , n, ),則可以用下面的表格來(lái)表達(dá)X統(tǒng)計(jì)的規(guī)律:其中,1pk0且pk=1 ,稱表格所表示的函數(shù)為離散型隨機(jī)變量的分布質(zhì)量函數(shù),記作p(x)。2.1.6 隨機(jī)變量的數(shù)字特征期望 方差 標(biāo)準(zhǔn)差數(shù)學(xué)期望: 隨機(jī)變量X的數(shù)學(xué)期望E(X)是該變量取值的概率加權(quán)平均。數(shù)學(xué)期望簡(jiǎn)稱期望,描述了隨機(jī)變量的平均值。若X為離散型隨機(jī)變量,則:E(X) = X1*p(X1) + X2*p(X2) + + Xn*p(Xn)隨機(jī)變量(X E(X)2的數(shù)學(xué)期望稱為隨機(jī)變量X 的方差,記作D(X)或Var(X)。方差描述了隨機(jī)變量的取值距離其平均值(即期望值)的分散程度。即標(biāo)準(zhǔn)差 隨機(jī)變量X的標(biāo)準(zhǔn)差定義為隨機(jī)變量X的方差的算術(shù)平方根,記作s (X ) 。即:2.1.7總體、樣本總體 研究對(duì)象的所有可能的觀察結(jié)果稱為總體 。樣本 從總體中抽取一部分樣品,稱為總體的一個(gè)樣本。數(shù)理統(tǒng)計(jì)方法是通過研究樣本來(lái)了解和判斷總體的統(tǒng)計(jì)特性的科學(xué)方法。2.2信息論的基本概念2.2.1最優(yōu)編碼變長(zhǎng)編碼:給小概率信息賦以較長(zhǎng)的編碼,而給大概率消息賦以較短的編碼。隨機(jī)變量 X 服從概率分布 P,如果消息 x 的分布密度為 p(x),則給其分配一個(gè)長(zhǎng)度為個(gè)二進(jìn)制位的編碼。消息的編碼長(zhǎng)度大,可理解為消息所含信息量大。消息的編碼長(zhǎng)度小,則消息所含信息量小。平均信息量即為發(fā)送一個(gè)消息的平均編碼長(zhǎng)度 。信息論中用熵描述隨機(jī)變量平均信息量。2.2.2熵(entropy)熵描述了隨機(jī)變量的不確定性。2.2.3 互信息(mutual information)2.2.4噪音信道模型在利用噪聲信道處理語(yǔ)言問題時(shí),人們并不關(guān)心編碼問題,而更多關(guān)心的是,在有噪聲存在的情況下,如何解碼將輸出還原為信道輸入。2.3統(tǒng)計(jì)語(yǔ)言模型簡(jiǎn)介語(yǔ)言建模(Language Modeling)對(duì)于一個(gè)服從某個(gè)未知概率分布P的語(yǔ)言L,根據(jù)給定的語(yǔ)言樣本估計(jì)P的過程被稱作語(yǔ)言建模。3、P3-語(yǔ)言材料電子化工具-文本電子化:手段編碼及格式3.1 關(guān)于文本電子化 定義:文本電子化就是指將文本轉(zhuǎn)換為機(jī)器可讀形式進(jìn)行存儲(chǔ)。 使用翻譯技術(shù)的前提:A 待譯文本需要是電子化的。 B、翻譯過程中使用的語(yǔ)言資源需要電子化:語(yǔ)料庫(kù):翻譯記憶庫(kù)(TM):術(shù)語(yǔ)資源、詞典資源 文本的機(jī)器可讀形式:計(jì)算機(jī)及其軟件可以讀寫以及處理。如文字編輯。對(duì)于文本而言,字符以適當(dāng)?shù)木幋a形式存儲(chǔ)。如:ASCII碼、GB2312碼、UNICODE碼等。非機(jī)器可讀形式的文本:手寫文稿、打印文稿n 傳真文稿n 文稿的數(shù)字照片3.2 關(guān)于文字編碼和編碼轉(zhuǎn)換 文字在計(jì)算機(jī)中是以編碼形式表示的 編碼的標(biāo)準(zhǔn)化:英文字符編碼標(biāo)準(zhǔn) ASCII碼西文字符編碼標(biāo)準(zhǔn) ISO8859漢字編碼標(biāo)準(zhǔn) GB18030、BIG-5統(tǒng)一碼 UNICODE 文字的輸入和輸出文字編碼的處理過程:n 輸入碼機(jī)內(nèi)碼字形碼除輸入和輸出外,計(jì)算機(jī)內(nèi)的任何文字處理都是以機(jī)內(nèi)碼形式進(jìn)行的,如編輯、統(tǒng)計(jì) 關(guān)于編碼的轉(zhuǎn)換從機(jī)器可讀到軟件可讀編碼與軟件對(duì)編碼的支持軟件可能不支持所有編碼,若軟件不支持某文本采用的編碼,會(huì)出現(xiàn)處理錯(cuò)誤或得不到預(yù)期的處理結(jié)果。不兼容的編碼之間可以轉(zhuǎn)換: GB BIG-5n GB UNICODE3.3 文本的電子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition 掃描(scanning)n 將硬拷貝文稿經(jīng)掃描儀掃描轉(zhuǎn)換為圖像格式存儲(chǔ),如:*.bmp、*.jpg、*.tif等。圖像存儲(chǔ)格式的特點(diǎn):點(diǎn)陣存儲(chǔ)w 基本單位是像素(pixel) 光學(xué)字符識(shí)別(OCR):將印刷體或手寫體圖像中的文字辨認(rèn)出來(lái),轉(zhuǎn)換為規(guī)定的編碼格式存儲(chǔ),如:ASCII、GB2312、UNICODE等 OCR的基本過程n 圖像處理: 縮放、旋轉(zhuǎn)、去除污痕,目標(biāo)是提高識(shí)別率n 版面劃分: 區(qū)分文字、表格板塊以及非文字板塊,判別識(shí)別順序,便于按序分別處理n 文字識(shí)別: 根據(jù)特定模型及文字識(shí)別特征,逐行逐字進(jìn)行識(shí)別n 文字編輯: 對(duì)識(shí)別結(jié)果進(jìn)行編輯,糾正錯(cuò)誤3.4 關(guān)于文件格式和格式轉(zhuǎn)換 常見的文件格式有:n 純文本文件(txt文件)n Web頁(yè)面文件(html文件)n Word文檔(doc文件)n Portable Document Format (PDF文檔)n Rich Text Format (RTF文件)n .純文本文件中只能有文字信息,不能有格式信息、圖表信息輔助翻譯軟件未必支持所有文件格式。許多語(yǔ)料處理工具僅僅支持純文本文件。要注意文檔格式轉(zhuǎn)換常常會(huì)損失信息。例如圖表、格式信息會(huì)丟失或不能很好保持。4、語(yǔ)料處理工具工作原理P4-現(xiàn)代漢語(yǔ)詞語(yǔ)切分技術(shù) 什么是漢語(yǔ)自動(dòng)切分?通過計(jì)算機(jī)把組成漢語(yǔ)文本的字串自動(dòng)轉(zhuǎn)換為詞串的過程被稱為自動(dòng)切分segmentation)。英語(yǔ)中的切分問題英語(yǔ)中不是完全沒有切分問題,不能僅僅憑借空格和標(biāo)點(diǎn)符號(hào)解決切分問題。英語(yǔ)中的切分通常被叫做Tokenization。同漢語(yǔ)相比,英語(yǔ)切分問題較為容易。 為什么要進(jìn)行漢語(yǔ)的切分研究應(yīng)用的要求:語(yǔ)音合成和信息檢索 漢語(yǔ)自動(dòng)切分的方法基于詞表的方法最大匹配法(MM)(特點(diǎn):長(zhǎng)詞優(yōu)先,算法非常簡(jiǎn)單)1. 正向最大匹配法(MM):從左向右匹配詞典2. 逆向最大匹配法(RMM):從右向左匹配詞典全切分+路徑選擇序列標(biāo)注方法:把切分問題看作給句子中每個(gè)字加標(biāo)記的過程。四個(gè)標(biāo)記:(1) B 詞首 (2) M 詞中(3) E 詞尾 (4)單獨(dú)成詞 S例如:提/B 高/E 人/B 民/E 的/S 生/B 活/E 水/B 平/E 自動(dòng)切分的評(píng)價(jià)準(zhǔn)確率(P)切分結(jié)果中正確分詞數(shù)/切分結(jié)果中所有分詞數(shù)*100%召回率(R)切分結(jié)果中正確分詞數(shù)/標(biāo)準(zhǔn)答案中所有分詞數(shù)*100%F-評(píng)價(jià)(F-measure 綜合準(zhǔn)確率和召回率的評(píng)價(jià)指標(biāo))F-指標(biāo)2PR/(P+R) 漢語(yǔ)切分的關(guān)鍵問題s 切分歧義(消解)n 一個(gè)字串有不止一種切分結(jié)果交集型歧義:從小學(xué)組合型歧義:中將混合型歧義:人才能歧義的分類真歧義:歧義字段在不同的語(yǔ)境中確實(shí)有多種切分形式。偽歧義:歧義字段單獨(dú)拿出來(lái)看有歧義,但在真實(shí)語(yǔ)境中僅有一種切分形式可接受。歧義的發(fā)現(xiàn)歧義消解的前提是發(fā)現(xiàn)歧義。切分算法應(yīng)該有能力檢測(cè)到輸入文本中何時(shí)出現(xiàn)了歧義切分現(xiàn)象。1雙向最大匹配(MM+RMM): 同時(shí)采用MM法和RMM法。如果MM法和RMM法給出同樣的結(jié)果,則認(rèn)為沒有歧義,若不同,則認(rèn)為發(fā)生了歧義。雙向最大匹配法不能發(fā)現(xiàn)所有的歧義,存在盲點(diǎn)最大匹配法不能發(fā)現(xiàn)組合型歧義(長(zhǎng)詞優(yōu)先)在一定條件下(鏈長(zhǎng)為偶數(shù)),雙向最大匹配法也不能發(fā)現(xiàn)交集型歧義2MM+逆向最小匹配法3全切分算法歧義消解基于統(tǒng)計(jì)的歧義消解:在詞圖上尋找統(tǒng)計(jì)意義上的最佳路徑s 未登錄詞識(shí)別n 專有名詞新詞 未登錄詞識(shí)別困難n 未登錄詞沒有明確邊界n 許多未登錄詞的構(gòu)成單元本身都可以獨(dú)立成詞通常,每一類未登錄詞都要構(gòu)造專門的識(shí)別算法:在序列標(biāo)注法中,未登錄詞無(wú)需單獨(dú)處理。識(shí)別依據(jù)內(nèi)部構(gòu)成規(guī)律(用字規(guī)律)外部環(huán)境(上下文)P5-詞類的自動(dòng)標(biāo)注什么是詞?是由語(yǔ)素構(gòu)成的、能夠獨(dú)立運(yùn)用的最小的語(yǔ)言單位。 隱馬爾可夫模型(HMM)簡(jiǎn)介簡(jiǎn)介:Hidden Markov Model, HMM)是對(duì)馬爾科夫模型的一種擴(kuò)充。隱馬爾科夫模型的基本理論成形于上世紀(jì)60年代末期和70年代初期。(L.E.Baum)70年代,CMU的J.K.Baker以及IBM 的F.Jelinek 等把隱馬爾科夫模型用于語(yǔ)音識(shí)別研究。隱馬爾科夫模型在語(yǔ)言信息處理領(lǐng)域中有著廣泛的應(yīng)用。例如隱馬爾科夫模型在詞類自動(dòng)標(biāo)注中的應(yīng)用。馬爾科夫:一階馬爾科夫模型可以描述為一個(gè)二元組( S, A ) ,S是狀態(tài)的集合,而A是所有狀態(tài)轉(zhuǎn)移概率組成的一個(gè)n行n列的矩陣,其中每一個(gè)元素aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率 。在馬爾科夫模型中,給定了觀察序列,同時(shí)也就確定了狀態(tài)轉(zhuǎn)換序列。隱馬爾科夫:如果給定一個(gè)觀察序列(不同顏色的小球序列),不能直接確定狀態(tài)轉(zhuǎn)換序列(壇子的序列),因?yàn)闋顟B(tài)轉(zhuǎn)移過程被隱藏起來(lái)了。所以這類隨機(jī)過程被稱為隱馬爾科夫過程。隱馬爾可夫過程是一個(gè)雙重隨機(jī)過程,其中一重隨機(jī)過程不能直接觀察到-通過狀態(tài)轉(zhuǎn)移概率表示。另一重隨機(jī)過程輸出可以觀察到的觀察符號(hào),這由輸出概率來(lái)定義。隱馬爾科夫模型的三個(gè)問題:給定HMM l = ( A, B, p )給定觀察序列 O = ( o1 o2 o3 oT )如何有效地計(jì)算出觀察序列的概率,即P(O|l )?(估算問題)給定HMM l = ( A, B, p )給定觀察序列O = ( o1 o2 o3 oT )如何尋找一個(gè)狀態(tài)轉(zhuǎn)換序列 q = (q1 q2 q3 qT ),使得該狀態(tài)轉(zhuǎn)換序列最有可能產(chǎn)生上述觀察序列?(解碼問題)在模型參數(shù)未知或不準(zhǔn)確的情況下,如何根據(jù)觀察序列O = ( o1 o2 o3 oT )求得模型參數(shù)或調(diào)整模型參數(shù)(學(xué)習(xí)問題 或 訓(xùn)練問題)估算觀察序列概率對(duì)隱馬爾可夫模型而言,狀態(tài)轉(zhuǎn)換序列是隱藏的,一個(gè)觀察序列可能由任何一種狀態(tài)轉(zhuǎn)換序列產(chǎn)生。因此要計(jì)算一個(gè)觀察序列的概率值,就必須考慮所有可能的狀態(tài)轉(zhuǎn)換序列。求解最佳狀態(tài)轉(zhuǎn)換序列隱馬爾可夫模型的第二個(gè)問題是計(jì)算出一個(gè)能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列 。理論上,可以通過枚舉所有的狀態(tài)轉(zhuǎn)換序列,并對(duì)每一個(gè)狀態(tài)轉(zhuǎn)換序列q計(jì)算P(O, q |l),能使P(O, q |l)取最大值的狀態(tài)轉(zhuǎn)換序列q*就是能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列,參數(shù)學(xué)習(xí)隱馬爾科夫模型的前兩個(gè)問題均假設(shè)模型參數(shù)已知,第三個(gè)問題是模型參數(shù)未知,求最佳模型的問題,是三個(gè)問題中最為困難的問題。在模型(l)未知的情況下,如果給定觀察序列的同時(shí),也給定了狀態(tài)轉(zhuǎn)換序列,此時(shí)可以通過有指導(dǎo)的學(xué)習(xí)方法學(xué)習(xí)模型參數(shù)。例如給定下面的訓(xùn)練數(shù)據(jù),可以通過最大似然估計(jì)法估計(jì)模型參數(shù)。 詞類標(biāo)注的語(yǔ)言學(xué)基礎(chǔ)1詞的分類依據(jù)形態(tài)標(biāo)準(zhǔn)Words that function similarly with respect to the affixes they take (their morphological properties) are grouped into classes.分布標(biāo)準(zhǔn)Words that function similarly with respect to what can occur nearby (their “syntactic distributional properties”) are grouped into classes.意義標(biāo)準(zhǔn)()While word classes do have tendencies toward semantic coherence (nouns do in fact often describe “people, places or things”, and adjectives often describe properties), this is not necessarily the case, and in general we dont use the semantic coherence as a definition criterion for part-of-speech.2英語(yǔ)中詞的分類封閉詞類和開放詞類功能詞類和內(nèi)容詞類3漢語(yǔ)中詞的分類主要依據(jù):詞的分布特征或者說語(yǔ)法功能(主要指詞在句法結(jié)構(gòu)里所能占據(jù)的語(yǔ)法位置。)實(shí)詞和虛詞:從功能上看,實(shí)詞可以充當(dāng)主語(yǔ)、謂語(yǔ)和賓語(yǔ)。虛詞則不可以。從意義上看,實(shí)詞有實(shí)在的意義,表示事物、動(dòng)作、行為、變化、性質(zhì)、狀態(tài)、處所、時(shí)間等。虛詞基本只起語(yǔ)法作用,本身多無(wú)實(shí)在意義。從數(shù)量上看,實(shí)詞多為開放類,虛詞多為封閉類。體詞和謂詞:實(shí)詞可分成體詞和謂詞。體詞可以做主語(yǔ)和賓語(yǔ)。謂詞主要做謂語(yǔ)。4兼類問題如果同一個(gè)詞具有不同詞類的語(yǔ)法功能,則認(rèn)為這個(gè)詞兼屬不同的詞類,簡(jiǎn)稱兼類。5英語(yǔ)詞類標(biāo)記集Brown corpus tagsetPenn treebank tagset UCRELs C5 tagset6漢語(yǔ)詞類標(biāo)記集北京大學(xué)人民日?qǐng)?bào)語(yǔ)料庫(kù)詞類標(biāo)記集國(guó)家語(yǔ)委語(yǔ)用所詞類標(biāo)記集 詞類標(biāo)注的基本方法1詞類自動(dòng)標(biāo)注判定自然語(yǔ)言句子中的每個(gè)詞的詞類并給每個(gè)詞賦以詞類標(biāo)記。對(duì)于兼類詞,詞類標(biāo)注程序應(yīng)根據(jù)上下文確定兼類詞在句子中最合適的詞類標(biāo)記。(難點(diǎn)所在)詞類自動(dòng)標(biāo)注是深層語(yǔ)言分析的基礎(chǔ)。詞類標(biāo)注程序判定依據(jù):要標(biāo)注的詞的不同詞類的分布,上下文中其它詞的詞類信息2基本方法(基于規(guī)則的、基于統(tǒng)計(jì)的、統(tǒng)計(jì)規(guī)則相結(jié)合的)n 基于規(guī)則的詞類標(biāo)注早期均為基于規(guī)則方法基于規(guī)則的詞類標(biāo)注程序工作過程1. 查詞典,給句中各詞標(biāo)記所有可能的詞類標(biāo)記。2. 應(yīng)用規(guī)則,逐步刪除錯(cuò)誤的標(biāo)記,最終只留下正確的標(biāo)記?;陔[馬爾科夫模型的詞類標(biāo)注基于轉(zhuǎn)換的詞類標(biāo)注特點(diǎn)(兼具規(guī)則和統(tǒng)計(jì)兩個(gè)方面的特性)n 應(yīng)用規(guī)則進(jìn)行標(biāo)注,規(guī)則稱為轉(zhuǎn)換。規(guī)則不是人工總結(jié),而是應(yīng)用機(jī)器學(xué)習(xí)的辦法學(xué)習(xí)得到。使用的機(jī)器學(xué)方法通常稱作基于轉(zhuǎn)換的學(xué)習(xí)(Transformation-Based Learning or TBL)。什么是一個(gè)轉(zhuǎn)換(transformation)?n 激發(fā)環(huán)境(triggering environment):描述了應(yīng)用該轉(zhuǎn)換需要滿足的條件n 重寫規(guī)則(rewriting rule): 描述了應(yīng)用規(guī)則所要進(jìn)行的動(dòng)作轉(zhuǎn)換規(guī)則可以視為一種糾錯(cuò)規(guī)則w在轉(zhuǎn)換規(guī)則使用前,待標(biāo)注的句子已經(jīng)進(jìn)行過初步標(biāo)注,轉(zhuǎn)換規(guī)則負(fù)責(zé)改正其中的錯(cuò)誤標(biāo)注激發(fā)環(huán)境:當(dāng)前詞前面一個(gè)詞的詞類是副形詞(ad)重寫規(guī)則:把當(dāng)前詞的詞類從名詞(n)改作動(dòng)詞(v)未登錄詞視作兼類詞,可能是任何一個(gè)詞類,均勻分布n 依照出現(xiàn)一次的詞(hapax legomenon)的規(guī)律處理w 更可能是名詞 不大可能是限定詞等w 將出現(xiàn)一次的詞的分布平均作為未登錄詞的分布n 對(duì)于英文等語(yǔ)言可以利用形態(tài)特性(詞綴)、拼寫特性判定(首字母大小寫)P6-屈折語(yǔ)的形態(tài)分析 什么是形態(tài)學(xué)(Morphology)?形態(tài)學(xué)研究屈折語(yǔ)中詞的構(gòu)成規(guī)則詞通常由語(yǔ)素(morpheme)組成。語(yǔ)素是語(yǔ)言中最小的意義單位(minimal meaning bearing unit)??偟膩?lái)說,語(yǔ)素可以分成兩大類1詞根(root): 提供詞的主要意義n 2詞綴(affix): 提供詞的各種附加意義(修改詞根義或改變?cè)~的語(yǔ)法功能)1) 前綴(prefix): 出現(xiàn)在詞根的前面2) 后綴(suffix): 出現(xiàn)在詞根的后面 語(yǔ)素如何構(gòu)成詞?1. 派生(derivation):詞根+詞綴形成的詞通常與原詞根不屬一類,詞義通常與原詞根有聯(lián)系(有時(shí)難以預(yù)料),詞根與詞綴派生的結(jié)果也稱作詞干(stem)。n computerize+ation (verbnoun)2. 屈折變化(inflection):詞干+詞綴形成的詞通常與原詞干同屬一類,常用來(lái)使詞具備數(shù)、時(shí)態(tài)等功能n cat+s walk+ed walk+ing 英語(yǔ)中的屈折變化不規(guī)則變化的詞數(shù)量有限,但多是常用詞大部分詞的變化屬規(guī)則變化 英語(yǔ)中的派生詞英語(yǔ)中派生現(xiàn)象較為復(fù)雜,僅看幾個(gè)例子n 動(dòng)詞、形容詞的名詞化(nominalization):w computerize (V) computerizationw n 從名詞、動(dòng)詞派生出形容詞ww clue (N) clueless派生規(guī)則規(guī)律性不如屈折變化規(guī)則、不能隨意派生 什么是形態(tài)分析?形態(tài)分析研究如何利用計(jì)算機(jī)把屈折語(yǔ)中的詞分解成語(yǔ)素.為什么要進(jìn)行形態(tài)分析?應(yīng)用的要求:信息檢索、TM中的應(yīng)用、深層英語(yǔ)分析的基礎(chǔ) 形態(tài)分析的技術(shù)基礎(chǔ)n 有限狀態(tài)自動(dòng)機(jī)n 有限狀態(tài)轉(zhuǎn)換機(jī)形式語(yǔ)言有限狀態(tài)自動(dòng)機(jī)和語(yǔ)言構(gòu)建形態(tài)分析器所需要的資源1. 詞典(lexicon):詞干(詞根)和詞綴;詞干(詞根)和詞綴的基本信息2. 形態(tài)知識(shí)(morphotactics):語(yǔ)素間的順序關(guān)系哪一類語(yǔ)素可以和哪一類語(yǔ)素組合(例如:名詞后面可以加一個(gè)復(fù)數(shù)語(yǔ)素)3. 正字規(guī)則(orthographic rule or spelling rule):兩個(gè)語(yǔ)素組合時(shí)應(yīng)進(jìn)行怎樣的變化(如:把y改寫為i加es)P8-平行文本的自動(dòng)對(duì)齊 什么是平行文本(parallel text)?雙語(yǔ)語(yǔ)料庫(kù)是涉及兩種語(yǔ)言的語(yǔ)料庫(kù),由雙語(yǔ)平行文本組成。多語(yǔ)平行文本由多個(gè)單語(yǔ)文本組成,這些文本之間具有翻譯關(guān)系。雙語(yǔ)平行文本由兩個(gè)單語(yǔ)文本組成,這兩個(gè)單語(yǔ)文本互為譯文。多語(yǔ)平行語(yǔ)料庫(kù)又稱作翻譯語(yǔ)料庫(kù)(translation corpora)。多語(yǔ)平行語(yǔ)料庫(kù)包含原文及其譯文,是機(jī)器(輔助)翻譯等多語(yǔ)信息處理的重要資源。 雙語(yǔ)對(duì)齊處理(Bilingual Alignment)所謂雙語(yǔ)對(duì)齊處理就是在不同語(yǔ)言文本的不同語(yǔ)言單位之間建立對(duì)應(yīng)關(guān)系,也就是確定源語(yǔ)言文本中哪個(gè)(些)語(yǔ)言單位和目標(biāo)語(yǔ)言文本中哪個(gè)(些)語(yǔ)言單位互為翻譯關(guān)系。所謂自動(dòng)雙語(yǔ)對(duì)齊處理指的是通過一定的算法,由計(jì)算機(jī)在雙語(yǔ)文本間建立對(duì)齊關(guān)系。對(duì)齊可以在各種語(yǔ)言單位間進(jìn)行,例如:文本級(jí)、段落級(jí)、句子級(jí)、短語(yǔ)級(jí)、詞匯級(jí)句子級(jí)對(duì)齊是最基本的對(duì)齊(段落對(duì)齊可視為一種特殊的句子的對(duì)齊)。關(guān)鍵問題:n 機(jī)器不能在理解的基礎(chǔ)上進(jìn)行對(duì)齊、n并非嚴(yán)格的一一對(duì)應(yīng)、 譯文可能涉及語(yǔ)序的調(diào)整、可能出現(xiàn)省略不譯的現(xiàn)象、反之譯文中也可能增加原文中沒有的內(nèi)容n 從句子層級(jí)看,語(yǔ)序不會(huì)劇烈調(diào)整n 大部分情況是一一對(duì)應(yīng) 句子對(duì)齊的方法句子對(duì)齊的基本方法n 基于長(zhǎng)度的對(duì)齊方法w 基于單詞的對(duì)齊方法兩種方法對(duì)齊準(zhǔn)確率都較高,對(duì)一般文本,都在90%以上?;陂L(zhǎng)度的對(duì)齊方法效率優(yōu)于基于單詞的對(duì)齊方法?;趩卧~的對(duì)齊方法:利用單詞的對(duì)應(yīng)關(guān)系,來(lái)決定句子的對(duì)齊關(guān)系?;陂L(zhǎng)度的對(duì)齊方法依據(jù):互為翻譯的兩個(gè)句子在長(zhǎng)度上高度相關(guān)?;陂L(zhǎng)度的對(duì)齊方法只利用了文本中句子的長(zhǎng)度信息待對(duì)齊的兩個(gè)文本不過是兩個(gè)數(shù)字(長(zhǎng)度)序列長(zhǎng)度對(duì)齊的基本原理:基于長(zhǎng)度對(duì)齊的基本過程可以概括為(1) 枚舉文本間所有可能的對(duì)齊(2) 評(píng)價(jià)每種對(duì)齊模式的合理性(3) 選擇最佳對(duì)齊詞匯信息的引入可利用詞匯對(duì)應(yīng)信息改善基于長(zhǎng)度對(duì)齊的效果錨點(diǎn):雙語(yǔ)文本中有明顯對(duì)應(yīng)關(guān)系的詞匯(數(shù)字、日期、人名、地名)5、翻譯技術(shù)及其原理語(yǔ)料分析(詞頻、搭配和檢索)P7-術(shù)語(yǔ)管理和提取(搭配和術(shù)語(yǔ)自動(dòng)提?。┦裁词谴钆??定義:A COLLOCATION is an expression consisting of two or more words that correspond to some conventional way of saying things.Within the area of corpus linguistics, COLLOCATION is defined as a pair of words (the node and the collocate) which co-occur more often than would be expected by chance.搭配構(gòu)成的一般原則廣義搭配:語(yǔ)法上合法的詞語(yǔ)序列狹義搭配:固定搭配和半固定搭配什么是術(shù)語(yǔ)?terminology is the specialized vocabulary of a field. These terms have specific definitions within the field, which is not necessarily the same as their meaning in common use.常用的搭配提取方法統(tǒng)計(jì)方法 與 規(guī)則方法常用的統(tǒng)計(jì)方法n 基于頻率的方法(frequency-based approach)通過統(tǒng)計(jì)兩個(gè)詞(bigram)的共現(xiàn)頻率的方法來(lái)發(fā)現(xiàn)并提取搭配。通常最高頻的詞語(yǔ)組合是虛詞的組合??赏ㄟ^詞類組合模式進(jìn)行過濾,剔除高頻的虛詞組合。詞語(yǔ)及其搭配詞未必比鄰出現(xiàn),前述頻率法不能直接應(yīng)用,此時(shí)可以通過定義搭配窗口的方法進(jìn)行解決,統(tǒng)計(jì)詞語(yǔ)和窗口范圍內(nèi)的其他所有詞的共現(xiàn)頻率。大小為-5,+5的搭配窗口n 基于方差的方法(variance-based approach)n 若w1和w2出現(xiàn)的位置相對(duì)固定,則二者有可能構(gòu)成一個(gè)搭配。計(jì)算w1和w2兩個(gè)詞在語(yǔ)料庫(kù)中位置偏移的均值 m。計(jì)算位置偏移的方差 s2均值和方差刻畫了兩個(gè)詞之間距離的分布情況。如果兩個(gè)詞的距離的方差較小,則有可能二者構(gòu)成一個(gè)搭配。較小的方差意味著兩個(gè)詞之間的距離相對(duì)固定。假設(shè)檢驗(yàn)法(hypothesis testing)采用假設(shè)檢驗(yàn)的方法n 首先假設(shè)w1w2是在語(yǔ)料庫(kù)中是機(jī)會(huì)共現(xiàn)(co-occur by chance),該假設(shè)通常稱為原假設(shè)(null hypothesis)?;谠僭O(shè),利用樣本數(shù)據(jù)進(jìn)行檢驗(yàn),若不能推翻原假設(shè),則w1w2不構(gòu)成搭配,若推翻原假設(shè),則w1w2構(gòu)成搭配,即認(rèn)為備擇假設(shè)成立。若w1w2為機(jī)會(huì)共現(xiàn),則w1、w2相互獨(dú)立,即p(w1w2) = p(w1) p(w2)t-檢驗(yàn)法(基本原則是假定樣本數(shù)據(jù)來(lái)自均值為 m的分布,然后通過對(duì)比樣本均值和預(yù)期的均值m之間的差異,判斷樣本是否來(lái)自于所假設(shè)的分布,從而推斷出原假設(shè)是否成立。t-檢驗(yàn)和其他檢驗(yàn)常用來(lái)給搭配排序,即t-值越大,w1w2越可能是一個(gè)搭配。)x2檢驗(yàn)法(主要思想是對(duì)比預(yù)期頻率以及觀察頻率,若二者差別較大,則拒絕原假設(shè)。) 互信息法 (mutual information)一個(gè)事件中所蘊(yùn)含的關(guān)于另外一個(gè)事件的信息量?jī)蓚€(gè)事件之間的關(guān)聯(lián)度w 若兩個(gè)事件獨(dú)立,則有I(x,y)=0w 若兩個(gè)事件高度依賴,一個(gè)出現(xiàn)必然意味著另外一個(gè)事件出現(xiàn)?;バ畔?duì)于兩個(gè)事件是否獨(dú)立可以給出較好的判別?;バ畔⒅到咏?兩個(gè)事件相互獨(dú)立.但對(duì)于兩個(gè)事件互相依賴,僅依靠互信息值有缺陷。n 互信息值與事件的頻率有關(guān)n 低頻率事件有可能獲得較高的互信息值,因而對(duì)于稀疏數(shù)據(jù),互信息結(jié)果未必可靠領(lǐng)域性處理停用詞(stop list) 領(lǐng)域無(wú)關(guān)詞匯在任何領(lǐng)域都以相同的規(guī)律出現(xiàn)翻譯記憶技術(shù)P9-機(jī)器翻譯的原理和方法 什么是機(jī)器翻譯及其研究目標(biāo)研制出能把一種自然語(yǔ)言(源語(yǔ)言)的文本翻譯為另外一種自然語(yǔ)言(目標(biāo)語(yǔ)言)的文本的計(jì)算機(jī)軟件系統(tǒng)。全自動(dòng)高質(zhì)量的機(jī)器翻譯系統(tǒng)(FAHQMT)仍將是人類一個(gè)遙遠(yuǎn)的夢(mèng)。 機(jī)器翻譯的基本方法n 1基于規(guī)則的機(jī)器翻譯方法(傳統(tǒng)的機(jī)器翻譯方法)w 直接翻譯法(逐詞進(jìn)行翻譯,無(wú)需對(duì)源語(yǔ)言文本進(jìn)行分析,對(duì)翻譯過程的認(rèn)識(shí)過于簡(jiǎn)化)w 中間語(yǔ)言法一種中間表達(dá),通常是一種句法-語(yǔ)義表達(dá),中間語(yǔ)言獨(dú)立于任何具體的自然語(yǔ)言。源文本經(jīng)過深層分析得到源語(yǔ)言的中間語(yǔ)言表示。 再由該中間表示生成目標(biāo)語(yǔ)文本。 翻譯過程為兩個(gè)階段。中間語(yǔ)言法在理論上非常經(jīng)濟(jì),可有效減少翻譯模塊的數(shù)量。可把n(n-1)個(gè)直接翻譯模塊減少為2n個(gè)翻譯模塊。(目前沒有特別成功的基于中間語(yǔ)言的機(jī)器翻譯系統(tǒng)。)w 轉(zhuǎn)換法分析源語(yǔ)言文本,得到其源語(yǔ)言內(nèi)部表達(dá)n 將源語(yǔ)言內(nèi)部表達(dá)轉(zhuǎn)換成目標(biāo)語(yǔ)內(nèi)部表達(dá)n 根據(jù)目標(biāo)語(yǔ)內(nèi)部表達(dá)生成目標(biāo)語(yǔ)文本n翻譯過程分成三個(gè)階段(商業(yè)上最為成功的方法,目前絕大部分商品化機(jī)器翻譯系統(tǒng)采用轉(zhuǎn)換式機(jī)器翻譯方法。)規(guī)則系統(tǒng)中的知識(shí)表示開發(fā)一個(gè)基于規(guī)則的機(jī)器翻譯系統(tǒng),首先要設(shè)計(jì)一個(gè)知識(shí)表示系統(tǒng),將翻譯過程中所有需要的知識(shí)以計(jì)算機(jī)可以操作的形式表述出來(lái)。一般而言,翻譯過程往往需要下述一些知識(shí)的支撐:(1) 源語(yǔ)言知識(shí)。系統(tǒng)利用源語(yǔ)言知識(shí)分析源語(yǔ)言句子,得到源語(yǔ)言句子的結(jié)構(gòu)和意義。(2) 目標(biāo)語(yǔ)言知識(shí)。系統(tǒng)利用目標(biāo)語(yǔ)言知識(shí),產(chǎn)生可以接受的目標(biāo)語(yǔ)言句子。(3) 源語(yǔ)言到目標(biāo)語(yǔ)言的對(duì)譯知識(shí)。在基于轉(zhuǎn)換的系統(tǒng)中,系統(tǒng)需要根據(jù)各種級(jí)別的對(duì)應(yīng)關(guān)系來(lái)完成源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換。最基本的是詞之間的對(duì)譯

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論