ir講義2013 4 跨語言信息檢索_第1頁
ir講義2013 4 跨語言信息檢索_第2頁
ir講義2013 4 跨語言信息檢索_第3頁
ir講義2013 4 跨語言信息檢索_第4頁
ir講義2013 4 跨語言信息檢索_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

跨語言信息檢索背景供求矛盾供不應(yīng)求怎么辦?供不應(yīng)求減少需求增加供應(yīng)跨語言信息檢索跨語言信息檢索為了消除網(wǎng)絡(luò)資源利用中的語言障礙,跨語言信息檢索技術(shù)成為當(dāng)前信息檢索領(lǐng)域中重要的研究課題。跨語言信息檢索Cross-LanguageInformationRetrieval(CLIR)是指用戶以一種語言提問檢出另一種語言或多種語言描述的相關(guān)信息的方法跨語言檢索=傳統(tǒng)檢索+機(jī)器翻譯網(wǎng)頁互聯(lián)網(wǎng)匹配檢索結(jié)果用戶需求網(wǎng)頁采集分析處理機(jī)器翻譯建立索引索引庫機(jī)器翻譯機(jī)器翻譯機(jī)器翻譯利用計算機(jī)將一種語言翻譯成另一種語言文本翻譯語音翻譯語音識別--->文本翻譯--->語音合成機(jī)器翻譯的發(fā)展歷程19401950196019701980199020002010第一次高潮第二次高潮第三次高潮機(jī)器翻譯的起源有計算機(jī)那天就有機(jī)器翻譯的研究。1946年,世界上第一臺計算機(jī)問世。同一年,英國的A.Donald.Booth(布斯)和美國的W.Weaver(韋弗)就開始了機(jī)器翻譯的研究。19401950196019701980199020002010起源第一次高潮動力計算機(jī)的誕生冷戰(zhàn)開始主要方法基于規(guī)則的方法衰退原因計算機(jī)處理能力弱對自然語言的認(rèn)識水平低19401950196019701980199020002010第一次高潮第二次高潮動力計算機(jī)處理能力的飛速發(fā)展主要方法基于語料庫的方法衰退原因技術(shù)上矯枉過正目標(biāo)定位存在問題19401950196019701980199020002010第二次高潮第三次高潮(現(xiàn)在)動力需求的迅速膨脹計算語言學(xué)的發(fā)展目標(biāo)定位的多樣化主要方法多種方法相結(jié)合19401950196019701980199020002010第三次高潮主要的機(jī)器翻譯方法基于規(guī)則的方法基于實例的方法基于統(tǒng)計的方法基于規(guī)則的方法(RBMT)分析根據(jù)源語言分析規(guī)則,分析原文結(jié)構(gòu)。轉(zhuǎn)換根據(jù)轉(zhuǎn)換規(guī)則,將原文結(jié)構(gòu)轉(zhuǎn)換成譯文結(jié)構(gòu)生成根據(jù)目標(biāo)語言生成規(guī)則,利用譯文結(jié)構(gòu)生成譯文。分析源語言結(jié)構(gòu)翻譯:“她把一束花放在桌上?!鞭D(zhuǎn)換成目標(biāo)語言結(jié)構(gòu)結(jié)構(gòu)調(diào)整生成譯文RBMT的優(yōu)缺點(diǎn)優(yōu)點(diǎn)直觀,能夠直接表達(dá)語言學(xué)家的知識系統(tǒng)適應(yīng)性強(qiáng),不依賴于具體的訓(xùn)練語料缺點(diǎn)規(guī)則主觀因素重,有時與客觀事實有一定差距規(guī)則的覆蓋性差,特別是細(xì)顆粒度的規(guī)則很難總結(jié)得比較全面規(guī)則之間的沖突沒有好的解決辦法(翹翹板現(xiàn)象)規(guī)則一般只局限于某一個具體的系統(tǒng),規(guī)則庫開發(fā)成本太高規(guī)則庫的調(diào)試極其枯燥乏味規(guī)則,唉……詞法分析規(guī)則、句法分析規(guī)則結(jié)構(gòu)轉(zhuǎn)換規(guī)則、詞語轉(zhuǎn)換規(guī)則結(jié)構(gòu)生成規(guī)則、詞語生成規(guī)則……規(guī)則又多又煩,不用行不行?主要的機(jī)器翻譯方法基于規(guī)則的方法基于實例的方法基于統(tǒng)計的方法基于實例的方法(EBMT)照貓畫虎RBMT:分析轉(zhuǎn)換生成EBMT:匹配對齊重組基于實例的翻譯舉例吳先生是老師aisWuMr.teacher李先生是老師aisLiMr.teacher待翻譯句子實例翻譯結(jié)果基于實例的翻譯舉例吳先生是老師李先生是老師待翻譯句子實例翻譯結(jié)果先生はさん呉です先生はさん李です基于實例的翻譯舉例吳先生是老師吳小姐是老師待翻譯句子實例翻譯結(jié)果先生はさん呉です先生はさん呉です小姐?基于實例的翻譯舉例吳先生是老師吳小姐是老師待翻譯句子實例翻譯結(jié)果先生はさん呉です先生はさん呉です基于實例的翻譯舉例吳先生是老師吳先生是宇航員待翻譯句子實例翻譯結(jié)果先生はさん呉です宇宙飛行士はさん呉です匹配對齊重組EBMT的核心問題:詞對齊詞對齊aisWuMr.吳先生是老師WordAlignmentteacherEBMT的核心問題:詞對齊詞對齊WordAlignmentType1-1m-n1-nullprogrammeraisHe他是程序設(shè)計師WordAlignment詞對齊主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesMorphology-BasedApproachesCognatesisaeffectivelinguisticknowledgeinwordaligning.Thetermcognatedenotes:wordsindifferentlanguagesthataresimilarintheirorthographicorphoneticformandarepossibletranslationsofeachother.Morphology-BasedApproachesThesimilarityisusuallyduetoeitherageneticrelationshipe.g.EnglishnightandGermannachtorborrowingfromonelanguagetoanothere.g.EnglishsprintandJapaneseスプリントInabroadsense,cognatesincludenotonlygeneticallyrelatedwordsandborrowingsbutalsonames,numbers,andpunctuation.Practically,allparallelcorporacontainsomekindofcognates.IdentifyCognatesTherearethreewordsimilaritymeasures:Simard’sconditionDice’scoefficientLongestCommonSubsequenceRatioSimard’sConditionSimardetal.(1992)proposedasimpleconditionfordetectingprobablecognatesinFrench–Englishbitexts:twowordsareconsideredcognatesiftheyareatleastfourcharacterslongandtheirfirstfourcharactersareidentical.Dice’sCoefficientHereDice’scoefficientisdefinedastheratioofthenumberofsharedcharacterbi-gramstothetotalnumberofbi-gramsinbothwords.Forexamplecolourandcouleursharethreebi-gramsco,ou,andursotheirDice’scoefficientis6/11.LCSRTheLongestCommonSubsequenceRatiooftwowordsiscomputedbydividingthelengthoftheirlongestcommonsubsequencebythelengthofthelongerword.Forexample,LCSR(colour,couleur)=5/7astheirlongestcommonsubsequenceis“c-o-l-u-r”.詞對齊主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesDictionary-BasedApproachesEveniftwolanguagesdonotbelongtothesamelanguagefamily,theirlexiconhassemanticsimilarityBecausetheobjectstheywanttodescribearethesameworld.Oneofthebestexamplesaboutsemanticsimilaritybetweentwolanguagesisbilingualdictionary.ExactlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceIfc∈DTethenaligneandc.ExampleofExactlyMatchIlovemotherland<->我/愛/祖國/1.Searchtranslationsoflovefrombilingualdictionary.DTe 愛情、戀愛、愛、戀念2.Because“愛”inChinesesentence∈DTe3.

love<->愛

alignedExactlyMatchisnotEnoughConflictThelimitationofdictionaryTheflexibilityoftranslationPrecisionishigh,butrecallislowItishelplesstounknownwordSimilarlyMatchSearchthesourcewordefrombilingualdictionary.PutthetranslationofeinasetnamedDTe.ForeachwordcintargetsentenceCalculatesimilarityofeandcasfollow:IfDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofSimilarlyMatchIlovemotherland<->我/熱愛/祖國/1.Searchtranslationsoflovefrombilingualdictionary.DTe 愛情、戀愛、愛、戀念2.ForeachwordcinChinesesentence,calculatesimilarityofloveandcCommentsonDictionary-basedApproachesMeritHighprecisionTheycancontaintheinformationaboutwordsthatappearonlyonceinthecorpus.DemeritLowrecallTheycannotcapturecontext-dependentkeywordsinthecorpus.Theyareweakagainstunknownword(newwordsandincorrectwordsegmentation).詞對齊主要方法LinguisticalApproachesMorphology-BasedDictionary-BasedThesaurus-BasedStatisticalApproachesThesaurus-BasedApproachesSearchthesourcewordefrombilingualdictionary.PutthetranslationofeintoasetnamedDTe.ForeachelementDTegetallthewordsinsameclassfromthesaurus.putthemintoasetnamedDTeClass.ForeachwordcintargetsentenceIfc∈DTeClass,thenaligneandc.ElseifDTSim(e,c)isbigerthanathreshold,thenaligneandc.ExampleofThesaurus-BasedApproachesIlovemotherland<->我/熱愛/祖國/1.Searchtranslationsoflovefrombilingualdictionary.DTe 愛情、戀愛、愛、戀念2.ForeachelementDTegetallthewordsinsameclassfromthesaurus.Class“愛”:喜愛、憐愛、鐘愛、熱愛、愛慕……Class“愛情”:情愛、情意………putthemintoasetnamedDTeClass.3.ForeachwordcinChinesesentence,matchinDTeClass4.Because“熱愛”inChinesesentence∈DTeClass,

love<->熱愛

aligned詞對齊主要方法LinguisticalApproachesStatisticalApproachesHeuristicApproachesRefinedStatisticalApproachesHeuristicApproachesIlovemotherland我0.880.440.22愛0.050.900.56祖國0.120.240.36Co-occurrenceMatrixMeasuretheAssociationThecoreofco-occurrence-basedapproachesisthemethodtomeasuretheassociationbetweensourcewordandtargetword.DiceCoefficientMutualInformationX2……ParametersWillBeUsedN:totalsentencepairsnumberofthecorpusa=freq(s,t)b=freq(s)-freq(s,t)c=freq(t)-freq(s,t)d=N-a-b-ct┐tsab┐scdDiceCoefficientIntargetsentence,choosetwiththelargestDICEscoreasthealignmentofsDICEscorecanbecalculatedfollow:MutualInformationIntargetsentence,choosetwiththelargestMIscoreasthealignmentofsMIscorecanbecalculatedasfollow:X2Intargetsentence,choosetwiththelargestX2scoreasthealignmentofsX2scorecanbecalculatedasfollow:總體結(jié)構(gòu)預(yù)處理翻譯記憶層局部模板層全局模板層后處理語言學(xué)資源語料庫資源句子模板絕對匹配名詞分析模板相似匹配謂詞驅(qū)動全局模板模板相似匹配短語規(guī)則庫短語庫待譯句子翻譯

流程

簡介自動分詞自動短語分析相似計算模板匹配單詞直譯這是小香蕉這/是/小/香蕉/那(這)是蘋果(小香蕉)that(this)isanapple(smallbanana)NP(this)isNP(ansmallbanana)thisis(small/little)

bananathisisasmallbanana自動詞性標(biāo)注這/r是/v小/a香蕉/n這是[小/香蕉]翻譯記憶翻譯結(jié)果詞性標(biāo)注語料句對庫詞對齊庫語言模型模板庫分詞語料翻譯失敗基于實例的方法(EBMT)EBMT拋棄了規(guī)則字典+詞對齊的實例庫不用字典行不行?實例庫不用詞對齊行不行?主要的機(jī)器翻譯方法基于規(guī)則的方法基于實例的方法基于統(tǒng)計的方法基于統(tǒng)計的方法(SMT)噪音信道模型Mary到底說了什么?Brown猜的過程就是翻譯的過程。將法語”Jet’aime.”翻譯成英語基于統(tǒng)計的方法(SMT)怎么猜?一開始,肯定猜不出來。說多了,可能就能猜出來了。Brown的方法基于統(tǒng)計的方法(SMT)Brown,1990AStatisticalApproachtoMachineTranslationBrown,1993Themathematicsofstatisticalmachinetranslation-Parameterestimation基于統(tǒng)計的方法Brown認(rèn)為,法語f:”Jet’aime.”可能翻譯成任何一句英語e1:Howareyou?e2:Iloveyou.e3:Thenoisychannelworkslikethis.……翻譯成這些英文句子的概率是不同的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論