跨語言信息檢索的主要實現(xiàn)方法 PPT課件_第1頁
跨語言信息檢索的主要實現(xiàn)方法 PPT課件_第2頁
跨語言信息檢索的主要實現(xiàn)方法 PPT課件_第3頁
跨語言信息檢索的主要實現(xiàn)方法 PPT課件_第4頁
跨語言信息檢索的主要實現(xiàn)方法 PPT課件_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1 一 跨語言信息檢索基本概念 1 跨語言信息檢索的概念跨語言信息檢索 CLIR 是指用戶用某種語言從另外一種或多種語言表達(dá)的文獻(xiàn)信息集中檢索出所需文獻(xiàn)信息的方式或技術(shù) 2 2 跨語言信息檢索的類型 1 雙語言信息檢索 2 多語言信息檢索 3 特定領(lǐng)域的跨語言信息檢索 4 跨語言的多媒體信息檢索 3 二 跨語言信息檢索的實現(xiàn)方法 跨語言信息檢索涉及至少兩種以上語言的文獻(xiàn) 需要先確定出文獻(xiàn)的語種 形式及編碼方案 對其進(jìn)行自動分析和標(biāo)引 最終實現(xiàn)檢索匹配 因此離不開 翻譯 的過程 翻譯 可以說是跨語言信息檢索技術(shù)的核心問題 其實現(xiàn)方法主要有以下幾種 1 提問式翻譯方法提問式翻譯方法是在信息檢索之前 將提問式的語種轉(zhuǎn)化翻譯成所要檢索信息的信息語種 4 2 文獻(xiàn)翻譯方法 文獻(xiàn)翻譯方法是在信息檢索之前 將文獻(xiàn)信息資源的信息語種轉(zhuǎn)化為提問語種 文獻(xiàn)信息不僅指文本信息 也包括語音文獻(xiàn)信息 例如數(shù)字圖書館中就存在大量的數(shù)字化語音文獻(xiàn) 5 3 提問式 文獻(xiàn)翻譯方法綜合提問式翻譯方法和文獻(xiàn)翻譯方法的優(yōu)點 提出提問式 文獻(xiàn)翻譯方法來實現(xiàn)CLIR 這一方法既減少用戶的翻譯成本 又提高檢索服務(wù)的質(zhì)量 應(yīng)該說是目前實現(xiàn)CLIR比較理想的選擇 6 4 中間語種翻譯方法一般認(rèn)為 選擇的中間語種是計算機(jī)容易自動處理的語種 如英語等 特別是在跨語言信息檢索中遇到這樣問題時 源語種和目標(biāo)語種之間無法進(jìn)行直接翻譯 此時只能借助于中間語種將源語種翻譯目標(biāo)語種 源 中間 目標(biāo) 或?qū)⒃凑Z種和目標(biāo)語種翻譯成中間語種 源 中間 目標(biāo) 7 5 非翻譯方法 notranslationapproach 除了上述幾種通過翻譯來實現(xiàn)跨語言信息檢索的方法外 還有學(xué)者提出了不進(jìn)行任何翻譯 只通過使用一些詞形處理手段 就可實現(xiàn)CLLR的技術(shù) 也稱為同源匹配 這種技術(shù)主要是基于印歐語系中的英語 法語等有共同的起源 它們中的很多詞有相似的拼寫形式或者讀音 將英語詞匯 法語詞匯 英法雙語文件映射到一個向量空間中 可進(jìn)行語義上的比較匹配 8 三 跨語言信息檢索中翻譯方法的實現(xiàn) 1 基于機(jī)器翻譯的方法 機(jī)器翻譯系統(tǒng)接受用戶輸入并輸出翻譯結(jié)果 2 基于語料庫的方法語料庫是將同一信息或同一主題的信息用兩種或多種語言進(jìn)行描述 并由人工或計算機(jī)建立不同語種間信息的聯(lián)系的集合 來源于對單詞用法的統(tǒng)計 語料庫可以分為平行語料庫和比較語料庫 基于語料庫方法的中心思想是通過語料庫中不同語種同一信息的對應(yīng)關(guān)系對提問式進(jìn)行翻譯并且過濾提問式翻譯后產(chǎn)生的非正常翻譯結(jié)果 3 基于詞典的方法中心思想是基于雙語字典或詞典 找出提問式中的所有檢索單詞 提問語種 對應(yīng)匹配的由信息語種描述的單詞 4 字典與語料庫混合方法首先使用字典對提問式進(jìn)行翻譯 再利用專業(yè)語料庫中相關(guān)術(shù)語的對應(yīng)關(guān)系來凈化翻譯結(jié)果 9 四 跨語言信息檢索的發(fā)展趨勢及前景展望 1 發(fā)展趨勢 1 不斷涉足新的語言種類 2 多種方法結(jié)合的效果要優(yōu)于單種方法 3 結(jié)合語義分析提高查詢精確度 2 前景 由于CLIR技術(shù)是正處于研究的新興技術(shù) 實際應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論