




已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1 一 跨語言信息檢索基本概念 1 跨語言信息檢索的概念跨語言信息檢索 CLIR 是指用戶用某種語言從另外一種或多種語言表達(dá)的文獻(xiàn)信息集中檢索出所需文獻(xiàn)信息的方式或技術(shù) 2 2 跨語言信息檢索的類型 1 雙語言信息檢索 2 多語言信息檢索 3 特定領(lǐng)域的跨語言信息檢索 4 跨語言的多媒體信息檢索 3 二 跨語言信息檢索的實現(xiàn)方法 跨語言信息檢索涉及至少兩種以上語言的文獻(xiàn) 需要先確定出文獻(xiàn)的語種 形式及編碼方案 對其進(jìn)行自動分析和標(biāo)引 最終實現(xiàn)檢索匹配 因此離不開 翻譯 的過程 翻譯 可以說是跨語言信息檢索技術(shù)的核心問題 其實現(xiàn)方法主要有以下幾種 1 提問式翻譯方法提問式翻譯方法是在信息檢索之前 將提問式的語種轉(zhuǎn)化翻譯成所要檢索信息的信息語種 4 2 文獻(xiàn)翻譯方法 文獻(xiàn)翻譯方法是在信息檢索之前 將文獻(xiàn)信息資源的信息語種轉(zhuǎn)化為提問語種 文獻(xiàn)信息不僅指文本信息 也包括語音文獻(xiàn)信息 例如數(shù)字圖書館中就存在大量的數(shù)字化語音文獻(xiàn) 5 3 提問式 文獻(xiàn)翻譯方法綜合提問式翻譯方法和文獻(xiàn)翻譯方法的優(yōu)點 提出提問式 文獻(xiàn)翻譯方法來實現(xiàn)CLIR 這一方法既減少用戶的翻譯成本 又提高檢索服務(wù)的質(zhì)量 應(yīng)該說是目前實現(xiàn)CLIR比較理想的選擇 6 4 中間語種翻譯方法一般認(rèn)為 選擇的中間語種是計算機(jī)容易自動處理的語種 如英語等 特別是在跨語言信息檢索中遇到這樣問題時 源語種和目標(biāo)語種之間無法進(jìn)行直接翻譯 此時只能借助于中間語種將源語種翻譯目標(biāo)語種 源 中間 目標(biāo) 或?qū)⒃凑Z種和目標(biāo)語種翻譯成中間語種 源 中間 目標(biāo) 7 5 非翻譯方法 notranslationapproach 除了上述幾種通過翻譯來實現(xiàn)跨語言信息檢索的方法外 還有學(xué)者提出了不進(jìn)行任何翻譯 只通過使用一些詞形處理手段 就可實現(xiàn)CLLR的技術(shù) 也稱為同源匹配 這種技術(shù)主要是基于印歐語系中的英語 法語等有共同的起源 它們中的很多詞有相似的拼寫形式或者讀音 將英語詞匯 法語詞匯 英法雙語文件映射到一個向量空間中 可進(jìn)行語義上的比較匹配 8 三 跨語言信息檢索中翻譯方法的實現(xiàn) 1 基于機(jī)器翻譯的方法 機(jī)器翻譯系統(tǒng)接受用戶輸入并輸出翻譯結(jié)果 2 基于語料庫的方法語料庫是將同一信息或同一主題的信息用兩種或多種語言進(jìn)行描述 并由人工或計算機(jī)建立不同語種間信息的聯(lián)系的集合 來源于對單詞用法的統(tǒng)計 語料庫可以分為平行語料庫和比較語料庫 基于語料庫方法的中心思想是通過語料庫中不同語種同一信息的對應(yīng)關(guān)系對提問式進(jìn)行翻譯并且過濾提問式翻譯后產(chǎn)生的非正常翻譯結(jié)果 3 基于詞典的方法中心思想是基于雙語字典或詞典 找出提問式中的所有檢索單詞 提問語種 對應(yīng)匹配的由信息語種描述的單詞 4 字典與語料庫混合方法首先使用字典對提問式進(jìn)行翻譯 再利用專業(yè)語料庫中相關(guān)術(shù)語的對應(yīng)關(guān)系來凈化翻譯結(jié)果 9 四 跨語言信息檢索的發(fā)展趨勢及前景展望 1 發(fā)展趨勢 1 不斷涉足新的語言種類 2 多種方法結(jié)合的效果要優(yōu)于單種方法 3 結(jié)合語義分析提高查詢精確度 2 前景 由于CLIR技術(shù)是正處于研究的新興技術(shù) 實際應(yīng)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025標(biāo)準(zhǔn)辦公室裝修設(shè)計合同
- 2025金融服務(wù)行業(yè)中介居間合同范本
- 2025汽車買賣的合同范文
- 江蘇移動2025春季校園招聘筆試參考題庫附帶答案詳解
- 2025房產(chǎn)交易合同樣本:個人房屋買賣協(xié)議
- 2025年度重大合同實施進(jìn)展公告
- 2025合同法關(guān)于合同終止的規(guī)定
- 2025塑料模板購銷合同范本
- 2025混凝土工高層承包合同
- 2025設(shè)備采購合同書范本
- (二模)濟(jì)寧市2025年4月高考模擬考試地理試卷
- 首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院招聘考試真題2024
- 抽化糞池合同協(xié)議
- 中醫(yī)養(yǎng)生館運營方案中醫(yī)養(yǎng)生館策劃書
- (二模)寧波市2024-2025學(xué)年第二學(xué)期高考模擬考試 英語試卷(含答案)+聽力音頻+聽力原文
- 高考備考:100個高考??家族e的文言實詞(翻譯+正誤辨析)
- 軟件項目交付管理制度
- 知識產(chǎn)權(quán)現(xiàn)場審核記錄表模板
- 食品安全自查、從業(yè)人員健康管理、進(jìn)貨查驗記錄、食品安全事故處置等保證食品安全的規(guī)章制度
- 2024年吉林省中考滿分作文《情味浸潤的時光》4
- 基于PLC的自動生產(chǎn)線控制系統(tǒng)的設(shè)計畢業(yè)論文
評論
0/150
提交評論