




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中科院自動化所評測技術(shù)報告(SYSTEMII)魏瑋于東王韋華宗成慶徐波內(nèi)容概要要技術(shù)說明明與參評評系統(tǒng)短語系統(tǒng)統(tǒng)分層短語語系統(tǒng)基于依存存樹到串串系統(tǒng)前后處理理系統(tǒng)融合合CASIA_SYSTEMII英中翻譯譯系統(tǒng)評測環(huán)境境概要數(shù)據(jù)總結(jié)中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-短語系統(tǒng)統(tǒng)典型的短短語系統(tǒng)統(tǒng)[2]非單調(diào)解解碼,任任意跳轉(zhuǎn)轉(zhuǎn)對數(shù)線性性模型10個特征雙向短語語翻譯概概率p(e//f)和p(f//e)雙向詞匯匯化概率率l(e//f)和l(f//e)4gram語言模型型扭曲概率率句子長度度懲罰短語懲罰罰方向概率率[3]IBM扭曲模型型[4]中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-分層短語語系統(tǒng)主要借鑒鑒了Wei[[5]的基本思思想,引引入分層層短語的的概念有效地結(jié)結(jié)合了短短語模型型和同步步上下文文無關(guān)文文法分層短語語模型將將語序信信息包含含在模型型之中,,克服了了傳統(tǒng)短短語翻譯譯的調(diào)序序問題沿用了統(tǒng)統(tǒng)計線性性對數(shù)方方法進行行概率計計算,使使用了如如下6個特征::雙向短語語翻譯概概率p(e//f)和p(f//e)雙向詞匯匯化概率率l(e//f)和l(f//e)4gram語言模型型句子長度度懲罰中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-依存樹到到串系統(tǒng)統(tǒng)在源語言言端運用用依存結(jié)結(jié)構(gòu)進行行統(tǒng)計翻翻譯的新新模型::Dependency-StringStructureModel((DSS模型)由于計算算資源和和時間的的限制,,參加本本次評測測的系統(tǒng)統(tǒng)仍然沿沿用和分分層短語語相同的的文法DSS解碼算法法的輸入入是一棵棵樹,而而不是一一個串,,所以線線圖是按按照樹節(jié)節(jié)點來索索引的,,而不是是按照串串中的跨跨距(span)來建立索索引的解碼時使使用了8個特征,,最后兩兩個為依依存子樹樹的懲罰罰雙向短語語翻譯概概率p(e//f)和p(f//e)雙向詞匯匯化概率率l(e//f)和l(f//e)4gram語言模型型句子長度度懲罰符合依存存子樹懲懲罰不符合依依存子樹樹懲罰中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-前后處理理前處理時間,數(shù)數(shù)字處理理模塊地名,人人名,機機構(gòu)名處處理模塊塊英文轉(zhuǎn)化化為小寫寫預處理亂碼過濾濾(中文文中的亂亂碼、英英文中的的亂碼以以及包含含中文詞詞的句子子)標點符號號及數(shù)字字變換((中文中中的部分分標點符符號、英英文中的的雙字節(jié)節(jié)符號及及數(shù)字))英文縮寫寫處理中文分詞詞、英文文Tokenization后處理大小寫轉(zhuǎn)轉(zhuǎn)換:未未翻譯詞詞保留其其原始格格式格式轉(zhuǎn)換換:去除除中文中中的空格格未登錄詞詞中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-系統(tǒng)融合合[6][[7]中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-外部技術(shù)術(shù)漢語分詞詞工具::計算所所開發(fā)的的ICTCLAS3.0雙語詞對對齊工具具:GIZA++語言模型型訓練工工具:SRILM工具包英文詞性性標注工工具:StanfordLog--linearPart--Of--SpeechTagger英文依存存樹分析析工具::Minimum-SpanningTreeParser(MSTparser)中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences參評系統(tǒng)統(tǒng)-CASIA__SYSTEMII中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences評測環(huán)境境概要軟硬件環(huán)環(huán)境運行時間間(約4000句測試集集)運行平臺操作系統(tǒng)數(shù)量CPURAMPC機Windows20032Pentium4,3.0G2.0G服務器Linux(Ubuntu)1Xeon2.0×216.0G系統(tǒng)新聞領(lǐng)域(小時)科技領(lǐng)域(小時)短語系統(tǒng)16分層短語2018依存樹到串1816中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences數(shù)據(jù)開發(fā)數(shù)據(jù)據(jù):新聞-2007SSMT英中翻譯譯測試集集科技-CWMT08提供的Special語料中隨隨機挑選選200句翻譯模型型訓練數(shù)數(shù)據(jù):新聞-CWMT08提供的Common,約85萬句對和和;NISTMT08評測提供供語料,,大約670萬句對科技-CWMT08提供的Special部分語料料,約52萬句對;;NISTMT08評測提供供語料,,大約670萬句對語言模型型訓練數(shù)數(shù)據(jù):LDC2007T38提供的ChineseGigawordThirdEdition,約3900萬句中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences數(shù)據(jù)過濾濾過濾的原原則:根根據(jù)LDC語料中的的當前句句對中的的所有詞詞匯是否否在發(fā)布布的訓練練語料詞詞匯集合合中(周玉)新聞領(lǐng)域域?qū)IST語料根據(jù)據(jù)新聞任任務發(fā)布布的訓練練語料進進行過濾濾翻譯模型型最后使使用的語語料為538萬句對科技領(lǐng)域域?qū)IST語料根據(jù)據(jù)科技任任務發(fā)布布的訓練練語料進進行過濾濾的翻譯模型型最后使使用的語語料為468萬句對語言模型型也同樣樣使用了了過濾技技術(shù),最后過濾濾剩余1000萬句中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences測試結(jié)果果新聞領(lǐng)域域采用基于于MBR解碼和混混淆網(wǎng)絡絡解碼的的多系統(tǒng)統(tǒng)融合策策略,融融合6個結(jié)果3個來自于于基于分分層短語語的翻譯譯系統(tǒng)(HPB)3個來自于于基于依依存樹到到串的翻翻譯系統(tǒng)統(tǒng)(DHPB)中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences測試結(jié)果果科技領(lǐng)域域采用基于于MBR解碼和混混淆網(wǎng)絡絡解碼的的多系統(tǒng)統(tǒng)融合策策略,融融合6個結(jié)果2個來自于于基于分分層短語語的翻譯譯系統(tǒng)(HPB)2個來自于于基于依依存樹到到串的翻翻譯系統(tǒng)統(tǒng)(DHPB)2個來自于于基于短短語的系系統(tǒng)(PB))中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences總結(jié)新聞領(lǐng)域域借鑒了漢漢英評測測的經(jīng)驗驗,加入入了英文文命名實實體翻譯譯及前后后處理模模塊;并且針對對英文的的特點,,在解碼碼中融入入句法分分析樹,,在不增增加時空空復雜度度的前提提下提高高了翻譯譯質(zhì)量科技領(lǐng)域域由于缺乏乏這方面面的語料料資源,,我們只只能借用用新聞領(lǐng)領(lǐng)域的語語料,利利用數(shù)據(jù)據(jù)過濾技技術(shù)得到到相關(guān)資資源但由于在在選取開開發(fā)集時時,其規(guī)規(guī)模和相相關(guān)性受受到制約約,所以以最后的的參數(shù)訓訓練并不不能有效效得收斂斂到最優(yōu)優(yōu)如何能夠夠充分利利用有限限的資源源,開發(fā)發(fā)出更加加魯棒的的訓練及及解碼算算法,是是我們下下一步要要思考的的問題中國科學學院自動動化所InstituteofAutomation,ChineseAcademyofSciences參考文獻獻[1]中科院自自動化所所評測技技術(shù)報告告(SYSTEMII),第四屆屆機器翻翻譯研討討會,2008[2]WeiWei,WeiPang,,ZhendongYang,,ZhenbiaoChen,,ChengqingZong,BoXu.CASIASMTSystemforTC-STAREvaluationCampaign2006.In::TC-STARworkshop,,2006..[3]YaserAl--Onaizan,KishorePapineni.Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thannualmeetingoftheACLACL'06[4]PhilippKoehn,,etal.EdinburghSystemDescriptionforthe2005IWSLTSpeechTranslationEvaluation,InternationalWorkshoponSpokenLanguageTranslation2005.[5]魏瑋,杜杜金華,,徐波,,基于組組塊分析析的分層層短語系系統(tǒng),第第九屆計計算語言言學年會會,2007[6]K..C.Sim,W..Byrne,M.Gales,H.SahbiandP.Woodland..ConsensusNetw
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度黑龍江省高校教師資格證之高等教育法規(guī)題庫練習試卷B卷附答案
- 一級建造師機電工程管理與實務案例分析知識點小抄
- 現(xiàn)代漢語語境下的傳統(tǒng)文化探討試題及答案
- 【道法】歷久彌新的思想理念(教案)-2024-2025學七年級道德與法治下冊(統(tǒng)編版)
- (高清版)DB12∕T 689-2016 機動車維修服務規(guī)范
- 醫(yī)院檢驗工作總結(jié)5
- 座談會 商會代表發(fā)言稿
- 2025年游戲賬號借出電子合同模板
- 專升本思政思考框架試題及答案
- 2024年圖書管理員考試真實案例試題及答案
- 2025年哈爾濱傳媒職業(yè)學院單招職業(yè)技能測試題庫完整版
- 某森林康養(yǎng)旅游項目可行性研究報告
- 2025年寧夏電投新能源限公司招聘工作人員13人高頻重點提升(共500題)附帶答案詳解
- 合肥市2025屆高三第二次模擬考試英語試卷含解析
- 《雷達原理》課件-3.5.5教學課件:inSAR雷達工作原理
- 口腔醫(yī)學技術(shù)的知識產(chǎn)權(quán)保護
- 起重吊裝作業(yè)專項安全培訓
- 上海市算力基礎(chǔ)設(shè)施發(fā)展報告2024年
- 2024年重慶市公務員錄用考試《行測》真題及解析
- 《義務教育數(shù)學課程標準(2022年版)》初中內(nèi)容解讀
- 電工5級練習題庫(含參考答案)
評論
0/150
提交評論