版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
|機(jī)器翻譯在跨境電商的應(yīng)用與研究目錄CONTENT01阿里翻譯技術(shù)平臺(tái)概覽0203翻譯在跨境電商中的應(yīng)用最新技術(shù)探索||阿里翻譯技術(shù)平臺(tái)概覽01阿里翻譯技術(shù)平臺(tái)概覽|5阿里翻譯技術(shù)平臺(tái)概覽論文&專利???發(fā)表60+
CCF
A/B類會(huì)議/期刊論文100+項(xiàng)專利ACL2022
Outstanding
Paper
Award國際評(píng)測?
WMT
21國際頂級(jí)機(jī)器翻譯評(píng)測?
Quality
Estimation
Task
9個(gè)語向第?
Metrics
Task
5個(gè)語向第一?
術(shù)語翻譯任務(wù)
英中第一?
2021年CommonGen文本生成大賽5月登頂LeaderBoard?
WMT
18國際頂級(jí)機(jī)器翻譯評(píng)測?
翻譯任務(wù)
5語向第一獎(jiǎng)項(xiàng)?
工信部新一代人工智能重點(diǎn)任務(wù)揭榜計(jì)劃、第一期人工智能產(chǎn)業(yè)創(chuàng)新“多語言智能翻譯平臺(tái)”揭榜優(yōu)勝單位(僅3家)?
“面向全球電子商務(wù)的多語言處理技術(shù)與平臺(tái)”獲得浙江省科學(xué)技術(shù)進(jìn)步二等獎(jiǎng)|6|翻譯在跨境電商中的應(yīng)用02翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版標(biāo)題單位UI框架|8翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版尺碼詳情描述|9翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版評(píng)論|10翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版問大家|11翻譯在跨境電商中的應(yīng)用-更多的跨語言場景買賣家溝通商品搜索|12翻譯在跨境電商中的應(yīng)用-多模態(tài)場景圖片翻譯|13翻譯在跨境電商中的應(yīng)用-多模態(tài)場景直播/視頻翻譯|14|最新技術(shù)探索03最新技術(shù)探索模型改進(jìn)連續(xù)語義增強(qiáng)(ICLR21、ACL22)UniTE(ACL22)質(zhì)量評(píng)估領(lǐng)域適應(yīng)知識(shí)融合個(gè)性化翻譯領(lǐng)域適配器(NeurIPS20、EMNLP20、TASLP
21)KNN-MT(ACL21、EMNLP21、ACL22)多粒度表示遷移(ACL21)個(gè)性化機(jī)器翻譯(ACL21,ACL22,NAACL22)|16模型改進(jìn):連續(xù)語義增強(qiáng)(ACL
22OutstandingPaper)問題:回譯等離散表示數(shù)據(jù)增強(qiáng)方法,數(shù)據(jù)多樣性差、利用效率低,且易產(chǎn)生語義偏移解決方法:連續(xù)語義空間擴(kuò)充訓(xùn)練樣本的數(shù)據(jù)分布,結(jié)合鄰域風(fēng)險(xiǎn)最小化策略優(yōu)化翻譯模型|17質(zhì)量評(píng)估:融合不同類型的標(biāo)注數(shù)據(jù)的UniTE
(ACL22)問題:三種評(píng)估場景(原文,譯文)、(譯文,參考譯文)、(原文,譯文,參考答案)采用的技術(shù)、語料均不相同,標(biāo)注資源不能得到充分利用解決方法:基于區(qū)塊化Attention掩碼的模型結(jié)構(gòu),利用跨語言預(yù)訓(xùn)練和多任務(wù)聯(lián)合訓(xùn)練,實(shí)現(xiàn)不同類型標(biāo)注資源的知識(shí)遷移單一模型(WMT
2019
所有語向)超越三個(gè)評(píng)估場景的SOTA模型WMT21
Metrics比賽第一|18領(lǐng)域適應(yīng):輕量訓(xùn)練的Adapter(NeurIPS20,EMNLP20,TASLP
21)問題:訓(xùn)練好的翻譯模型如何快速遷移至新領(lǐng)域?Finetuning有災(zāi)難性遺忘問題,需要調(diào)整全部參數(shù),部署代價(jià)大解法:引入Adapter,固定訓(xùn)練好模型的參數(shù),僅調(diào)整Adapter參數(shù)以適配新領(lǐng)域AdaptiveLayerDecoder
OutputAdaptiveLayer特點(diǎn):TransformerUpProjection??不影響譯訓(xùn)練好模型的性能部署代價(jià)小,每個(gè)領(lǐng)域僅增加Adaper參數(shù)ReLUDownProjectionAdaptiveLayerFeed
ForwardSelf-AttentionFeed
ForwardCross-AttentionSelf-Attention中英
BLEUBaseline領(lǐng)域內(nèi)35.2836.9845.47領(lǐng)域外48.8749.0543.72均值42.0843.0244.60×
M×
NBaseline
+
FinetuneBaseline
+
AdapterEmbeddingEmbeddingXY|19領(lǐng)域適應(yīng):無需訓(xùn)練的KNN-MT(ACL
21,
EMNLP21,AAAI22,
ACL
22)問題:finetuning、Adapter都需要訓(xùn)練,應(yīng)用代價(jià)大,能否在不訓(xùn)練情況下,實(shí)現(xiàn)領(lǐng)域適配?解決方法:尋找最相似句子,利用譯文動(dòng)態(tài)干預(yù)解碼過程特點(diǎn):?無需訓(xùn)練,僅需更新新領(lǐng)域的索引領(lǐng)域適應(yīng)ITKoranLawBase22.9927.4736.2838.7310.1618.4425.9829.0133.3639.2349.0752.14Base
+
KNN-MTAdapter自動(dòng)學(xué)習(xí)k與lambda關(guān)系A(chǔ)dapter
+
kNN-MT|20領(lǐng)域適應(yīng):子詞知識(shí)遷移(ACL
21)問題:不同分詞粒度的模型如何進(jìn)行知識(shí)遷移?解決方法:引入Embedding
Generator??根據(jù)字詞與父詞組合,使用一個(gè)Embedding生成器來遷移詞表Embedding
Generator的訓(xùn)練:在上游任務(wù)中,模型將隨機(jī)拆分長單詞并組合短單詞,使用Embedding
Generator生成這些未見過token的embeddin過程中受到上游任務(wù)目標(biāo)和蒸餾目標(biāo)監(jiān)督。|21個(gè)性化翻譯:用戶行為引導(dǎo)的機(jī)器翻譯(ACL21)問題:??語言具有多樣性,好的翻譯應(yīng)該擬合說話人的表達(dá)習(xí)慣,以及知識(shí)水平單一翻譯結(jié)果可能只能滿足大多數(shù)用戶,不能滿足每個(gè)用戶的需求解法:個(gè)性化翻譯??根據(jù)tf-idf分?jǐn)?shù)提取用戶歷史關(guān)鍵詞,使用編碼器建模用戶表征。提出對(duì)比學(xué)習(xí)策略,拉近相似用戶譯文,推遠(yuǎn)不相似用戶譯文,實(shí)現(xiàn)半監(jiān)督訓(xùn)練,解決數(shù)據(jù)稀疏,缺少用戶標(biāo)注樣本的問題。模型準(zhǔn)確性(BLEU)27.52翻譯差異性0.00%傳統(tǒng)翻譯個(gè)性化翻譯|2232.3531.68%個(gè)性化翻譯:無監(jiān)督多樣性翻譯(NAACL22)問題:語言具有多樣性,然而現(xiàn)有單reference訓(xùn)練使得模型趨向于生成相近的表達(dá),個(gè)性化翻譯也需要翻譯能夠產(chǎn)生更多樣的表達(dá)為前提。解法:多樣性翻譯,模型訓(xùn)練過程中多個(gè)生成結(jié)果定義DiversityRewards以及QualityRewards,使用最小風(fēng)險(xiǎn)訓(xùn)練進(jìn)行優(yōu)化。?特點(diǎn):簡單、易復(fù)用、不需要修改模型架構(gòu)。原文
依
巴拉
告訴
今日
新聞
電視臺(tái)
說
,「
這是
一
個(gè)
恐怖
夜晚
」Ibarratoldtoday'snewstelevisionstation,"Thisisaterroristevening."Ibarratoldtoday'snewstelevisionstation,"Thisisaterribleevening."普通模型Ibarratoldtoday'snewstelevisionstationthat"Thisisaterroristevening.ThisisaterriblenightaccordingtoIbarratoldtoday’snewsTVstation.Ibarratoldtoday’snewstelevisionstation,“Thisisaterriblenight.”SpeakingtonewsTVtoday,Ibarrasaid,"Thisisaterriblenight.”多樣性模型|23個(gè)性化翻譯:用戶行為引導(dǎo)的語種識(shí)別(ACL22)問題:語種識(shí)別是翻譯的第一步,面臨用戶輸入不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)人珠寶首飾分期購買合同6篇
- 二零二五年度棉被產(chǎn)品售后服務(wù)協(xié)議4篇
- 2025年度個(gè)人住宅地下室防水防潮合同范本4篇
- 二零二五年度美團(tuán)商家入駐信息安全管理合同4篇
- 2025年個(gè)人購房貸款利率變動(dòng)通知合同2篇
- 建筑設(shè)計(jì)協(xié)調(diào)合同(2篇)
- 支模超高施工方案
- 施工方案五必須
- 2025年銷售部勞動(dòng)合同加班補(bǔ)貼范本
- 2025年銷售經(jīng)理崗位競聘協(xié)議范本2篇
- 《黃河頌》示范公開課教學(xué)PPT課件【統(tǒng)編人教版七年級(jí)語文下冊】
- TSEESA 010-2022 零碳園區(qū)創(chuàng)建與評(píng)價(jià)技術(shù)規(guī)范
- GB/T 19867.5-2008電阻焊焊接工藝規(guī)程
- 2023年市場部主管年終工作總結(jié)及明年工作計(jì)劃
- 第三章旅游活動(dòng)的基本要素課件
- 國有資產(chǎn)出租出借審批表(學(xué)校事業(yè)單位臺(tái)賬記錄表)
- 安全生產(chǎn)風(fēng)險(xiǎn)分級(jí)管控實(shí)施細(xì)則
- 30第七章-農(nóng)村社會(huì)治理課件
- 考研考博-英語-東北石油大學(xué)考試押題三合一+答案詳解1
- 出國學(xué)生英文成績單模板
- 植物細(xì)胞中氨基酸轉(zhuǎn)運(yùn)蛋白的一些已知或未知的功能
評(píng)論
0/150
提交評(píng)論