機(jī)器翻譯在跨境電商的應(yīng)用與研究分析報(bào)告_第1頁
機(jī)器翻譯在跨境電商的應(yīng)用與研究分析報(bào)告_第2頁
機(jī)器翻譯在跨境電商的應(yīng)用與研究分析報(bào)告_第3頁
機(jī)器翻譯在跨境電商的應(yīng)用與研究分析報(bào)告_第4頁
機(jī)器翻譯在跨境電商的應(yīng)用與研究分析報(bào)告_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

|機(jī)器翻譯在跨境電商的應(yīng)用與研究目錄CONTENT01阿里翻譯技術(shù)平臺(tái)概覽0203翻譯在跨境電商中的應(yīng)用最新技術(shù)探索||阿里翻譯技術(shù)平臺(tái)概覽01阿里翻譯技術(shù)平臺(tái)概覽|5阿里翻譯技術(shù)平臺(tái)概覽論文&專利???發(fā)表60+

CCF

A/B類會(huì)議/期刊論文100+項(xiàng)專利ACL2022

Outstanding

Paper

Award國際評(píng)測?

WMT

21國際頂級(jí)機(jī)器翻譯評(píng)測?

Quality

Estimation

Task

9個(gè)語向第?

Metrics

Task

5個(gè)語向第一?

術(shù)語翻譯任務(wù)

英中第一?

2021年CommonGen文本生成大賽5月登頂LeaderBoard?

WMT

18國際頂級(jí)機(jī)器翻譯評(píng)測?

翻譯任務(wù)

5語向第一獎(jiǎng)項(xiàng)?

工信部新一代人工智能重點(diǎn)任務(wù)揭榜計(jì)劃、第一期人工智能產(chǎn)業(yè)創(chuàng)新“多語言智能翻譯平臺(tái)”揭榜優(yōu)勝單位(僅3家)?

“面向全球電子商務(wù)的多語言處理技術(shù)與平臺(tái)”獲得浙江省科學(xué)技術(shù)進(jìn)步二等獎(jiǎng)|6|翻譯在跨境電商中的應(yīng)用02翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版標(biāo)題單位UI框架|8翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版尺碼詳情描述|9翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版評(píng)論|10翻譯在跨境電商中的應(yīng)用-商品內(nèi)容展示英語版俄語版阿語版問大家|11翻譯在跨境電商中的應(yīng)用-更多的跨語言場景買賣家溝通商品搜索|12翻譯在跨境電商中的應(yīng)用-多模態(tài)場景圖片翻譯|13翻譯在跨境電商中的應(yīng)用-多模態(tài)場景直播/視頻翻譯|14|最新技術(shù)探索03最新技術(shù)探索模型改進(jìn)連續(xù)語義增強(qiáng)(ICLR21、ACL22)UniTE(ACL22)質(zhì)量評(píng)估領(lǐng)域適應(yīng)知識(shí)融合個(gè)性化翻譯領(lǐng)域適配器(NeurIPS20、EMNLP20、TASLP

21)KNN-MT(ACL21、EMNLP21、ACL22)多粒度表示遷移(ACL21)個(gè)性化機(jī)器翻譯(ACL21,ACL22,NAACL22)|16模型改進(jìn):連續(xù)語義增強(qiáng)(ACL

22OutstandingPaper)問題:回譯等離散表示數(shù)據(jù)增強(qiáng)方法,數(shù)據(jù)多樣性差、利用效率低,且易產(chǎn)生語義偏移解決方法:連續(xù)語義空間擴(kuò)充訓(xùn)練樣本的數(shù)據(jù)分布,結(jié)合鄰域風(fēng)險(xiǎn)最小化策略優(yōu)化翻譯模型|17質(zhì)量評(píng)估:融合不同類型的標(biāo)注數(shù)據(jù)的UniTE

(ACL22)問題:三種評(píng)估場景(原文,譯文)、(譯文,參考譯文)、(原文,譯文,參考答案)采用的技術(shù)、語料均不相同,標(biāo)注資源不能得到充分利用解決方法:基于區(qū)塊化Attention掩碼的模型結(jié)構(gòu),利用跨語言預(yù)訓(xùn)練和多任務(wù)聯(lián)合訓(xùn)練,實(shí)現(xiàn)不同類型標(biāo)注資源的知識(shí)遷移單一模型(WMT

2019

所有語向)超越三個(gè)評(píng)估場景的SOTA模型WMT21

Metrics比賽第一|18領(lǐng)域適應(yīng):輕量訓(xùn)練的Adapter(NeurIPS20,EMNLP20,TASLP

21)問題:訓(xùn)練好的翻譯模型如何快速遷移至新領(lǐng)域?Finetuning有災(zāi)難性遺忘問題,需要調(diào)整全部參數(shù),部署代價(jià)大解法:引入Adapter,固定訓(xùn)練好模型的參數(shù),僅調(diào)整Adapter參數(shù)以適配新領(lǐng)域AdaptiveLayerDecoder

OutputAdaptiveLayer特點(diǎn):TransformerUpProjection??不影響譯訓(xùn)練好模型的性能部署代價(jià)小,每個(gè)領(lǐng)域僅增加Adaper參數(shù)ReLUDownProjectionAdaptiveLayerFeed

ForwardSelf-AttentionFeed

ForwardCross-AttentionSelf-Attention中英

BLEUBaseline領(lǐng)域內(nèi)35.2836.9845.47領(lǐng)域外48.8749.0543.72均值42.0843.0244.60×

NBaseline

+

FinetuneBaseline

+

AdapterEmbeddingEmbeddingXY|19領(lǐng)域適應(yīng):無需訓(xùn)練的KNN-MT(ACL

21,

EMNLP21,AAAI22,

ACL

22)問題:finetuning、Adapter都需要訓(xùn)練,應(yīng)用代價(jià)大,能否在不訓(xùn)練情況下,實(shí)現(xiàn)領(lǐng)域適配?解決方法:尋找最相似句子,利用譯文動(dòng)態(tài)干預(yù)解碼過程特點(diǎn):?無需訓(xùn)練,僅需更新新領(lǐng)域的索引領(lǐng)域適應(yīng)ITKoranLawBase22.9927.4736.2838.7310.1618.4425.9829.0133.3639.2349.0752.14Base

+

KNN-MTAdapter自動(dòng)學(xué)習(xí)k與lambda關(guān)系A(chǔ)dapter

+

kNN-MT|20領(lǐng)域適應(yīng):子詞知識(shí)遷移(ACL

21)問題:不同分詞粒度的模型如何進(jìn)行知識(shí)遷移?解決方法:引入Embedding

Generator??根據(jù)字詞與父詞組合,使用一個(gè)Embedding生成器來遷移詞表Embedding

Generator的訓(xùn)練:在上游任務(wù)中,模型將隨機(jī)拆分長單詞并組合短單詞,使用Embedding

Generator生成這些未見過token的embeddin過程中受到上游任務(wù)目標(biāo)和蒸餾目標(biāo)監(jiān)督。|21個(gè)性化翻譯:用戶行為引導(dǎo)的機(jī)器翻譯(ACL21)問題:??語言具有多樣性,好的翻譯應(yīng)該擬合說話人的表達(dá)習(xí)慣,以及知識(shí)水平單一翻譯結(jié)果可能只能滿足大多數(shù)用戶,不能滿足每個(gè)用戶的需求解法:個(gè)性化翻譯??根據(jù)tf-idf分?jǐn)?shù)提取用戶歷史關(guān)鍵詞,使用編碼器建模用戶表征。提出對(duì)比學(xué)習(xí)策略,拉近相似用戶譯文,推遠(yuǎn)不相似用戶譯文,實(shí)現(xiàn)半監(jiān)督訓(xùn)練,解決數(shù)據(jù)稀疏,缺少用戶標(biāo)注樣本的問題。模型準(zhǔn)確性(BLEU)27.52翻譯差異性0.00%傳統(tǒng)翻譯個(gè)性化翻譯|2232.3531.68%個(gè)性化翻譯:無監(jiān)督多樣性翻譯(NAACL22)問題:語言具有多樣性,然而現(xiàn)有單reference訓(xùn)練使得模型趨向于生成相近的表達(dá),個(gè)性化翻譯也需要翻譯能夠產(chǎn)生更多樣的表達(dá)為前提。解法:多樣性翻譯,模型訓(xùn)練過程中多個(gè)生成結(jié)果定義DiversityRewards以及QualityRewards,使用最小風(fēng)險(xiǎn)訓(xùn)練進(jìn)行優(yōu)化。?特點(diǎn):簡單、易復(fù)用、不需要修改模型架構(gòu)。原文

巴拉

告訴

今日

新聞

電視臺(tái)

,「

這是

個(gè)

恐怖

夜晚

」Ibarratoldtoday'snewstelevisionstation,"Thisisaterroristevening."Ibarratoldtoday'snewstelevisionstation,"Thisisaterribleevening."普通模型Ibarratoldtoday'snewstelevisionstationthat"Thisisaterroristevening.ThisisaterriblenightaccordingtoIbarratoldtoday’snewsTVstation.Ibarratoldtoday’snewstelevisionstation,“Thisisaterriblenight.”SpeakingtonewsTVtoday,Ibarrasaid,"Thisisaterriblenight.”多樣性模型|23個(gè)性化翻譯:用戶行為引導(dǎo)的語種識(shí)別(ACL22)問題:語種識(shí)別是翻譯的第一步,面臨用戶輸入不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論