版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
李宏毅《機(jī)器學(xué)習(xí)》2021版第13-14講——TransformerTransformerSeq2Seq輸出label數(shù)由機(jī)器??決定。seq2seq臺語翻譯臺語語?+中?字幕作為data臺語翻譯1臺語翻譯2臺語翻譯3臺語語?合成臺語合成Seq2Seqforchatbotoutput是responseChatbotMoreNLPapplications…-Q&AQAcanbedonebyseq2seq.輸?question,context,seq2seq處理后輸出是answer。Q&A不同NLP任務(wù)需要定制化模型定制NLPSeq2Seqforsyntacticparsing句法解析,輸出是?個(gè)樹狀結(jié)構(gòu),但這個(gè)結(jié)構(gòu)也可以對應(yīng)到sequence的形式SyntacticparsingSeq2Seqformulti-labelclassificationmulti-label意思是同?個(gè)東西可以屬于不只?個(gè)class。Seq2seq可以??決定輸出?個(gè)class。Multi-labelSeq2SeqforobjectdetectionObjectdetectionSeq2Seq怎么做?Encoder—>DecoderSeq2Seq怎么做EncoderEncoder就是輸出相同長度的向量,transformer的encoder?的就是self-attention.Encoder.pngEncoder的架構(gòu)Encoder的?個(gè)block??做的是好?個(gè)layer做的事情。Encoder架構(gòu)Transformer的block做的更復(fù)雜,在self-attention輸出后還要疊加輸?作為新的輸出,這個(gè)結(jié)構(gòu)就叫residualconnection。再做layernormalization,對同?個(gè)feature的不同dimension計(jì)算均值和標(biāo)準(zhǔn)差。這個(gè)輸出才是FC的輸?,F(xiàn)C那邊也有residual的架構(gòu),也再做?次layernormalization。Residualconnectiontransformer的input先加position,然后transformer的encoder?的Add&Norm就是Residual+Layernorm的意思。Transformerencoder上?講的是最原始的transformer的架構(gòu),但不?定是最optimization的。MoretransformerDecoder有2種,最常見是Autoregressive。Autoregressive先讀?encoder的輸出作為decoder的輸?。先給?個(gè)特殊的符號,代表開始begin。接下來會吐出?個(gè)向量,這個(gè)向量的長度跟輸出的vocab的長度相同。每個(gè)word都會對應(yīng)?個(gè)分?jǐn)?shù)。這個(gè)分?jǐn)?shù)是softmax得到的distribution的值,加起來總和為1。分?jǐn)?shù)最?的值就是這個(gè)向量的輸出。現(xiàn)在輸出的“機(jī)”這個(gè)字加?到下?步的輸?。Autoregressive1Autoregressive2Decoder的架構(gòu)Decoder的結(jié)構(gòu)?encoder還復(fù)雜?點(diǎn),Decoder架構(gòu)1Encoder結(jié)構(gòu)和decoder結(jié)構(gòu)放?起,可以發(fā)現(xiàn)結(jié)構(gòu)就差中間這?塊。Decoder架構(gòu)2Decoder架構(gòu)3還可以看到decoder再第?步的multi-head基礎(chǔ)上還加了?個(gè)mask,mask什么意思呢?Decoder架構(gòu)4Mask是這樣的,原來的self-attention需要先看所有輸?再計(jì)算,加?mask可以,輸出b1的時(shí)候只考慮a1的資訊,不考慮a234的資訊。產(chǎn)?b2的時(shí)候只考慮a1、a2的資訊,不考慮a3、a4。產(chǎn)?b3的時(shí)候只考慮a1、a2、a3,不考慮a4。Mask1矩陣運(yùn)算時(shí)也?樣,b2的計(jì)算只考慮a1、a2.Mask2Whymask?因?yàn)镈ecoder的時(shí)候,a1、a2、a3、a4是順次產(chǎn)?的,所以輸出b2的時(shí)候還沒有a3、a4,所以沒辦法像encoder?樣計(jì)算全局。WhymaskDecoder怎么決定輸出長度?可以設(shè)置?個(gè)END的符號來表?斷。ENDNon-autoregressive(NAT)NATNAT不是?次產(chǎn)??個(gè)字,是?次產(chǎn)?整個(gè)句?。怎么決定NATdecoder的輸出的長度?-解決1:扔?個(gè)classifier去決定輸出長度。-解決2:不管三七?之?先給N個(gè)begin,看哪?輸出了END,END右邊的輸出就扔掉。NAT的好處:平?化;輸出長度可控。NATdecoderEncoder和Decoder中間怎么傳遞?傳遞靠剛剛Decoder遮住的部分叫cross-attention,它有2個(gè)輸?來?encoder,有1個(gè)輸?來?decoder。Cross-attentionEncoder輸出a1、a2、a3,先有begin,再經(jīng)過帶mask的self-attention得到?個(gè)向量,乘上?個(gè)lineartransform后得到query。a1、a2、a3得到三個(gè)k,q和三個(gè)k相乘得到attentionscore,接下來a1、a2、a3乘上v1、v2、v3,再把它vksum(加權(quán))加起來得到v,這個(gè)v再丟給fully-connect。Cross-attention計(jì)算Crossattentionrefseq2seq語?辨識不同的cross?式Training?如翻譯“機(jī)”這個(gè)字,正確答案是?個(gè)one-hot的vector,decoder的輸出是?組probability,要做的就是使“機(jī)”的probability越接近1越好,也就是minimizecrossentropy。這個(gè)機(jī)制像分類問題。Minimizecrossentropy現(xiàn)在就是希望所有output的crossentropy越?越好。Decoder的輸?就是正確答案,這個(gè)技術(shù)就是TeacherForcing。但是做測試的時(shí)候沒有正確答案,那這中間的mismatch要怎么辦?Teacherforcing訓(xùn)練的TipsTips1:CopyMechanism從輸??復(fù)制?些東西出來。?如chat-bot復(fù)制username。Copymechanismg?如summarization提煉摘要SummarizationTips2:GuidedAttention有時(shí)候機(jī)器會犯?些低級錯(cuò)誤。?如會漏掉部分輸?,這時(shí)候可以強(qiáng)制機(jī)器看完全部的輸?,這個(gè)技術(shù)就叫GuidedAttention。就是讓機(jī)器以固定的attention模式學(xué)習(xí)。GuidedattentionTips3:BeamSearch假設(shè)現(xiàn)在decoder只能輸出2種輸出A、B,每次就決定AB選哪?個(gè),單次選分?jǐn)?shù)?較?的那個(gè)。這個(gè)路徑就叫GreedyDecoding。但是存在別的路徑得到的結(jié)果?這個(gè)路徑好的可能性,但是?沒辦法窮舉所有路徑,這時(shí)候就引?BeamSearch技術(shù)。Beamsearch但是這個(gè)技術(shù)有時(shí)候有?,有時(shí)候沒有?。如果答案只有?種可能性,beamsearch?較有?,如果答案?較隨機(jī)性,那就不太好?。?如語?合成、TTS。SamplingOptimizingEvaluationMetricsvalidation的時(shí)候是考慮BLEUscore,是算完?整句話再跟正確答案?較,但是訓(xùn)練的時(shí)候是minimizecrossentropy,minimizecrossentropy可以最?化BLEUscore嗎?不?定。那能不能訓(xùn)練的時(shí)候考慮BLEUscore?沒有那么容易,BLEUscore很復(fù)雜,沒法做微分和gradientdescending。有?個(gè)答案是:遇到optimize問題?法解決的時(shí)候,總是?reinforcementlearning(RL)。BLEUExposureBias前?提到的訓(xùn)練能看正確答案,測試的時(shí)候看不到正確答案導(dǎo)致的mismatch的問題就叫ExposureBias。Exposurebias測試的時(shí)候因?yàn)闆]有正確答案,只要有?個(gè)錯(cuò),就會?步錯(cuò)步步錯(cuò)。解決:訓(xùn)練的時(shí)候加??些錯(cuò)誤的東西,這個(gè)技術(shù)叫ScheduledSampling。Scheduledsampling我??的Transformer總結(jié):Transformer解決Seq2Seq的任務(wù),label輸出數(shù)由機(jī)器??決定,應(yīng)?如臺語語?翻譯、語?合成、Chatbot、Q&A、句法解析、multi-label分類、object-detect等。Seq2Seq由encoder和decoder組成,Encoder輸出跟輸?相同長度的向量,transformer的encoder?的就是self-attention。Encoder的?個(gè)block是multi-headattention,Transformer的encoder的block的結(jié)構(gòu)在self-attention和Fully-connection后?加(Residualconnection[原輸?+輸出作為新輸出]+Layernorm)結(jié)構(gòu)。Decoder最常見是Autoregressive結(jié)構(gòu),有begin和end符號決定開始結(jié)束,每?個(gè)單位的輸出是softmax得到的distribution的最?值。Decoder在第?步的multi-head基礎(chǔ)上還加了?個(gè)mask,意思是輸出output的時(shí)候只看之前的輸出結(jié)果不?看全局輸出。Decoder還有?種Non-autoregressive(NAT)結(jié)構(gòu),不是?次?個(gè)字,可以平?化輸出整個(gè)句?且長度可控。Transformer的Encoder和Decoder的傳遞靠Decoder中間的cro
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版天然氣供應(yīng)合同爭議解決機(jī)制范本模板3篇
- 二零二五年度環(huán)保設(shè)施建設(shè)合同樣本4篇
- 2025年度全國牛羊肉批發(fā)市場聯(lián)動(dòng)購銷合同
- 二零二五版林木種子繁殖與推廣合同4篇
- 2025年度高層住宅勞務(wù)作業(yè)分包合同實(shí)施細(xì)則
- 2025年度離婚后知識產(chǎn)權(quán)歸屬及使用合同3篇
- 2025版工業(yè)用地購置與房屋租賃合同
- 二零二五年度企業(yè)品牌形象設(shè)計(jì)合同-@-1
- 2025年信息技術(shù)內(nèi)部控制合同規(guī)范與信息安全保障
- 二零二五版電子元器件更換及升級合同范本3篇
- 2025屆高考英語 716個(gè)閱讀理解高頻詞清單
- 報(bào)建協(xié)議書模板
- 汽車配件購銷合同范文
- 貴州省2024年中考英語真題(含答案)
- 施工項(xiàng)目平移合同范本
- (高清版)JTGT 3360-01-2018 公路橋梁抗風(fēng)設(shè)計(jì)規(guī)范
- 胰島素注射的護(hù)理
- 云南省普通高中學(xué)生綜合素質(zhì)評價(jià)-基本素質(zhì)評價(jià)表
- 2024年消防產(chǎn)品項(xiàng)目營銷策劃方案
- 聞道課件播放器
- 五星級酒店收入測算f
評論
0/150
提交評論