版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
李宏毅《機(jī)器學(xué)習(xí)》2021版第13-14講——TransformerTransformerSeq2Seq輸出label數(shù)由機(jī)器??決定。seq2seq臺(tái)語(yǔ)翻譯臺(tái)語(yǔ)語(yǔ)?+中?字幕作為data臺(tái)語(yǔ)翻譯1臺(tái)語(yǔ)翻譯2臺(tái)語(yǔ)翻譯3臺(tái)語(yǔ)語(yǔ)?合成臺(tái)語(yǔ)合成Seq2Seqforchatbotoutput是responseChatbotMoreNLPapplications…-Q&AQAcanbedonebyseq2seq.輸?question,context,seq2seq處理后輸出是answer。Q&A不同NLP任務(wù)需要定制化模型定制NLPSeq2Seqforsyntacticparsing句法解析,輸出是?個(gè)樹狀結(jié)構(gòu),但這個(gè)結(jié)構(gòu)也可以對(duì)應(yīng)到sequence的形式SyntacticparsingSeq2Seqformulti-labelclassificationmulti-label意思是同?個(gè)東西可以屬于不只?個(gè)class。Seq2seq可以??決定輸出?個(gè)class。Multi-labelSeq2SeqforobjectdetectionObjectdetectionSeq2Seq怎么做?Encoder—>DecoderSeq2Seq怎么做EncoderEncoder就是輸出相同長(zhǎng)度的向量,transformer的encoder?的就是self-attention.Encoder.pngEncoder的架構(gòu)Encoder的?個(gè)block??做的是好?個(gè)layer做的事情。Encoder架構(gòu)Transformer的block做的更復(fù)雜,在self-attention輸出后還要疊加輸?作為新的輸出,這個(gè)結(jié)構(gòu)就叫residualconnection。再做layernormalization,對(duì)同?個(gè)feature的不同dimension計(jì)算均值和標(biāo)準(zhǔn)差。這個(gè)輸出才是FC的輸?,F(xiàn)C那邊也有residual的架構(gòu),也再做?次layernormalization。Residualconnectiontransformer的input先加position,然后transformer的encoder?的Add&Norm就是Residual+Layernorm的意思。Transformerencoder上?講的是最原始的transformer的架構(gòu),但不?定是最optimization的。MoretransformerDecoder有2種,最常見是Autoregressive。Autoregressive先讀?encoder的輸出作為decoder的輸?。先給?個(gè)特殊的符號(hào),代表開始begin。接下來會(huì)吐出?個(gè)向量,這個(gè)向量的長(zhǎng)度跟輸出的vocab的長(zhǎng)度相同。每個(gè)word都會(huì)對(duì)應(yīng)?個(gè)分?jǐn)?shù)。這個(gè)分?jǐn)?shù)是softmax得到的distribution的值,加起來總和為1。分?jǐn)?shù)最?的值就是這個(gè)向量的輸出?,F(xiàn)在輸出的“機(jī)”這個(gè)字加?到下?步的輸?。Autoregressive1Autoregressive2Decoder的架構(gòu)Decoder的結(jié)構(gòu)?encoder還復(fù)雜?點(diǎn),Decoder架構(gòu)1Encoder結(jié)構(gòu)和decoder結(jié)構(gòu)放?起,可以發(fā)現(xiàn)結(jié)構(gòu)就差中間這?塊。Decoder架構(gòu)2Decoder架構(gòu)3還可以看到decoder再第?步的multi-head基礎(chǔ)上還加了?個(gè)mask,mask什么意思呢?Decoder架構(gòu)4Mask是這樣的,原來的self-attention需要先看所有輸?再計(jì)算,加?mask可以,輸出b1的時(shí)候只考慮a1的資訊,不考慮a234的資訊。產(chǎn)?b2的時(shí)候只考慮a1、a2的資訊,不考慮a3、a4。產(chǎn)?b3的時(shí)候只考慮a1、a2、a3,不考慮a4。Mask1矩陣運(yùn)算時(shí)也?樣,b2的計(jì)算只考慮a1、a2.Mask2Whymask?因?yàn)镈ecoder的時(shí)候,a1、a2、a3、a4是順次產(chǎn)?的,所以輸出b2的時(shí)候還沒有a3、a4,所以沒辦法像encoder?樣計(jì)算全局。WhymaskDecoder怎么決定輸出長(zhǎng)度?可以設(shè)置?個(gè)END的符號(hào)來表?斷。ENDNon-autoregressive(NAT)NATNAT不是?次產(chǎn)??個(gè)字,是?次產(chǎn)?整個(gè)句?。怎么決定NATdecoder的輸出的長(zhǎng)度?-解決1:扔?個(gè)classifier去決定輸出長(zhǎng)度。-解決2:不管三七?之?先給N個(gè)begin,看哪?輸出了END,END右邊的輸出就扔掉。NAT的好處:平?化;輸出長(zhǎng)度可控。NATdecoderEncoder和Decoder中間怎么傳遞?傳遞靠剛剛Decoder遮住的部分叫cross-attention,它有2個(gè)輸?來?encoder,有1個(gè)輸?來?decoder。Cross-attentionEncoder輸出a1、a2、a3,先有begin,再經(jīng)過帶mask的self-attention得到?個(gè)向量,乘上?個(gè)lineartransform后得到query。a1、a2、a3得到三個(gè)k,q和三個(gè)k相乘得到attentionscore,接下來a1、a2、a3乘上v1、v2、v3,再把它vksum(加權(quán))加起來得到v,這個(gè)v再丟給fully-connect。Cross-attention計(jì)算Crossattentionrefseq2seq語(yǔ)?辨識(shí)不同的cross?式Training?如翻譯“機(jī)”這個(gè)字,正確答案是?個(gè)one-hot的vector,decoder的輸出是?組probability,要做的就是使“機(jī)”的probability越接近1越好,也就是minimizecrossentropy。這個(gè)機(jī)制像分類問題。Minimizecrossentropy現(xiàn)在就是希望所有output的crossentropy越?越好。Decoder的輸?就是正確答案,這個(gè)技術(shù)就是TeacherForcing。但是做測(cè)試的時(shí)候沒有正確答案,那這中間的mismatch要怎么辦?Teacherforcing訓(xùn)練的TipsTips1:CopyMechanism從輸??復(fù)制?些東西出來。?如chat-bot復(fù)制username。Copymechanismg?如summarization提煉摘要SummarizationTips2:GuidedAttention有時(shí)候機(jī)器會(huì)犯?些低級(jí)錯(cuò)誤。?如會(huì)漏掉部分輸?,這時(shí)候可以強(qiáng)制機(jī)器看完全部的輸?,這個(gè)技術(shù)就叫GuidedAttention。就是讓機(jī)器以固定的attention模式學(xué)習(xí)。GuidedattentionTips3:BeamSearch假設(shè)現(xiàn)在decoder只能輸出2種輸出A、B,每次就決定AB選哪?個(gè),單次選分?jǐn)?shù)?較?的那個(gè)。這個(gè)路徑就叫GreedyDecoding。但是存在別的路徑得到的結(jié)果?這個(gè)路徑好的可能性,但是?沒辦法窮舉所有路徑,這時(shí)候就引?BeamSearch技術(shù)。Beamsearch但是這個(gè)技術(shù)有時(shí)候有?,有時(shí)候沒有?。如果答案只有?種可能性,beamsearch?較有?,如果答案?較隨機(jī)性,那就不太好?。?如語(yǔ)?合成、TTS。SamplingOptimizingEvaluationMetricsvalidation的時(shí)候是考慮BLEUscore,是算完?整句話再跟正確答案?較,但是訓(xùn)練的時(shí)候是minimizecrossentropy,minimizecrossentropy可以最?化BLEUscore嗎?不?定。那能不能訓(xùn)練的時(shí)候考慮BLEUscore?沒有那么容易,BLEUscore很復(fù)雜,沒法做微分和gradientdescending。有?個(gè)答案是:遇到optimize問題?法解決的時(shí)候,總是?reinforcementlearning(RL)。BLEUExposureBias前?提到的訓(xùn)練能看正確答案,測(cè)試的時(shí)候看不到正確答案導(dǎo)致的mismatch的問題就叫ExposureBias。Exposurebias測(cè)試的時(shí)候因?yàn)闆]有正確答案,只要有?個(gè)錯(cuò),就會(huì)?步錯(cuò)步步錯(cuò)。解決:訓(xùn)練的時(shí)候加??些錯(cuò)誤的東西,這個(gè)技術(shù)叫ScheduledSampling。Scheduledsampling我??的Transformer總結(jié):Transformer解決Seq2Seq的任務(wù),label輸出數(shù)由機(jī)器??決定,應(yīng)?如臺(tái)語(yǔ)語(yǔ)?翻譯、語(yǔ)?合成、Chatbot、Q&A、句法解析、multi-label分類、object-detect等。Seq2Seq由encoder和decoder組成,Encoder輸出跟輸?相同長(zhǎng)度的向量,transformer的encoder?的就是self-attention。Encoder的?個(gè)block是multi-headattention,Transformer的encoder的block的結(jié)構(gòu)在self-attention和Fully-connection后?加(Residualconnection[原輸?+輸出作為新輸出]+Layernorm)結(jié)構(gòu)。Decoder最常見是Autoregressive結(jié)構(gòu),有begin和end符號(hào)決定開始結(jié)束,每?個(gè)單位的輸出是softmax得到的distribution的最?值。Decoder在第?步的multi-head基礎(chǔ)上還加了?個(gè)mask,意思是輸出output的時(shí)候只看之前的輸出結(jié)果不?看全局輸出。Decoder還有?種Non-autoregressive(NAT)結(jié)構(gòu),不是?次?個(gè)字,可以平?化輸出整個(gè)句?且長(zhǎng)度可控。Transformer的Encoder和Decoder的傳遞靠Decoder中間的cro
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子商務(wù)平臺(tái)交易保障服務(wù)合同
- 物業(yè)服務(wù)投訴處理流程實(shí)務(wù)
- 教育領(lǐng)域互聯(lián)網(wǎng)創(chuàng)業(yè)商業(yè)計(jì)劃書范文
- 初中英語(yǔ)期中測(cè)試命題思路與樣卷
- 以愛為筆繪就成長(zhǎng):江陰市第二中學(xué)成長(zhǎng)導(dǎo)師制的實(shí)踐探索
- 物流配送中心日常工作計(jì)劃明細(xì)
- XX家庭護(hù)理醫(yī)療器械企業(yè)2024年度ESG員工體驗(yàn)與可持續(xù)發(fā)展報(bào)告
- 正大天晴企業(yè)簡(jiǎn)稱2023ESG實(shí)踐報(bào)告:醫(yī)藥企業(yè)社會(huì)責(zé)任履行與政策對(duì)接
- 2025年多級(jí)離心泵行業(yè)當(dāng)前市場(chǎng)規(guī)模及未來五到十年發(fā)展趨勢(shì)報(bào)告
- 2025年工程機(jī)械涂料行業(yè)當(dāng)前競(jìng)爭(zhēng)格局與未來發(fā)展趨勢(shì)分析報(bào)告
- 成人手術(shù)后疼痛評(píng)估與護(hù)理-中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)2023 2
- 第三屆全國(guó)生態(tài)環(huán)境監(jiān)測(cè)專業(yè)技術(shù)人員大比武江蘇省賽試題庫(kù)(含答案)
- 冷庫(kù)貨架制作合同范本
- 學(xué)歷認(rèn)證授權(quán)委托書樣本
- 解除與養(yǎng)父母關(guān)系協(xié)議書
- 旅游學(xué)概論(郭勝 第五版) 課件 第1、2章 旅游學(xué)概述、旅游的產(chǎn)生與發(fā)展
- 道路清掃保潔及垃圾清運(yùn)服務(wù)投標(biāo)方案技術(shù)標(biāo)
- 子癇病人的應(yīng)急處理預(yù)案
- 醫(yī)院保潔服務(wù)投標(biāo)方案(技術(shù)方案)
- 2024-2029年中國(guó)月餅行業(yè)發(fā)展分析及發(fā)展前景與投資研究報(bào)告
- (高清版)TDT 1042-2013 土地整治工程施工監(jiān)理規(guī)范
評(píng)論
0/150
提交評(píng)論