序列到序列網(wǎng)絡(luò)(課件)_第1頁
序列到序列網(wǎng)絡(luò)(課件)_第2頁
序列到序列網(wǎng)絡(luò)(課件)_第3頁
序列到序列網(wǎng)絡(luò)(課件)_第4頁
序列到序列網(wǎng)絡(luò)(課件)_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

序列到序列網(wǎng)絡(luò)人工智能技術(shù)基礎(chǔ)及應(yīng)用12023/11/17緒論什么是序列到序列(Sequence-to-Sequence)在上一章介紹的全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)所接收的輸入數(shù)據(jù)都是互相獨立且完整的樣本,可以編碼為一個向量(全連接層輸入一維向量,卷積網(wǎng)絡(luò)輸入二維向量),能夠在單次前向傳播后輸出預(yù)測結(jié)果,例如輸入一張完整的圖片,輸出預(yù)測的圖像類別。然而,針對視頻、語音、文本這類具有時序結(jié)構(gòu)的數(shù)據(jù)的相關(guān)任務(wù)卻無法采用這種模式,這是因為它們的輸入和輸出均為向量序列,因此此類問題稱為Sequence-to-Sequence(??s寫為Seq2seq)。人工智能技術(shù)基礎(chǔ)及應(yīng)用22023/11/17緒論RNN分類根據(jù)輸入與輸出向量序列的長度,常見的模型有以下幾類人工智能技術(shù)基礎(chǔ)及應(yīng)用32023/11/17輸入向量序列與輸出向量序列長度一致,常見于詞性分析,即對文本數(shù)據(jù)的每個單詞預(yù)測詞性:輸入向量序列長度不定,輸出向量序列長度為1,常見于文本分類:輸入向量序列與輸出向量序列的長度均不固定,常見于機器翻譯緒論對于語音數(shù)據(jù),常用的編碼方法是使用25ms的滑動窗口,以10ms為步長,對窗口內(nèi)的語音數(shù)據(jù)提取特征,得到語音的向量序列。人工智能技術(shù)基礎(chǔ)及應(yīng)用42023/11/17對于文本數(shù)據(jù),則常常將每個單詞映射到特征向量,這一過程稱為WordEmbedding,其中具有相似語義的單詞特征向量可以形成聚類。序列生成方法緒論為了解決單個輸入樣本是一個向量序列的問題,在本章將首先介紹循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrentneuralnetworks),與卷積神經(jīng)網(wǎng)絡(luò)不同,它的輸入是長度不定的向量序列,其同時對序列中每個向量都進行特征提取得到輸出。人工智能技術(shù)基礎(chǔ)及應(yīng)用52023/11/175.1

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)5.1.1RNN的基本原理RNN的基礎(chǔ)結(jié)構(gòu)下圖所示,它的基本單元稱為cell,它能夠以隱藏狀態(tài)(hiddenstate)的形式來連接序列數(shù)據(jù)。RNNcell的每個時間步(timestep,即序列數(shù)據(jù)中的各個元素的位置)的輸入是向量序列數(shù)據(jù)的一個元素和隱藏狀態(tài),并輸出一個新的隱藏狀態(tài)。在初始時刻,隱藏狀態(tài)使用隨機初始化,隨著序列數(shù)據(jù)的輸入,它被逐步進行編碼,每個時間步的輸出都依賴于之前所有時間步的數(shù)據(jù)。人工智能技術(shù)基礎(chǔ)及應(yīng)用62023/11/175.1

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的輸出形式隱藏狀態(tài)可以被進一步編碼得到輸出向量,針對不同的任務(wù),最終的輸出形式有所不同。在輸入向量序列與輸出向量序列長度一致的任務(wù)中,對每個隱藏狀態(tài)都預(yù)測輸出向量。人工智能技術(shù)基礎(chǔ)及應(yīng)用72023/11/175.1

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)而對于僅需要單一輸出向量的任務(wù),則一般只對最后一個隱藏狀態(tài)進行編碼輸出,如下圖所示人工智能技術(shù)基礎(chǔ)及應(yīng)用82023/11/17應(yīng)該注意的是,在左圖中序列數(shù)據(jù)的每個時間步使用同一個cell單元,即同一個cell單元在RNN網(wǎng)絡(luò)中被重復(fù)使用,因此也可以表示為5.1

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN計算邏輯RNNcell的內(nèi)部計算邏輯可以用下圖表示,輸入向量首先經(jīng)過權(quán)重矩陣和偏置向量編碼,上個時間步的隱藏狀態(tài)經(jīng)過權(quán)重矩陣編碼,二者相加得到特征向量,并作為當(dāng)前時間步更新后的隱藏狀態(tài)。如果當(dāng)前時間步的隱藏狀態(tài)需要預(yù)測輸出向量,則進一步對特征向量經(jīng)過權(quán)重矩陣和偏置向量的編碼,得到輸出特征向量人工智能技術(shù)基礎(chǔ)及應(yīng)用92023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTMRNN的缺陷上節(jié)介紹的RNN中,雖然實現(xiàn)了對序列數(shù)據(jù)的處理,但其自身的結(jié)構(gòu)卻存在嚴重的缺陷人工智能技術(shù)基礎(chǔ)及應(yīng)用102023/11/171.當(dāng)模型的參數(shù)值較大時,經(jīng)過指數(shù)縮放后得到一個很大的梯度值,使得網(wǎng)絡(luò)參數(shù)劇烈地調(diào)整,而這種大幅度調(diào)整往往使得模型泛化性能更差,進而得到更大的訓(xùn)練誤差,造成惡性循環(huán),最終模型無法收斂。這種情況稱為梯度爆炸;2.當(dāng)模型的參數(shù)值較小時,經(jīng)過指數(shù)級縮放后趨于零,此時網(wǎng)絡(luò)參數(shù)將幾乎不發(fā)生變化,即模型收斂到一定程度后就難以繼續(xù)優(yōu)化了,這種情況稱為梯度消失。為了避免發(fā)生梯度爆炸與梯度消失問題,RNN一般僅適用于處理長度較短的序列數(shù)據(jù),也可說RNN只具有“短期記憶”的能力。5.2

長短期記憶網(wǎng)絡(luò)LSTMLSTM基本原理為了克服梯度爆炸與梯度消失問題,LSTM將使用門控機制來過濾每個時間步的信息作為核心,以此保留住序列早期的關(guān)鍵信息,防止被后期信息所覆蓋。LSTM的基本單元結(jié)構(gòu)如下圖所示:人工智能技術(shù)基礎(chǔ)及應(yīng)用112023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM可以看到LSTM單元中存在兩種狀態(tài),除了RNN中就已存在的hiddenstate,還有cellstate,它們也常被形象地稱為短期記憶(short-termmemory)和長期記憶(long-termmemory),同時其內(nèi)部的運算過程相較RNN也更為復(fù)雜,下面將詳細介紹用來維持長期記憶的LSTM輸入門、遺忘門和輸出門三個門控機制。人工智能技術(shù)基礎(chǔ)及應(yīng)用122023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM(1)輸入門(inputgate)與RNN類似,LSTM的輸入為當(dāng)前時間步的輸入向量以及上個時間步的hiddenstate,首先hiddenstate和輸入向量在維度方向上被拼接在一起,再將得到的拼接向量分別經(jīng)過兩個獨立的全連接層以及sigmoid激活函數(shù)和tanh激活函數(shù)得到特征向量和,隨后和逐元素相乘,得到輸入門的編碼結(jié)果。人工智能技術(shù)基礎(chǔ)及應(yīng)用132023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM使用sigmoid函數(shù)編碼hiddenstate能夠?qū)⒅缔D(zhuǎn)換為0和1之間的值,越接近0表示該信息越不重要,而越接近1表示該信息被保留越多。當(dāng)通過反向傳播進行訓(xùn)練時,sigmoid中的權(quán)重函數(shù)將被更新,以便學(xué)會只讓有用的通過而丟棄不太重要的特征,這是使用LSTM門控機制起作用的關(guān)鍵。而使用tanh函數(shù)則能夠較好保留原始信息。輸入門的計算過程可以用數(shù)學(xué)表達式表示如下:人工智能技術(shù)基礎(chǔ)及應(yīng)用142023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM(2)遺忘門(forgetgate)類似于輸入門,遺忘門同樣使用一組獨立的全連接層以及sigmoid激活函數(shù)對上一時間步的hiddenstate和當(dāng)前輸入向量進行編碼得到特征向量,隨后與上一個時間步的cellstate相乘,起到選擇性保留cellstate中有用信息的作用。最后再把該特征向量與輸入門的輸出逐元素相加,得到當(dāng)前時間步的cellstate。人工智能技術(shù)基礎(chǔ)及應(yīng)用152023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM遺忘門的計算過程可以用數(shù)學(xué)表達式表示如下:人工智能技術(shù)基礎(chǔ)及應(yīng)用162023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM(3)輸出門(outputgate)輸出門將第三次使用一組獨立全連接層以及sigmoid函數(shù)對上一時間步的hiddenstate和當(dāng)前輸入向量進行編碼得到特征向量,并利用tanh函數(shù)對當(dāng)前時間步的cellstate進行編碼得到特征向量,二者相乘后得到當(dāng)前時間步的hiddenstate。與RNN類似,當(dāng)前時間步的隱藏狀態(tài)也同樣可以用于根據(jù)任務(wù)需要編碼為當(dāng)前時間步的輸出。人工智能技術(shù)基礎(chǔ)及應(yīng)用172023/11/175.2

長短期記憶網(wǎng)絡(luò)LSTM輸出門的計算過程用數(shù)學(xué)表達式表示如下:正是由于LSTM在輸入門、遺忘門和輸出門三個門控單元結(jié)構(gòu)中,利用sigmoid函數(shù)作為過濾器控制信息的傳遞,因此LSTM具有保留“長期記憶”的能力,這種能力在處理序列數(shù)據(jù)(特別是長序列數(shù)據(jù))的任務(wù)中,是尤為重要的。人工智能技術(shù)基礎(chǔ)及應(yīng)用182023/11/175.3Transformer網(wǎng)絡(luò)RNN和LSTM存在的問題在前面介紹的RNN和LSTM中,模型是沿著輸入序列從前往后計算來處理時序信息的,即輸入序列中的第t時刻的隱藏狀態(tài)由第t-1時刻隱藏狀態(tài)和第t時刻的輸入數(shù)據(jù)共同生成,歷史信息隨著序列輸入逐步傳遞。這種計算方式帶來了兩個問題:(1)序列數(shù)據(jù)必須逐一輸入網(wǎng)絡(luò),導(dǎo)致網(wǎng)絡(luò)的并行度低;(2)處理長序列的時序信息時受到內(nèi)存約束。人工智能技術(shù)基礎(chǔ)及應(yīng)用192023/11/175.3Transformer網(wǎng)絡(luò)完全基于注意力機制的TransformerTransformer拋棄了循環(huán)網(wǎng)絡(luò)的時序輸入結(jié)構(gòu),轉(zhuǎn)而使用完全基于注意力機制的架構(gòu),使得模型能夠并行處理完整的序列數(shù)據(jù),同時能夠有效地對時序信息進行處理,相比循環(huán)神經(jīng)網(wǎng)絡(luò)能夠在更少的訓(xùn)練成本下達到更好的性能表現(xiàn)。下面首先介紹Transformer的核心模塊——自注意力層,然后從網(wǎng)絡(luò)結(jié)構(gòu)和實現(xiàn)分別來介紹Transformer。人工智能技術(shù)基礎(chǔ)及應(yīng)用202023/11/175.3Transformer網(wǎng)絡(luò)5.3.1自注意力層(Self-attentionLayer)對于序列數(shù)據(jù)(既可以是原始輸入數(shù)據(jù)序列,也可以是網(wǎng)絡(luò)中的特征序列),在自注意力層中,序列中的每個元素將與所有其它元素發(fā)生信息交換并得到對應(yīng)的輸出元素,即每個輸出向量都是所有輸入向量共同作用,綜合了完整序列信息的結(jié)果。人工智能技術(shù)基礎(chǔ)及應(yīng)用212023/11/175.3Transformer網(wǎng)絡(luò)注意力分數(shù)信息交換過程中,對于每個輸入向量,首先需要衡量它與其他輸入向量的相關(guān)(relevant)程度,用注意力分數(shù)(AttentionScore)表示。當(dāng)兩個輸入向量的相關(guān)程度越高,其對應(yīng)的注意力分數(shù)就越高。有兩種常用的計算注意力分數(shù)的方法:

1)點積注意力

2)加性注意力人工智能技術(shù)基礎(chǔ)及應(yīng)用222023/11/175.3Transformer網(wǎng)絡(luò)

人工智能技術(shù)基礎(chǔ)及應(yīng)用232023/11/175.3Transformer網(wǎng)絡(luò)

人工智能技術(shù)基礎(chǔ)及應(yīng)用242023/11/175.3Transformer網(wǎng)絡(luò)

人工智能技術(shù)基礎(chǔ)及應(yīng)用252023/11/175.3Transformer網(wǎng)絡(luò)有了注意力分數(shù)來衡量向量之間的相關(guān)程度,為了對每個輸入向量進行特征編碼,自注意力層還需要進一步綜合輸入向量的信息。如下圖所示,對每個輸入向量,使用第三個權(quán)重矩陣編碼得到value向量,對于每個輸入向量,所有的value向量與其對應(yīng)的注意力分數(shù)做加權(quán)求和,便得到對應(yīng)的輸出向量。人工智能技術(shù)基礎(chǔ)及應(yīng)用262023/11/175.3Transformer網(wǎng)絡(luò)

人工智能技術(shù)基礎(chǔ)及應(yīng)用272023/11/175.3Transformer網(wǎng)絡(luò)在計算注意力分數(shù)時,如果獨立看各個輸入向量,如下圖所示人工智能技術(shù)基礎(chǔ)及應(yīng)用282023/11/17該過程同樣可以通過矩陣并行計算得到,如下圖所示5.3Transformer網(wǎng)絡(luò)而最后利用注意力分數(shù)對所有value向量的加權(quán)求和,同樣可以通過矩陣并行計算人工智能技術(shù)基礎(chǔ)及應(yīng)用292023/11/17自注意力層完整的并行計算過程如下圖所示5.3Transformer網(wǎng)絡(luò)上述計算過程說明了自注意力層處理序列數(shù)據(jù)時,對于每一個輸入向量,通過計算注意力分數(shù)聚合序列所有向量的信息來提取特征,同時所有計算過程均可轉(zhuǎn)化為矩陣形式的單次運算,提高了網(wǎng)絡(luò)的并行度。另外,在RNN和LSTM中,序列數(shù)據(jù)需要時序輸入,且依靠隱藏狀態(tài)來存儲歷史信息,而在自注意力層中,序列數(shù)據(jù)可以一次性輸入,且序列中任意兩個向量均可跨過其他向量直接建立聯(lián)系,這使得自注意力層對于序列數(shù)據(jù)擁有更強大的建模能力。人工智能技術(shù)基礎(chǔ)及應(yīng)用302023/11/175.3Transformer網(wǎng)絡(luò)

人工智能技術(shù)基礎(chǔ)及應(yīng)用312023/11/175.3Transformer網(wǎng)絡(luò)

人工智能技術(shù)基礎(chǔ)及應(yīng)用322023/11/175.3Transformer網(wǎng)絡(luò)人工智能技術(shù)基礎(chǔ)及應(yīng)用332023/11/17多頭自注意力計算圖示在各個head計算完輸出向量之后,所有head的輸出向量被拼接并被一組輸出權(quán)重矩陣映射到特征維度。5.3Transformer網(wǎng)絡(luò)在各個head計算完輸出向量之后,所有head的輸出向量被拼接并被一組輸出權(quán)重矩陣映射到特征維度人工智能技術(shù)基礎(chǔ)及應(yīng)用342023/11/175.3Transformer網(wǎng)絡(luò)人工智能技術(shù)基礎(chǔ)及應(yīng)用352023/11/17位置編碼在上述自注意力層中,對于輸入序列沒有強調(diào)“時序”的概念,這是因為輸入序列的每個向量均兩兩獨立計算注意力分數(shù)并產(chǎn)生信息交換,該過程與向量的位置沒有關(guān)系。為了對向量的位置進行建模,通常還需要在進入自注意力層前,對輸入向量進行位置編碼(PositionalEncoding),即對輸入向量直接加上一個表征序列位置的特殊向量5.3Transformer網(wǎng)絡(luò)位置向量可以人為手工設(shè)置,最常用的是正弦波位置編碼其中,pos代表向量在序列中的位置,i代表特征向量的維度。正弦波位置編碼的可視化如右圖所示人工智能技術(shù)基礎(chǔ)及應(yīng)用362023/11/175.3Transformer網(wǎng)絡(luò)加上位置編碼后,每個輸入向量在序列中的位置信息就直接編碼到其原始向量上,參與后續(xù)計算。多頭自注意力層構(gòu)成了Transformer框架的基本模塊,而正是自注意力機制賦予了Transformer強大的特征表達能力。在下一節(jié)將詳細介紹Transformer的網(wǎng)絡(luò)結(jié)構(gòu)。人工智能技術(shù)基礎(chǔ)及應(yīng)用372023/11/175.3Transformer網(wǎng)絡(luò)5.3.2Transformer網(wǎng)絡(luò)結(jié)構(gòu)Transformer網(wǎng)絡(luò)采用了編碼器-解碼器結(jié)構(gòu)(Encoder-Decoder)。以機器翻譯任務(wù)為例,編碼器將輸入的單詞序列進行特征編碼,解碼器則對編碼后的特征序列解碼為另一種語言的單詞序列。人工智能技術(shù)基礎(chǔ)及應(yīng)用382023/11/175.3Transformer網(wǎng)絡(luò)藍色部分所示編碼器部分用于將輸入的數(shù)據(jù)編碼為向量序列,然后利用多頭自注意力層對向量序列進行特征編碼。人工智能技術(shù)基礎(chǔ)及應(yīng)用392023/11/17橙色部分所示解碼器中,則將經(jīng)過編碼器所編碼的特征向量序列再次使用多頭注意力機制對特征向量進行解碼,映射到輸出空間中。5.3Transformer網(wǎng)絡(luò)1.編碼器(Encoder)編碼器的輸入與輸出是同樣長度的向量序列。對于輸入數(shù)據(jù)(Inputs),首先需要編碼為向量序列(InputEmbedding)。在自然語言處理任務(wù)中,輸入數(shù)據(jù)往往是文本序列,所以和RNN與LSTM類似,需要對每個單詞進行編碼得到單詞編碼序列。在加上位置編碼(PositionalEncoding)后,向量序列被輸入多頭自注意力層(Multi-HeadAttention)進行信息聚合。隨后,采用了與第四章介紹的ResNet所一致的殘差連接,將多頭自注意力層的輸入直接與輸出相加(Add)。隨后,特征向量序列將經(jīng)過LayerNormalization處理。人工智能技術(shù)基礎(chǔ)及應(yīng)用402023/11/175.3Transformer網(wǎng)絡(luò)LayerNormalization在BatchNormalization中,訓(xùn)練過程使用當(dāng)前mini-batch數(shù)據(jù)的均值和方差,推理過程中使用訓(xùn)練集的全局均值和方差,因此要求訓(xùn)練過程中保留全局均值和方差。而LayerNormalization計算過程中各條數(shù)據(jù)相互獨立,因此LayerNormalization在訓(xùn)練過程中不需要保留訓(xùn)練過程中的全局均值和方差,無論訓(xùn)練還是測試階段,對每條數(shù)據(jù)在通道維度內(nèi)獨立進行歸一化即可。人工智能技術(shù)基礎(chǔ)及應(yīng)用412023/11/175.3Transformer網(wǎng)絡(luò)在計算機視覺問題中,LayerNormalization是指在特征圖的通道維度上做歸一化。而在自然語言處理問題中,LayerNormalization是指對句子的單個token特征進行歸一化LayerNormalization的計算過程為:人工智能技術(shù)基礎(chǔ)及應(yīng)用422023/11/175.3Transformer網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)編碼器中經(jīng)過了殘差連接和LayerNormalization(Add&Norm)的特征向量序列被進一步輸入一個由全連接層構(gòu)成的前饋神經(jīng)網(wǎng)絡(luò)(FeedForwardNetwork,FFN)。與多頭注意力層相同,F(xiàn)FN的輸入與輸出同樣通過殘差連接和LayerNormalization(Add&Norm)。經(jīng)過重復(fù)的N次多頭注意力層和FFN(N組獨立、不共享的參數(shù)),就得到了編碼器的最終的輸出向量序列。在原文中,編碼器采用了N=6的重復(fù)堆疊結(jié)構(gòu)人工智能技術(shù)基礎(chǔ)及應(yīng)用432023/11/175.3Transformer網(wǎng)絡(luò)2.

解碼器(Decoder)以語音識別任務(wù)為例,首先設(shè)置一個初始向量作為解碼器的輸入,這里稱為輸出編碼(OutputEmbedding)向量序列。解碼器的輸入被命名為輸出編碼的原因是解碼器在機器翻譯任務(wù)中,是逐個單詞解碼的,已解碼的單詞會作為解碼器的輸入,來預(yù)測下一個單詞。而在初始時刻,僅僅設(shè)置一個無實際意義的初始標(biāo)識向量“START”,而將其他位置的輸入使用掩碼(Mask)填充人工智能技術(shù)基礎(chǔ)及應(yīng)用442023/11/175.3Transformer網(wǎng)絡(luò)Cross-attention層第二次多頭注意力層對編碼器提供的特征向量和解碼器的輸出編碼向量求注意力分數(shù)并聚合信息,它稱為Cross-attention層,在Transformer結(jié)構(gòu)中如右圖所示人工智能技術(shù)基礎(chǔ)及應(yīng)用452023/11/175.3Transformer網(wǎng)絡(luò)Cross-attention層計算過程在解碼器的第二個多頭注意力層中,對編碼器的特征向量序列計算key向量和value向量,對解碼器的帶掩碼多頭注意力層輸出向量計算query向量,隨后使用query向量對key向量和value向量求注意力分數(shù)并做加權(quán)求和,得到Cross-attention層的輸出結(jié)果,計算過程如下圖所示。人工智能技術(shù)基礎(chǔ)及應(yīng)用462023/11/175.3Transformer網(wǎng)絡(luò)解碼器工作過程在預(yù)測第一個單詞時,解碼器的自注意力層將“START”向量以外的向量用掩碼填充,不參與注意力的計算,這個特殊的自注意力層稱為帶掩碼的多頭注意力層(MaskedMulti-HeadAttention),計算結(jié)果輸入Cross-attention層計算與編碼器得到的特征進行計算,其輸出經(jīng)過全連接層(FullyConnectLayer,)預(yù)測第一個單詞。人工智能技術(shù)基礎(chǔ)及應(yīng)用472023/11/175.3Transformer網(wǎng)絡(luò)在預(yù)測下一個單詞時,上一個預(yù)測單詞被加入到輸出編碼中,同樣經(jīng)過Cross-attention層與編碼器輸出的特征向量求注意力分數(shù)并聚合信息。在語音識別任務(wù)中,解碼器就這樣逐個預(yù)測單詞,并將已預(yù)測單詞用于下一個單詞的解碼人工智能技術(shù)基礎(chǔ)及應(yīng)用482023/11/175.3Transformer網(wǎng)絡(luò)強大的Transformer采用編碼器-解碼器結(jié)構(gòu),對于序列數(shù)據(jù),Transformer能夠有效地進行特征編碼,而且由于注意力機制中對序列中的向量能夠跨過時序性輸入直接進行信息聚合,因此Transformer也具備了對長序列的建模能力,能夠捕捉序列數(shù)據(jù)中的長距離依賴關(guān)系和全局特征,因此理論上,Transformer能夠編碼無限長的文本。同時,由于不需要依靠RNN或LSTM的隱藏狀態(tài)來存儲時序信息,Transformer能夠極大突破內(nèi)存的限制,且顯著地提高了網(wǎng)絡(luò)的并行度。Transformer自2017年提出以來,在自然語言處理領(lǐng)域取得了一系列重大突破,其中影響力最大的當(dāng)屬BERT,作為谷歌開源的自然語言預(yù)訓(xùn)練模型,一經(jīng)推出就刷新了11項任務(wù)的SOTA記錄,并被用于谷歌搜索引擎中改善搜索結(jié)果,目前已經(jīng)支持70多種語言的搜索服務(wù)。人工智能技術(shù)基礎(chǔ)及應(yīng)用492023/11/175.3Transformer網(wǎng)絡(luò)在自然語言處理中大獲成功的Transformer迅速出圈到其他領(lǐng)域,近年來在計算機視覺領(lǐng)域同樣大放異彩。在下一節(jié)中,將從代碼實現(xiàn)的角度,介紹Transformer在圖像分類任務(wù)上的一個應(yīng)用——VisionTransformer(ViT)。人工智能技術(shù)基礎(chǔ)及應(yīng)用502023/11/175.3Transformer網(wǎng)絡(luò)5.3.3VisionTransformer(ViT)網(wǎng)絡(luò)近年來,由于在自然語言處理領(lǐng)域內(nèi)的成功,Transformer在人工智能社區(qū)迅速出圈,遷移到計算機視覺領(lǐng)域的眾多主流任務(wù)上同樣也取得了突破性的進展,其中最為重要的一項工作就是由GoogleResearsh在ICLR2021上所提出的VisionTransformer(ViT

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論