人工智能通識教程 課件 第3章-深度學習_第1頁
人工智能通識教程 課件 第3章-深度學習_第2頁
人工智能通識教程 課件 第3章-深度學習_第3頁
人工智能通識教程 課件 第3章-深度學習_第4頁
人工智能通識教程 課件 第3章-深度學習_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章深度學習主講教師:孔雨秋人工智能通識基礎(chǔ)目錄深度學習基本概念01深度學習的訓練與優(yōu)化02深度學習的核心組件03經(jīng)典深度神經(jīng)網(wǎng)絡(luò)04深度學習的應用05第三章深度學習為什么要學習深度學習從感知機到ChatGPT,深度學習的革命性力量!1950195619571970-1977197719821987-19931990年代20162022圖靈測試達特茅斯會議感知機的出現(xiàn)AI第一次低谷專家系統(tǒng)興起PC興起/互聯(lián)網(wǎng)時代深度學習萌芽AlphaGo戰(zhàn)勝人類ChatGPT大模型時代神經(jīng)網(wǎng)絡(luò)與BP算法為什么要學習深度學習如同工業(yè)時代的電力,深度學習是AI的基礎(chǔ)設(shè)施智能手機拍照美顏電商平臺千人前面推薦功能社交平臺內(nèi)容審核為什么要學習深度學習如同工業(yè)時代的電力,深度學習是AI的基礎(chǔ)設(shè)施智能手機拍照美顏電商平臺千人前面推薦功能社交平臺內(nèi)容審核根據(jù)國際數(shù)據(jù)公司(IDC)2023年的最新研究報告,全球范圍內(nèi)約87%的人工智能應用集成了深度學習組件為什么要學習深度學習計算機視覺革命:突破人類極限的感知能力自動駕駛技術(shù)騰訊覓影肺炎CT影像輔助分診及評估無人機棉田產(chǎn)量預測NASA系外行星發(fā)現(xiàn)效率提升1000倍為什么要學習深度學習自然語言處理大爆發(fā):從規(guī)則到理解智能情感分析聊天機器人實時機器翻譯語音助手為什么要學習深度學習AIGC:創(chuàng)意領(lǐng)域的顛覆者AI視覺藝術(shù)創(chuàng)作AIVA為游戲配樂獲歐盟版權(quán)認證AI續(xù)寫《紅樓夢》為什么要學習深度學習深度學習是產(chǎn)業(yè)升級的核心引擎制造業(yè):動力電池高精度質(zhì)量檢測金融業(yè):螞蟻集團智能風控系統(tǒng)服務業(yè):海底撈智能廚房降本30%教育業(yè):VR生物實驗室虛擬實驗仿真為什么要學習深度學習深度學習是國家戰(zhàn)略的關(guān)鍵技術(shù)全球算力增長與規(guī)模分布"十四五"人工智能發(fā)展規(guī)劃要點芯片戰(zhàn)爭:從CPU到GPU的技術(shù)博弈目錄深度學習基本概念BasicConceptofDeepLearning01深度學習的核心靈感來源于生物神經(jīng)系統(tǒng)神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本單元,模擬生物神經(jīng)元的信息處理方式激活函數(shù)是對生物神經(jīng)元“興奮”和“抑制”工作機制的模擬1.1神經(jīng)元與神經(jīng)網(wǎng)絡(luò)4生物神經(jīng)元神經(jīng)元神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元按照特定結(jié)構(gòu)連接而成的計算模型神經(jīng)網(wǎng)絡(luò)中的每個神經(jīng)元(也稱為節(jié)點)都會從上一層神經(jīng)元接收輸入信號,并進行加工處理,再輸入到下一層神經(jīng)元中1.1神經(jīng)元與神經(jīng)網(wǎng)絡(luò)1.2從感知機到深度學習1904年生物學家發(fā)現(xiàn)了生物神經(jīng)元的組成結(jié)構(gòu)1904生物神經(jīng)元的組成結(jié)構(gòu)1.2從感知機到深度學習1904年生物學家發(fā)現(xiàn)了生物神經(jīng)元的組成結(jié)構(gòu)。1943年,心理學家McCulloch和數(shù)學家Pitts在生物神經(jīng)元結(jié)構(gòu)的基礎(chǔ)上,抽象出了如上節(jié)所述的神經(jīng)元模型。1904生物神經(jīng)元的組成結(jié)構(gòu)1943神經(jīng)元模型誕生1.2從感知機到深度學習由于早期的神經(jīng)元模型是不能訓練的,其參數(shù)是人工指定的。當問題過于復雜的時候,我們很難給出合適的參數(shù)。在1958年,就職于康奈爾航空實驗室的FrankRosenblatt,提出了感知機的概念,它也被稱為單層神經(jīng)網(wǎng)絡(luò),即只有輸入層和輸出層。感知機模擬生物學中的負反饋調(diào)節(jié)機制,根據(jù)收到的反饋自動調(diào)整參數(shù),這一過程被稱為訓練。1904生物神經(jīng)元的組成結(jié)構(gòu)19431958神經(jīng)元模型誕生感知機概念誕生1.2從感知機到深度學習但是,感知機有著致命缺陷。1969年,Minsky指出感知機只能解決線性可分問題,對于XOR(異或)等非線性可分問題則無能為力。很多學者也因此放棄了對神經(jīng)網(wǎng)絡(luò)的研究,深度學習的發(fā)展進入了“AI寒冬”。1904生物神經(jīng)元的組成結(jié)構(gòu)19431958神經(jīng)元模型誕生感知機概念誕生1969XOR問題及AI“寒冬”1.2從感知機到深度學習但是,感知機有著致命缺陷。1969年,Minsky指出感知機只能解決線性可分問題,對于XOR(異或)等非線性可分問題則無能為力。很多學者也因此放棄了對神經(jīng)網(wǎng)絡(luò)的研究,深度學習的發(fā)展進入了“AI寒冬”。線性可分問題非線性可分問題1.2從感知機到深度學習為了解決異或問題,可疊加多個感知機構(gòu)成隱藏層,形成多層感知機。但是增加計算層數(shù)會引入大量參數(shù),給網(wǎng)絡(luò)訓練帶來負擔。1986年,Rumelhar

和Hinton等人提出反向傳播算法,解決了多層感知機所需要的復雜計算量問題,使其能夠解決更復雜的非線性問題,給神經(jīng)網(wǎng)絡(luò)的研究帶來又一次熱潮。1904生物神經(jīng)元的組成結(jié)構(gòu)19431958神經(jīng)元模型誕生感知機概念誕生1969XOR問題及AI“寒冬”1986BP反向傳播算法的提出1.2從感知機到深度學習為了解決異或問題,可疊加多個感知機構(gòu)成隱藏層,形成多層感知機。但是增加計算層數(shù)會引入大量參數(shù),給網(wǎng)絡(luò)訓練帶來負擔。1986年,Rumelhar

和Hinton等人提出反向傳播算法,解決了多層感知機所需要的復雜計算量問題,使其能夠解決更復雜的非線性問題,給神經(jīng)網(wǎng)絡(luò)的研究帶來又一次熱潮。感知機多層感知機1.2從感知機到深度學習2006年,Hinton在《Science》等期刊上首次提出了深度信念網(wǎng)絡(luò)的概念,并且引入了“預訓練-微調(diào)”的優(yōu)化訓練策略,大幅度減少了深度神經(jīng)網(wǎng)絡(luò)的訓練時間。同時,他給多層神經(jīng)網(wǎng)絡(luò)的學習和訓練賦予了新名字:“深度學習”。1904生物神經(jīng)元的組成結(jié)構(gòu)19431958神經(jīng)元模型誕生感知機概念誕生1969XOR問題及AI“寒冬”1986BP反向傳播算法的提出2006“深度學習”概念的誕生1.2從感知機到深度學習2006年,Hinton在《Science》等期刊上首次提出了深度信念網(wǎng)絡(luò)的概念,并且引入了“預訓練-微調(diào)”的優(yōu)化訓練策略,大幅度減少了深度神經(jīng)網(wǎng)絡(luò)的訓練時間。同時,他給多層神經(jīng)網(wǎng)絡(luò)的學習和訓練賦予了新名字:“深度學習”。大腦神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)120-140億神經(jīng)元!百萬億連接!1.3深度學習與傳統(tǒng)機器學習1.3深度學習與傳統(tǒng)機器學習深度學習是機器學習的分支技術(shù),它與傳統(tǒng)機器學習共同構(gòu)成了現(xiàn)代人工智能的方法體系。但是,它們在核心思想、技術(shù)實現(xiàn)和應用場景上既有顯著差異,又存在互補融合的趨勢。特性傳統(tǒng)機器學習深度學習特征提取依賴人工設(shè)計特征自動學習多層次特征數(shù)據(jù)需求小規(guī)模數(shù)據(jù)即可有效訓練需要海量數(shù)據(jù)計算資源CPU即可運行依賴GPU/TPU加速模型可解釋性可解釋性強“黑箱”特性顯著典型算法SVM、隨機森林、邏輯回歸CNN、RNN、Transformer1.3深度學習與傳統(tǒng)機器學習機器學習深度學習輸入

輸入CARNOTCARCARNOTCAR手工設(shè)計特征分類模型輸出特征提取+分類模型輸出1.3深度學習與傳統(tǒng)機器學習性能對比性能數(shù)據(jù)深度學習傳統(tǒng)機器學習目錄深度學習的訓練與優(yōu)化TrainingandOptimizationofDeepLearning022.1神經(jīng)網(wǎng)絡(luò)與反向傳播前饋神經(jīng)網(wǎng)絡(luò)大部分深度神經(jīng)網(wǎng)絡(luò)的信息傳遞方式都遵循著前饋傳遞的原則,即輸入信息從輸入層進入網(wǎng)絡(luò),經(jīng)過隱藏層,最后由輸出層輸出預測結(jié)果。如果網(wǎng)絡(luò)中所有相鄰層間神經(jīng)元兩兩連接,沒有循環(huán)或跨層連接,信息嚴格單向傳播,則稱該網(wǎng)絡(luò)為前饋神經(jīng)網(wǎng)絡(luò)。42.1神經(jīng)網(wǎng)絡(luò)與反向傳播梯度的反向傳播神經(jīng)網(wǎng)絡(luò)輸出預測結(jié)果后,由損失函數(shù)計算該預測結(jié)果和真實結(jié)果之間的差距(誤差),進而判斷該預測結(jié)果是否正確。為了得到更好的參數(shù),梯度反向傳播過程就會把這個誤差從輸出層“倒著”傳播回每一層,告訴每個神經(jīng)元:“你剛才的計算導致了多大的誤差,下次請這樣調(diào)整你的參數(shù)!”。42.2損失函數(shù)在深度學習過程中,我們的目標是使深度神經(jīng)網(wǎng)絡(luò)輸出的預測結(jié)果盡可能接近真實值,因此需要利用損失函數(shù)度量預測結(jié)果和真實值之間的差距,再利用優(yōu)化方法通過最小化損失函數(shù)的方式調(diào)整網(wǎng)絡(luò)中的參數(shù)值,進而得到使損失函數(shù)達到最小的理想?yún)?shù)。

損失函數(shù)

深度神經(jīng)網(wǎng)絡(luò)損失值2.2損失函數(shù)在深度學習過程中,我們的目標是使深度神經(jīng)網(wǎng)絡(luò)輸出的預測結(jié)果盡可能接近真實值,因此需要利用損失函數(shù)度量預測結(jié)果和真實值之間的差距,再利用優(yōu)化方法通過最小化損失函數(shù)的方式調(diào)整網(wǎng)絡(luò)中的參數(shù)值,進而得到使損失函數(shù)達到最小的理想?yún)?shù)。損失函數(shù)的計算位于前饋過程和反向傳播之間,它接受網(wǎng)絡(luò)輸出的預測結(jié)果和真實值,并計算兩者之間的差異。隨后這個差異將被用于反向傳播階段,以更新模型的參數(shù),從而減小下次迭代的預測誤差。

損失函數(shù)

深度神經(jīng)網(wǎng)絡(luò)損失值2.2損失函數(shù)2.2.1回歸任務損失函數(shù):均方誤差損失函數(shù)在房價預測的回歸任務中,如果預測值與真實值間的差距較大,說明我們的預測結(jié)果不太準確;反之,如果差距較小,說明預測結(jié)果較為準確。最后,計算所有樣本點上產(chǎn)生誤差的均值,用來描述該模型在整個數(shù)據(jù)集上產(chǎn)生的整體誤差。4

2.2損失函數(shù)2.2.2分類任務損失函數(shù):交叉熵損失函數(shù)在動物識別的分類任務中,首先將圖像輸入到深度神經(jīng)網(wǎng)絡(luò)中,經(jīng)過計算輸出一個預測結(jié)果。實際上,這個預測結(jié)果是一個向量形式的概率分布,其中每個元素的數(shù)值代表它屬于對應類別的概率。概率值越大,說明它屬于該類別的可能性越大。在數(shù)學上,為了度量兩個概率分布的差距,通常采用交叉熵損失函數(shù):??=?q?·log(p)。2.3優(yōu)化方法優(yōu)化方法是深度學習訓練過程的核心,旨在最小化損失函數(shù),通過調(diào)整模型參數(shù)使預測結(jié)果更接近真實值。2.3優(yōu)化方法2.3.1梯度下降法梯度下降法是讓AI學會“下山”的方法,也即是找損失函數(shù)極小值的方法。其核心思想是沿損失函數(shù)的負梯度方向調(diào)整參數(shù),逐步逼近極小值。4

如此類推

步驟:算坡度,即計算當前參數(shù)下?lián)p失函數(shù)的梯度

(即“哪個方向最陡”);邁一步,即沿負梯度方向調(diào)整參數(shù):其中,θ是模型參數(shù),η是學習率;重復,即迭代上述過程,直到走到谷底(損失不再下降)。

2.3優(yōu)化方法2.3.1梯度下降法梯度下降法缺點:在非凸損失函數(shù)中,梯度下降可能收斂到局部最優(yōu)點而非全局最優(yōu)2.3優(yōu)化方法2.3.1梯度下降法梯度下降法缺點:在非凸損失函數(shù)中,梯度下降可能收斂到局部最優(yōu)點而非全局最優(yōu)在峽谷狀曲面(不同維度梯度差異大)中,參數(shù)更新路徑呈鋸齒形加動量項的梯度下降法梯度下降法2.3優(yōu)化方法2.3.1梯度下降法梯度下降法缺點:在非凸損失函數(shù)中,梯度下降可能收斂到局部最優(yōu)點而非全局最優(yōu)在峽谷狀曲面(不同維度梯度差異大)中,參數(shù)更新路徑呈鋸齒形對學習率敏感:學習率過小,收斂速度慢;學習率過大,在最優(yōu)值附近震蕩甚至發(fā)散大學習率:發(fā)散小學習率:收斂慢2.3優(yōu)化方法2.3.2加動量項的梯度下降法加動量項的梯度下降法相當于給AI裝上“慣性滑板”,即給參數(shù)更新加上“慣性”,我們把這個“慣性”稱為動量。當前下降方向=本次梯度+之前方向的慣性(動量)加動量項的梯度下降法梯度下降法梯度下降法加動量項的梯度下降法梯度下降方向動量方向?qū)嶋H下降方向目錄深度學習的核心組件CoreComponentsofDeepLearning033.1

全連接層

全連接層結(jié)構(gòu)全連接層計算方法3.1

全連接層思考:對于大小為1000×1000像素的輸入圖像,假設(shè)第一個全連接層有1000個節(jié)點,問該層的參數(shù)量為多少?輸入層節(jié)點數(shù):1000×1000=100萬第一層參數(shù)量:(1000×1000+1)×1000=10億!權(quán)重矩陣的參數(shù)量巨大,隨著輸入圖像尺寸的增大而激增對圖像處理的延展性差自然圖像中的物體都具有局部不變性特征,如尺度縮放、平移、旋轉(zhuǎn)等,全連接網(wǎng)絡(luò)很難提取這些局部不變特征3.2

卷積層CNN的重要里程碑1962年,Hubel和Wiesel在研究貓腦視覺皮層系統(tǒng)時,提出感受野(ReceptiveField)的概念,且發(fā)現(xiàn)視覺皮層對信息的分層處理機制,獲得了諾貝爾生理學或醫(yī)學獎。在視覺神經(jīng)系統(tǒng)中,一個神經(jīng)元的感受野指視網(wǎng)膜上的特定區(qū)域,只有這個區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。左視域右視域3.2

卷積層CNN的重要里程碑視覺信息從視網(wǎng)膜傳遞到大腦中是通過多個層次的感受野激發(fā)完成。像素邊緣局部區(qū)域完整物體3.2

卷積層卷積層的計算局部連接:不同于全連接層,卷積層的相鄰兩層神經(jīng)元是局部連接的,即第??層的神經(jīng)元只與第???1層的局部區(qū)域有連接,相連接的局部區(qū)域的大小稱為感受野;權(quán)值共享:卷積層對整個輸入數(shù)據(jù)特征(如圖像)進行一次卷積操作,不同局部區(qū)域使用同一個卷積核(即權(quán)重參數(shù)相同)。輸入卷積核輸入卷積核輸出3.2

卷積層卷積層的計算給定輸入矩陣??,卷積核??,卷積層的計算方式可記為:??=?????+??其中,*表示卷積操作,卷積核??是一個小矩陣,卷積核里的元素都是可訓練參數(shù)。??是偏置項,輸出的特征??稱為特征圖。

3.2

卷積層卷積層的參數(shù)設(shè)置(1)卷積核大?。??×??,大的卷積核感受野大,提取信息豐富,但是參數(shù)量和計算量也隨之

增加。常用的尺寸為??×??、??×??、??×??等。

3.2

卷積層卷積層的參數(shù)設(shè)置(2)卷積核個數(shù):實際操作中常在一個卷積層中設(shè)置多個卷積核,以提取不同特征。卷積核

個數(shù)直接關(guān)系輸出特征的通道維度。

3.2

卷積層卷積層的參數(shù)設(shè)置(3)填充:卷積層的輸入和輸出特征的尺寸是不一樣的,這是在輸入矩陣上滑動卷積核的操

作導致的。因此,可以根據(jù)需要在輸入特征外圍填充幾圈0,以得到相同尺寸的輸出特征。

00000000000000000000000000000000

填充一圈03.2

卷積層卷積層的參數(shù)設(shè)置(3)填充:卷積層的輸入和輸出特征的尺寸是不一樣的,這是在輸入矩陣上滑動卷積核的操

作導致的。因此,可以根據(jù)需要在輸入特征外圍填充幾圈0,以得到相同尺寸的輸出特征。

不用填充用填充

3.2

卷積層卷積層和全連接層的對比全連接層:輸入圖像32×32×3

3072×1向量,該層有10個神經(jīng)元,權(quán)重系數(shù)參數(shù)量為30720

10×30723072×1

卷積層:輸入圖像32*32*3(尺寸保持不變),卷積核尺寸為3×3×3,卷積核參數(shù)量為27

3.2

卷積層卷積層和全連接層的對比全連接層權(quán)重矩陣的參數(shù)量巨大對圖像處理的延展性差難以提取局部不變等特征卷積層局部連接計算效率高權(quán)值共享參數(shù)量少能夠保證局部、平移不變性等3.3

激活層激活函數(shù)??(·)是對生物神經(jīng)元“興奮”和“抑制”工作機制的模擬,它是神經(jīng)網(wǎng)絡(luò)中的非線性變換單元激活層是使用激活函數(shù)對輸入數(shù)據(jù)進行變換的網(wǎng)絡(luò)層,一般接在像全連接層和卷積層這樣的線性運算層后,為神經(jīng)網(wǎng)絡(luò)的計算引入非線性變換3.3

激活層激活函數(shù)的核心作用引入非線性:使網(wǎng)絡(luò)能夠擬合復雜函數(shù)(若無激活函數(shù),多層網(wǎng)絡(luò)等效單層線性變換);特征選擇性:決定神經(jīng)元是否激活以及激活強度;梯度調(diào)控:它是調(diào)節(jié)學習速率的“閥門”,影響反向傳播是的梯度流動。3.3

激活層3.3.1Sigmoid激活函數(shù)

3.3

激活層3.3.2

ReLU激活函數(shù)ReLU(RectifiedLinearUnit)函數(shù),即修正線性單元。它的計算公式為????????(??)=max(0,??),輸出值在[0,+∞)。當輸入為正數(shù)時,梯度恒為1,不會梯度飽和,能夠有效緩解梯度消失問題。ReLU函數(shù)的輸出也是非零中心化的。并且當輸入是負數(shù)時,輸出值和梯度恒為0,會帶來“死亡ReLU問題”,即神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元持續(xù)輸出0且梯度無法更新,對應權(quán)重在訓練過程中不再更新。3.4

池化層池化層是執(zhí)行池化操作的網(wǎng)絡(luò)層,它的主要作用是下采樣輸入特征,達到降低特征尺寸和特征抽象的目的。一般在卷積層后采用池化層。因為做完卷積操作以后,特征尺寸仍然很大,采用池化層可以降低特征維度,減少輸入至全連接層的參數(shù)量,達到加快計算速度、避免過擬合等目的。對于輸入維度為4×4的特征圖,池化窗口大小為2×2,滑動窗口步輻為2最大池化:在每個窗口位置計算最大值作為輸出平均池化:在每個窗口位置計算平均值作為輸出3.5

注意力機制深度學習中的注意力機制是模擬人類選擇性關(guān)注的認知過程。例如,人類視覺系統(tǒng)會快速聚焦關(guān)鍵區(qū)域,大腦會優(yōu)先處理重要信息等。通過引入注意力機制,深度神經(jīng)網(wǎng)絡(luò)能夠自動學習重點關(guān)注輸入數(shù)據(jù)的哪些信息,為關(guān)鍵信息分配更高的權(quán)重。注意力機制通常應用于序列數(shù)據(jù),如文本、語音、圖像序列等。它的數(shù)學本質(zhì)是動態(tài)特征重加權(quán),即給序列中不同的元素分配不同的權(quán)重,將更多的注意力分配給更相關(guān)的元素。3.5

注意力機制輸入序列數(shù)據(jù)為[x1,x2,x3],假設(shè)分別對序列中的每個元素x??

進行編碼,得到三個獨立的特征q??k??v??。把q??看做當前需要查詢的目標(query),即當前元素的特征表示;k??看做鍵(key),即元素的重要特征表示;v??看做值(value),即元素本身特征表示;2.根據(jù)查詢q??

和鍵k??計算元素x??和x??間的注意力分數(shù)

其中,表示兩者的相關(guān)程度,計算方式有很多,如余弦相似性等;3.將注意力分數(shù)作為權(quán)重,對值v??

進行加權(quán)求和,。3.5

注意力機制輸入序列數(shù)據(jù)為[x1,x2,x3,x4],假設(shè)分別對序列中的每個元素x??

進行編碼,得到三個

獨立的特征q??k??v??。把q??看做當前需要查詢的目標(query),即當前元素的特征表

示;k??看做鍵(key),即元素的重要特征表示;v??看做值(value),即元素本身特征表示;2.根據(jù)查詢q??

和鍵k??計算元素x??和x??間的注意力分數(shù)

其中,表示兩者的相關(guān)程度,計算方式有很多,如余弦相似性等;3.將注意力分數(shù)作為權(quán)重,對值v??

進行加權(quán)求和,。在實際操作中,我們將序列中的元素特征放在一起做整體運算,因而可以將上述過程寫成更緊湊的形式3.5

注意力機制

2.計算注意力得分矩陣3.計算重組特征目錄經(jīng)典深度神經(jīng)網(wǎng)絡(luò)ClassicDeepNeuralNetwork044.1卷積神經(jīng)網(wǎng)絡(luò)1990年,貝爾實驗室的學者YannLeCun面對銀行支票上的手寫數(shù)字識別(如郵政編碼、金額等)的實際需求,提出卷積神經(jīng)網(wǎng)絡(luò)LeNet,首次將反向傳播算法與CNN相結(jié)合,訓練出可端到端學習的網(wǎng)絡(luò)LeNet早期成功應用于美國郵政署(USPS)的郵件分揀系統(tǒng)和銀行支票處理,是第一個成功應用的CNN架構(gòu),奠定了現(xiàn)代深度學習的基礎(chǔ)設(shè)計4.1卷積神經(jīng)網(wǎng)絡(luò)4.1.1

AlexNet2012年,Hinton的學生Alex等人提出AlexNet,該網(wǎng)絡(luò)在當年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中以15.3%的錯誤率奪冠(第二名26.2%),激起了AI研究的第三次浪潮AlexNet核心架構(gòu)繼承自LeNet,由5個卷積層和3個全連接層組成,每個卷積層后都有ReLU激活層和最大池化層4.1卷積神經(jīng)網(wǎng)絡(luò)4.1.1

AlexNetAlexNet確立了“卷積層堆疊+全連接分類頭”的標準卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)范式,它提取的特征具有可遷移性,其中倒數(shù)第二個全連接層輸出的特征在其他任務中表現(xiàn)優(yōu)異缺陷:AlexNet的全連接層占參數(shù)量的98%,而且大卷積核(11×11)的計算效率低,這些都限制了它的計算速度4.1卷積神經(jīng)網(wǎng)絡(luò)4.1.2VGG2014年,牛津大學VisualGeometryGroup(VGG組)提出VGG網(wǎng)絡(luò),獲得當年ILSVRC挑戰(zhàn)賽定位任務第一名,分類任務第二名。該工作系統(tǒng)研究了網(wǎng)絡(luò)深度與性能的關(guān)系,確立了3×3卷積的統(tǒng)治地位VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)包含5個卷積模塊和3個全連接層,每個卷積模塊包含2或3個3×3卷積層,每個卷積層后接ReLU激活層,模塊最后接最大池化層4.1卷積神經(jīng)網(wǎng)絡(luò)4.1.2VGGVGG的優(yōu)勢在于:等效感受野:2層3×3卷積≈1層5×5卷積(感受野為5×5);參數(shù)量對比:3層3×3卷積層:3×3×3=27,1層7×7卷積層:7×7=49。VGG網(wǎng)絡(luò)采用小卷積核,它能夠捕捉更細粒度的特征,并且通過堆疊多層卷積來增強非線性程度,提升了特征表示能力。與AlexNet相比,VGG的參數(shù)量減少28%。缺陷:VGG也面臨“深度瓶頸”問題,超過19層后梯度消失嚴重,同時小卷積核導致深層網(wǎng)絡(luò)計算效率低下4.1卷積神經(jīng)網(wǎng)絡(luò)4.1.3

ResNet2015年,微軟研究院團隊提出殘差神經(jīng)網(wǎng)絡(luò),獲得當年ILSVRC挑戰(zhàn)賽分類任務第1名ResNet中的殘差模塊能夠解決網(wǎng)絡(luò)深度增加導致的梯度消失、梯度爆炸和性能退化問題與普通的有兩層卷積層的網(wǎng)絡(luò)模塊相比,殘差模塊多了一個跳躍連接結(jié)構(gòu)。殘差模塊的輸出特征為??(x)=??(x)+x,其中??(x)=??(x)?x稱為殘差。4.1卷積神經(jīng)網(wǎng)絡(luò)4.1.3

ResNet正是由于殘差學習機制,訓練ResNet過程中,反向傳播時梯度可直通底層,訓練1000層網(wǎng)絡(luò)仍能收斂,而傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)超過20層性能即急劇下降4.2

循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)用于處理序列數(shù)據(jù)(語音、文本、視頻等)。序列數(shù)據(jù)是指按特定順序排列的數(shù)據(jù)集合,其中元素的位置關(guān)系和出現(xiàn)時序承載關(guān)鍵信息設(shè)計靈感來源于人類大腦對時間序列信息的處理方式,它能夠記憶之前的信息,并將其用于當前的計算。語音識別Thequickbrownfoxjumpedoverthelazydog.音樂生成情感分類Thereisnothingtolikeinthismovie.機器翻譯Voulez-vouschanteravecmoi?Doyouwanttosingwithme?視頻行為識別Running4.2

循環(huán)神經(jīng)網(wǎng)絡(luò)命名實體識別是自然語言處理中的一個重要任務,其目標是從文本中識別出具有特定意義的實體,如人名、地名、組織名、日期等。HarryPotterandHermioneGrangerinventedanewspell.輸入

HarryPotterandHermioneGrangerinventedanewspell.輸出

4.2

循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)包含輸入層、隱藏層和輸出層。文本被逐詞輸入到網(wǎng)絡(luò)中,循環(huán)神經(jīng)網(wǎng)絡(luò)利用隱藏層的狀態(tài)來記憶之前的信息,從而更好地理解上下文信息。在第??時間步處理第??個輸入的單詞????,每個時間步共享參數(shù):

4.2

循環(huán)神經(jīng)網(wǎng)絡(luò)傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在處理長序列時容易出現(xiàn)梯度消失或梯度爆炸問題,導致模型難以學習到長距離依賴關(guān)系。為了解決這一問題,研究者們提出了長短時記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)兩種變體LSTM的結(jié)構(gòu)包括輸入門、遺忘門和輸出門,通過這些門控機制,LSTM能夠控制信息的流動,從而更好地記憶和遺忘信息GRU的結(jié)構(gòu)包括更新門和重置門,能夠在一定程度上解決梯度消失問題,同時減少了計算復雜度,訓練速度更快,適用于一些對計算資源有限制的應用場景4.2

循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)勢:它支持動態(tài)輸入,允許變長序列。它在所有時間步共享參數(shù),計算效率較高循環(huán)神經(jīng)網(wǎng)絡(luò)缺陷:傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失或梯度爆炸的問題,LSTM和GRU僅能部分緩解在計算過程中,需按照時間步順序進行計算,難以并行處理輸入數(shù)據(jù),訓練速度較慢訓練過程采用隨時間反向傳播算法進行,這使得訓練過程較為復雜,計算成本較高特性RNNLSTMGRU門控機制無輸入門、遺忘門、輸出門更新門、重置門記憶單元參數(shù)數(shù)量最少最多(約RNN的3-4倍)中等(比LSTM少約1/3)長序列表現(xiàn)差(梯度消失)優(yōu)秀較好(略遜于LSTM)訓練速度最快慢較快適用場景短序列、低復雜度任務長序列、高精度需求任務中等序列、效率優(yōu)先任務4.3TransformerTransformer網(wǎng)絡(luò)是一種基于注意力機制的深度學習架構(gòu),旨在解決循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體在處理長序列數(shù)據(jù)時的效率和性能問題Transformer意指通過自注意力機制(Self-Attention)實現(xiàn)序列信息的“變形”(Transform)與融合,它采用自注意力機制動態(tài)地關(guān)注序列中的重要部分,從而更好地捕捉長距離依賴關(guān)系,并且可以并行化訓練,大大提高了訓練速度,因而在處理自然語言和圖像等序列數(shù)據(jù)時具有顯著優(yōu)勢4.3Transformer編碼器:(1)多頭自注意力模塊:通過多個注意力頭同時處理輸入序列,每個注意力頭利用自注意力機制關(guān)注序列的不同部分,從而捕捉序列中的多種特征

(2)前饋神經(jīng)網(wǎng)絡(luò)模塊:是一個簡單的全連接神經(jīng)網(wǎng)絡(luò),之后對每個位置的特征進行非線性變換。4.3Transformer解碼器:掩碼多頭自注意力模塊:計算注意力時使用掩碼來防止解碼器看到未來的信息

編碼器-解碼器交叉注意力模塊:允許解碼器關(guān)注編碼器的輸出,計算公式與多頭自注意

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論