人工智能深度學習與神經(jīng)網(wǎng)絡(luò)2-_第1頁
人工智能深度學習與神經(jīng)網(wǎng)絡(luò)2-_第2頁
人工智能深度學習與神經(jīng)網(wǎng)絡(luò)2-_第3頁
人工智能深度學習與神經(jīng)網(wǎng)絡(luò)2-_第4頁
人工智能深度學習與神經(jīng)網(wǎng)絡(luò)2-_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_參考講義深度學習 第4-5章:4.3,5.9 第6章:6.1,6.2,6.3,6.4,6.5 第9章: 9.1-9.3動手學深度學習 第5章:5.1,5.2,5.3,5.4,5.7 第6章:6.1,6.2,6.6,6.7,6.8參考講義深度學習 主要內(nèi)容深度學習基礎(chǔ)基于梯度的學習,隱藏單元,架構(gòu)設(shè)計正向傳播、反向傳播和計算圖模型構(gòu)造,參數(shù)初始化策略卷積神經(jīng)網(wǎng)絡(luò)卷積層,通道,池化層卷積神經(jīng)網(wǎng)絡(luò)(LeNet),VGG,殘差網(wǎng)絡(luò)ResNet循環(huán)神經(jīng)網(wǎng)絡(luò):序列建模循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,雙向RNN,深度循環(huán)網(wǎng)絡(luò)門控循環(huán)單元GRU,長短期記

2、憶LSTM優(yōu)化算法主要內(nèi)容深度學習基礎(chǔ)主要內(nèi)容深度學習基礎(chǔ)基于梯度的學習,隱藏單元,架構(gòu)設(shè)計正向傳播、反向傳播和計算圖模型構(gòu)造,參數(shù)初始化策略卷積神經(jīng)網(wǎng)絡(luò)卷積層,通道,池化層卷積神經(jīng)網(wǎng)絡(luò)(LeNet),VGG,殘差網(wǎng)絡(luò)ResNet循環(huán)神經(jīng)網(wǎng)絡(luò):序列建模循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,雙向RNN,深度循環(huán)網(wǎng)絡(luò)門控循環(huán)單元GRU,長短期記憶LSTM優(yōu)化算法主要內(nèi)容深度學習基礎(chǔ)深度學習基礎(chǔ)深度學習算法都可以被描述為:特定的數(shù)據(jù)集、損失函數(shù)、優(yōu)化過程和模型模型是 ,優(yōu)化過程可以定義為求解損失函數(shù)梯度為零。神經(jīng)網(wǎng)絡(luò)和線性模型的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導致大多數(shù)我們感興趣的代價函數(shù)都變得非凸。深度學習基礎(chǔ)深度學

3、習算法都可以被描述為:特定的數(shù)據(jù)集、深度學習基礎(chǔ)當模型和損失函數(shù)形式較為簡單時,上的誤差最小化問題的解可以直接公式表達出來。這類解叫做解析解( analytical solution)。多數(shù)深度學習模型只能通過優(yōu)化算法有限次迭代模型參數(shù)來盡可能降低損失函數(shù)的值。這類解叫做數(shù)值解( numerical solution)。小批量(mini-batch) 樣本的隨機梯度下降(stochastic gradient descent, SGD)。算法實現(xiàn)過程:深度學習基礎(chǔ)當模型和損失函數(shù)形式較為簡單時,上的誤差最小化深度學習基礎(chǔ)先選取組模型參數(shù)的初始值,例如隨機選?。唤酉聛韺?shù)進多次迭代,使得每次迭

4、代都可能降低損失函數(shù)的值。在每次迭代中,先隨機例均勻采樣個由固定數(shù)訓練數(shù)據(jù)樣本所組成的小批量 ;然后求小批量中數(shù)據(jù)樣本的平均損失有關(guān)模型參數(shù)的導數(shù)(梯度);最后此結(jié)果與預先設(shè)定的個正數(shù)的乘積作為模型參數(shù)在本次迭代的減小量。深度學習基礎(chǔ)先選取組模型參數(shù)的初始值,例如隨機選??;接下來深度學習基礎(chǔ)如針對模型 ,可定義平方損失函數(shù)通常,我們用訓練數(shù)據(jù)集中所有樣本誤差的平均來衡量模型預測的質(zhì)量,即在模型訓練中,我們希望找出組模型參數(shù),記為 ,來使得訓練樣本平均損失最?。荷疃葘W習基礎(chǔ)如針對模型 深度學習基礎(chǔ)此模型中,其中, 代表每個小批量中的樣本個數(shù)(批量小, batch size), 稱作學習率( le

5、arning rate)并取正數(shù)。這的批量小和學習率的值是為設(shè)定的,并不是通過模型訓練學出的,因此叫做超參數(shù)( hyperparameter)。深度學習基礎(chǔ)此模型中,深度學習基礎(chǔ)梯度下降( gradient descent)假設(shè)連續(xù)可導的函數(shù) f : R R 的輸和輸出都是標量這 f(x) 是函數(shù) f 在 x 處的梯度。維函數(shù)的梯度是個標量,也稱導數(shù)。找到個常數(shù) 0,使得 |f(x)| 夠小,那么可以將 替換為 f(x) 并得到深度學習基礎(chǔ)梯度下降( gradient descent)深度學習基礎(chǔ)這意味著,如果我們通過來迭代 x,函數(shù) f(x) 的值可能會降低。因此在梯度下降中,我們先選取個初

6、始值 x 和常數(shù) 0,然后不斷通過上式來迭代 x,直到達到停條件,例如 的值已夠小或迭代次數(shù)已達到某個值。深度學習基礎(chǔ)人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_深度學習基礎(chǔ)隱藏層:不同于輸出層,訓練數(shù)據(jù)并沒有直接指明其他層應(yīng)該怎么做。學習算法必須決定如何使用這些層來產(chǎn)生想要的輸出,但是訓練數(shù)據(jù)并沒有說每個單獨的層應(yīng)該做什么。相反,學習算法必須決定如何使用這些層來最好地實現(xiàn) 的近似。因為訓練數(shù)據(jù)并沒有給出這些層中的每一層所需的輸出,所以這些層被稱為 隱藏層(hidden layer)。深度學習基礎(chǔ)隱藏層

7、:不同于輸出層,訓練數(shù)據(jù)并沒有直接指明其他深度學習基礎(chǔ)該如何選擇隱藏單元的類型,這些隱藏單元用在模型的隱藏層中。如整流線性單元大多數(shù)的隱藏單元都可以描述為接受輸入向量 x,計算仿射變換 ,然后使用一個逐元素的非線性函數(shù) g(z)。logistic sigmoid 激活函數(shù)雙曲正切激活函數(shù)深度學習基礎(chǔ)該如何選擇隱藏單元的類型,這些隱藏單元用在模型的深度學習基礎(chǔ)架構(gòu)設(shè)計架構(gòu)(architecture)一詞是指網(wǎng)絡(luò)的整體結(jié)構(gòu):它應(yīng)該具有多少單元,以及這些單元應(yīng)該如何連接。大多數(shù)是鏈式結(jié)構(gòu):主要的架構(gòu)考慮是選擇網(wǎng)絡(luò)的深度和每一層的寬度。萬能近似定理。另外一個關(guān)鍵點是如何將層與層之間連接起來。深度學習基

8、礎(chǔ)架構(gòu)設(shè)計架構(gòu)(architecture)一詞是深度學習基礎(chǔ)深度學習基礎(chǔ)深度學習基礎(chǔ)正向傳播、反向傳播和計算圖正向傳播深度學習基礎(chǔ)正向傳播、反向傳播和計算圖正向傳播深度學習基礎(chǔ)反向傳播:指的是計算神經(jīng)絡(luò)參數(shù)梯度的法??偟膩碚f,依據(jù)微積分中的鏈式法則,沿著從輸出層到輸層的順序,依次計算并存儲標函數(shù)有關(guān)神經(jīng)絡(luò)各層的中間變量以及參數(shù)的梯度。對輸輸出 X, Y, Z 為任意形狀張量的函數(shù) Y = f(X) 和 Z = g(Y),通過鏈式法則,我們有深度學習基礎(chǔ)反向傳播:指的是計算神經(jīng)絡(luò)參數(shù)梯度的法。總的例子中,它的參數(shù)是 W (1) 和 W (2),因此反向傳播的目標是計算 J/W (1)和 J/W

9、(2)。應(yīng)用鏈式法則依次計算各中間變量和參數(shù)的梯度,其計算次序與前向傳播中相應(yīng)中間變量的計算次序相反。首先,分別計算目標函數(shù) J = L + s 有關(guān)損失項 L 和正則項 s的梯度:例子中,它的參數(shù)是 W (1) 和 W (2),因此反向傳播深度學習基礎(chǔ)深度學習基礎(chǔ)在訓練深度學習模型時,正向傳播和反向傳播之間相互依賴。,正向傳播的計算可能依賴于模型參數(shù)的當前值。而這些模型參數(shù)是在反向傳播的梯度計算后通過優(yōu)化算法迭代的。例如,計算正則化項另,反向傳播的梯度計算可能依賴于各變量的當前值。而這些變量的當前值是通過正向傳播計算得到的。如 參數(shù)梯度 需要依賴隱藏層變量的當 前值 h。在訓練深度學習模型時

10、,正向傳播和反向傳播之間相互依賴。主要內(nèi)容深度學習基礎(chǔ)基于梯度的學習,隱藏單元,架構(gòu)設(shè)計正向傳播、反向傳播和計算圖模型構(gòu)造,參數(shù)初始化策略卷積神經(jīng)網(wǎng)絡(luò)卷積層,通道,池化層卷積神經(jīng)網(wǎng)絡(luò)(LeNet),VGG,殘差網(wǎng)絡(luò)ResNet循環(huán)神經(jīng)網(wǎng)絡(luò):序列建模循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,雙向RNN,深度循環(huán)網(wǎng)絡(luò)門控循環(huán)單元GRU,長短期記憶LSTM優(yōu)化算法主要內(nèi)容深度學習基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)CNN( convolutional neural network)是含有卷積層( convolutional layer)的神經(jīng)網(wǎng)絡(luò)。最常用的維卷積層。它有高和寬兩個空間維度,常用來處理圖像數(shù)據(jù)。卷積核(filter

11、)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)CNN( convolutional卷積神經(jīng)網(wǎng)絡(luò)維卷積層將輸和卷積核做互相關(guān)運算,并加上個標量偏差來得到輸出。卷積層的模型參數(shù)包括了卷積核和標量偏差。在訓練模型的時候,通常我們先對卷積核隨機初始化,然后不斷迭代卷積核和偏差。卷積神經(jīng)網(wǎng)絡(luò)維卷積層將輸和卷積核做互相關(guān)運算,并加上個卷積神經(jīng)網(wǎng)絡(luò)二維卷積層輸出的二維數(shù)組可以看作是輸入在空間維度(寬和高)上某級的表征,也叫特征圖( feature map)。影響元素 x 的前向計算的所有可能輸入?yún)^(qū)域(可能大于輸入的實際尺寸)叫做 x的感受野( receptive field)。 可以通過更深的卷積神經(jīng)網(wǎng)絡(luò)使特征圖中單個元素的感

12、受野變得更加闊,從而捕捉輸入上更大尺寸的特征卷積神經(jīng)網(wǎng)絡(luò)二維卷積層輸出的二維數(shù)組可以看作是輸入在空間維度卷積神經(jīng)網(wǎng)絡(luò)填充和步幅填充( padding)是指在輸和寬的兩側(cè)填充元素(通常是 0 元素)。圖 5.2 我們在原輸和寬的兩側(cè)分別添加了值為 0 的元素,使得輸和寬從 3 變成了 5,并導致輸出和寬由 2 增加到 4。卷積神經(jīng)網(wǎng)絡(luò)填充和步幅卷積神經(jīng)網(wǎng)絡(luò)般來說,如果在的兩側(cè)共填充 ph ,在寬的兩側(cè)共填充 pw 列,那么輸出形狀將會是卷積神經(jīng)網(wǎng)絡(luò)般來說,如果在的兩側(cè)共填充 ph ,在寬卷積神經(jīng)網(wǎng)絡(luò)步幅卷積窗口從輸數(shù)組的最左上開始,按從左往右、從上往下的順序,依次在輸數(shù)組上滑動。我們將每次滑動的

13、數(shù)和列數(shù)稱為步幅( stride)。卷積神經(jīng)網(wǎng)絡(luò)步幅卷積神經(jīng)網(wǎng)絡(luò)通道前到的輸和輸出都是維數(shù)組,但真實數(shù)據(jù)的維度經(jīng)常更。例如,彩圖像在和寬兩個維度外還有 RGB(紅、綠、藍)三個顏通道。假設(shè)彩圖像的和寬分別是 h 和w(像素),那么它在內(nèi)存中可以表為個 3 h w 的多維數(shù)組。我們將小為 3 的這維稱為通道 (channel)維。卷積神經(jīng)網(wǎng)絡(luò)通道卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)多輸出通道:當輸通道有多個時,由于我們對各個通道的結(jié)果做了累加,所以不論輸通道數(shù)是多少,輸出通道數(shù)總是為 1。設(shè)卷積核輸通道數(shù)和輸出通道數(shù)分別為 ci 和 co,和寬分別為 kh 和 kw。如果我們希望得到含多個通道的

14、輸出,我們可以為每個輸出通道分別創(chuàng)建形狀為 ci kh kw 的核數(shù)組。將它們在輸出通道維上連結(jié),卷積核的形狀即 co ci kh kw。在互相關(guān)運算時,每個輸出通道上的結(jié)果由卷積核在該輸出通道上的核數(shù)組與整個輸數(shù)組計算而來。卷積神經(jīng)網(wǎng)絡(luò)多輸出通道:當輸通道有多個時,由于我們對各個通卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)卷積窗口形狀為 1 1( kh = kw = 1)的多通道卷積層。我們通常稱之為 1 1 卷積層,并將其中的卷積運算稱為 1 1 卷積。因為使了最小窗口, 1 1 卷積失去了卷積層可以識別和寬維度上相鄰元素構(gòu)成的模式的功能。實際上, 1 1 卷積的主要計算發(fā)在通道維上。卷積神經(jīng)網(wǎng)

15、絡(luò)卷積窗口形狀為 1 1( kh = kw =卷積神經(jīng)網(wǎng)絡(luò)梯度消失/爆炸卷積神經(jīng)網(wǎng)絡(luò)梯度消失/爆炸卷積神經(jīng)網(wǎng)絡(luò) sigmoid導數(shù)最大值1/4卷積神經(jīng)網(wǎng)絡(luò)推導推導卷積神經(jīng)網(wǎng)絡(luò)解決方案預訓練加微調(diào):DBN,Hinton非飽和的激活函數(shù)(如 ReLU、leakrelu、elu)批量歸一化(Batch Normalization)梯度截斷(Gradient Clipping)殘差結(jié)構(gòu)好的參數(shù)初始化方式,如He初始化正則化LSTM卷積神經(jīng)網(wǎng)絡(luò)解決方案非飽和的激活函數(shù)ReLu非飽和的激活函數(shù)ReLu人工智能-深度學習與神經(jīng)網(wǎng)絡(luò)-2_BN( Batch Normalization )批量歸一化具有加速網(wǎng)絡(luò)

16、收斂速度,提升訓練穩(wěn)定性的效果。BN利小批量上的均值和標準差,不斷調(diào)整神經(jīng)絡(luò)中間輸出,從而使得整個神經(jīng)絡(luò)在各層的中間輸出的數(shù)值更穩(wěn)定通過對每一層的輸出規(guī)范為均值和方差一致的方法,消除了 帶來的放大縮小的影響,進而解決梯度消失和爆炸的問題BN( Batch Normalization )批量歸一化BN( Batch Normalization )對全連接層做BN:設(shè)全連接層的輸為 u,考慮由 m 個樣本組成的小批量求均值和差:這里 是個很小的常數(shù)。引了兩個可以學習的模型參數(shù),拉升( scale)參數(shù) 和偏移( shift)參數(shù) BN( Batch Normalization )對全連接層BN(

17、Batch Normalization )對卷積層做BNBN發(fā)在卷積計算之后、應(yīng)激活函數(shù)之前。如果卷積計算輸出多個通道,我們需要對這些通道的輸出分別做批量歸化,且每個通道都擁有獨的拉升和偏移參數(shù),且均為標量。設(shè)小批量中有 m 個樣本。在單個通道上,假設(shè)卷積計算輸出的和寬分別為 p 和 q。則對該通道中 m p q 個元素同時做BN。對這些元素做標準化計算時,我們使相同的均值和差,即該通道中 m p q BN( Batch Normalization )對卷積層做VGGVGGVGGVGGVGG特點:VGG由5層卷積層、3層全連接層、softmax輸出層構(gòu)成,層與層之間使用max-pooling(

18、最大化池)分開,所有隱層的激活單元都采用ReLU函數(shù)。VGG使用多個較小卷積核(3x3)的卷積層代替一個卷積核較大的卷積層,一方面可以減少參數(shù),另一方面相當于進行了更多的非線性映射,可以增加網(wǎng)絡(luò)的擬合/表達能力。VGG認為兩個3x3的卷積堆疊獲得的感受野大小,相當一個5x5的卷積;而3個3x3卷積的堆疊獲取到的感受野相當于一個7x7的卷積。這樣可以增加非線性映射,也能很好地減少參數(shù)。VGG特點:VGG6種結(jié)構(gòu)VGG6種結(jié)構(gòu)殘差網(wǎng)絡(luò)ResNet添加過多的層后收斂慢、訓練誤差增大?殘差網(wǎng)絡(luò)ResNet添加過多的層后收斂慢、訓練誤差增大?殘差網(wǎng)絡(luò)ResNet殘差網(wǎng)絡(luò)ResNet殘差網(wǎng)絡(luò)ResNet殘

19、差網(wǎng)絡(luò)結(jié)構(gòu)中,通過“shortcut connections”的方式,直接把輸入x傳到輸出作為初始結(jié)果,輸出結(jié)果為H(x)=F(x)+x,當F(x)=0時,那么H(x)=x,也就是上面所提到的恒等映射。于是,ResNet相當于將學習目標改變了,不再是學習一個完整的輸出,而是目標值H(X)和x的差值,也就是所謂的殘差F(x) := H(x)-x,因此,后面的訓練目標就是要將殘差結(jié)果逼近于0,使到隨著網(wǎng)絡(luò)加深,準確率不下降。殘差網(wǎng)絡(luò)ResNet殘差網(wǎng)絡(luò)ResNet性能提高殘差網(wǎng)絡(luò)ResNet性能提高殘差網(wǎng)絡(luò)ResNetWhy?殘差網(wǎng)絡(luò)ResNetWhy?殘差網(wǎng)絡(luò)ResNetWhy?理論上,對于“隨

20、著網(wǎng)絡(luò)加深,準確率下降”的問題,Resnet提供了兩種選擇方式,也就是identity mapping和residual mapping,如果網(wǎng)絡(luò)已經(jīng)到達最優(yōu),繼續(xù)加深網(wǎng)絡(luò),residual mapping將被push為0,只剩下identity mapping,這樣理論上網(wǎng)絡(luò)一直處于最優(yōu)狀態(tài)了,網(wǎng)絡(luò)的性能也就不會隨著深度增加而降低了。殘差網(wǎng)絡(luò)ResNetWhy?殘差網(wǎng)絡(luò)ResNet兩種ResNet設(shè)計兩種結(jié)構(gòu)分別針對ResNet34(左圖)和ResNet50/101/152 右圖),一般稱整個結(jié)構(gòu)為一個”building block“。其中右圖又稱為”bottleneck design”降低

21、參數(shù)的數(shù)目:1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 696323x3x256x256x2 = 1179648殘差網(wǎng)絡(luò)ResNet兩種ResNet設(shè)計殘差網(wǎng)絡(luò)ResNetChannel/Dimension不同?PaddingConvolution殘差網(wǎng)絡(luò)ResNetChannel/Dimension不同?殘差網(wǎng)絡(luò)ResNetResNet 50兩個基本blockIdentity BlockConv Block殘差網(wǎng)絡(luò)ResNetResNet 50殘差網(wǎng)絡(luò)ResNetIdentity Block:輸入和輸出的dimension一樣,可串聯(lián)多個殘差網(wǎng)絡(luò)ResNetI

22、dentity Block:輸入和輸出殘差網(wǎng)絡(luò)ResNetConv Block:輸入和輸出的dimension不一樣,不能連續(xù)串聯(lián)。本來作用為了改變特征向量的dimension殘差網(wǎng)絡(luò)ResNetConv Block:輸入和輸出的dim殘差網(wǎng)絡(luò)ResNetResNet五種結(jié)構(gòu):殘差網(wǎng)絡(luò)ResNetResNet五種結(jié)構(gòu):主要內(nèi)容深度學習基礎(chǔ)基于梯度的學習,隱藏單元,架構(gòu)設(shè)計正向傳播、反向傳播和計算圖模型構(gòu)造,參數(shù)初始化策略卷積神經(jīng)網(wǎng)絡(luò)卷積層,通道,池化層卷積神經(jīng)網(wǎng)絡(luò)(LeNet),VGG,殘差網(wǎng)絡(luò)ResNet循環(huán)神經(jīng)網(wǎng)絡(luò):序列建模循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,雙向RNN,深度循環(huán)網(wǎng)絡(luò)門控循環(huán)單元GRU,長

23、短期記憶LSTM優(yōu)化算法主要內(nèi)容深度學習基礎(chǔ)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)絡(luò)( recurrentneural networks,RNN)被設(shè)計用來更好地處理時序信息。它引狀態(tài)變量來存儲過去的信息,并與當前的輸共同決定當前的輸出循環(huán)神經(jīng)絡(luò)常用于處理序列數(shù)據(jù),例如段字或聲、購物或觀影的順序、甚至是圖像中的行或列像素。因此,循環(huán)神經(jīng)絡(luò)在實際中有著極為泛的應(yīng)用,如語模型、本分類、機器翻譯、語識別、圖像分析、寫識別和推薦系統(tǒng)。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)絡(luò)( recurrentneur循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型給定個度為T 的詞的序列:語模型將計算該序列的概率:語模型可于提升語識別和機器翻譯的性能。例,語識

24、別中,“廚房油完了”廚房油完了 ? 廚房油完了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型給定個度為T 的詞的序列:循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型語言模型的計算假設(shè)序列 中的每個詞是依次生成的,有需要計算詞的概率,以及個詞在給定前個詞情況下的條件概率,即語模型參數(shù)。詞的概率可以通過該詞在訓練數(shù)據(jù)集中的相對詞頻來計算。當序列度增加時,計算和存儲多個詞共同出現(xiàn)的概率的復雜度會呈指數(shù)級增加。 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型語言模型的計算循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型N 元語法N 元語法通過馬爾可夫假設(shè),個詞的出現(xiàn)只與前面 n 個詞相關(guān),即 n 階爾可夫鏈( Markov chain of order n)。如果 n = 1,那么

25、有 。如果基于 n 1 階爾可夫鏈,我們可以將語模型改寫為循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型N 元語法N 元語法通過馬爾可循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型例如,度為 4 的序列 在元、二元和三元語法中的概率分別為: N的長度?循環(huán)神經(jīng)網(wǎng)絡(luò)RNN語言模型例如,度為 4 的序列 循環(huán)神經(jīng)網(wǎng)絡(luò)RNNRNN并剛性地記憶所有固定長度的序列,而是通過隱藏狀態(tài)來儲存之前時間步的信息。不含隱藏狀態(tài)的神經(jīng)網(wǎng)絡(luò)考慮個單隱藏層的多層感知機:循環(huán)神經(jīng)網(wǎng)絡(luò)RNNRNN并剛性地記憶所有固定長度的序列,而循環(huán)神經(jīng)網(wǎng)絡(luò)RNN含隱藏狀態(tài)的循環(huán)神經(jīng)絡(luò)考慮輸數(shù)據(jù)存在時間相關(guān)性的情況。假設(shè) 是序列中時間步 t 的小批量輸, 是該時間步的隱藏層變量

26、。跟MLP不同的是,這里我們保存上時間步的隱藏變量 ,并引個新的權(quán)重參數(shù) , 當前時間步的隱藏變量的計算由當前時間步的輸和上時間步的隱藏變量共同決定:在時間步 t,輸出層的輸出和多層感知機中的計算類似:循環(huán)神經(jīng)網(wǎng)絡(luò)RNN含隱藏狀態(tài)的循環(huán)神經(jīng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN含隱藏狀態(tài)的循環(huán)神經(jīng)絡(luò)在時間步 t,隱藏狀態(tài)的計算可以看成是將輸 和 前時間步隱藏狀態(tài) 連結(jié)后輸個激活函數(shù)為 的全連接層。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN含隱藏狀態(tài)的循環(huán)神經(jīng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN與MLP相比,我們在這添加了 項。由上式中相鄰時間步的隱藏變量 和 之間的關(guān)系可知,這里的隱藏變量捕捉了截至當前時間步的序列的歷史信息,就像是神經(jīng)絡(luò)當前時間步的

27、狀態(tài)或記憶樣。因此,該隱藏變量也稱為隱藏狀態(tài)。由于隱藏狀態(tài)在當前時間步的定義使用了它在上時間步相同的定義,上式的計算是循環(huán)的。使用循環(huán)計算的網(wǎng)絡(luò)即循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN與MLP相比,我們在這添加了 循環(huán)神經(jīng)網(wǎng)絡(luò)RNN應(yīng):基于字符級循環(huán)神經(jīng)絡(luò)的語模型循環(huán)神經(jīng)網(wǎng)絡(luò)RNN應(yīng):基于字符級循環(huán)神經(jīng)絡(luò)的語模型循環(huán)神經(jīng)網(wǎng)絡(luò)RNNOne-hot 向量循環(huán)神經(jīng)網(wǎng)絡(luò)RNNOne-hot 向量循環(huán)神經(jīng)網(wǎng)絡(luò)RNN通過時間反向傳播循環(huán)神經(jīng)網(wǎng)絡(luò)RNN通過時間反向傳播循環(huán)神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RNN門控循環(huán)單元( gated recurrent ne

28、ural network,GRU)短期記憶( long short-term memory, LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN門控循環(huán)單元( gated recurre控循環(huán)單元( GRU)GRU( gated recurrent neural network)控循環(huán)單元( GRU)GRU( gated recurr控循環(huán)單元( GRU)重置和更新控循環(huán)單元( GRU)重置和更新控循環(huán)單元( GRU)候選隱藏狀態(tài)控循環(huán)單元( GRU)候選隱藏狀態(tài)控循環(huán)單元( GRU)隱藏狀態(tài)控循環(huán)單元( GRU)隱藏狀態(tài)控循環(huán)單元( GRU)重置有助于捕捉時間序列短期的依賴關(guān)系。 更新有助于捕捉時間序列期的依賴關(guān)

29、系??匮h(huán)單元( GRU)重置有助于捕捉時間序列短期的依短期記憶( LSTM)LSTM( long short-term memory)短期記憶( LSTM)LSTM( long short-t短期記憶( LSTM)短期記憶的隱藏層輸出包括隱藏狀態(tài)和記憶細胞。只有隱藏狀態(tài)會傳遞進輸出層。 短期記憶的輸、遺忘和輸出可以控制信息的流動。 短期記憶可以應(yīng)對循環(huán)神經(jīng)絡(luò)中的梯度衰減問題,并更好地捕捉時間序列中時間步距離較的依賴關(guān)系。短期記憶( LSTM)短期記憶的隱藏層輸出包括隱藏狀態(tài)和主要內(nèi)容深度學習基礎(chǔ)基于梯度的學習,隱藏單元,架構(gòu)設(shè)計正向傳播、反向傳播和計算圖模型構(gòu)造,參數(shù)初始化策略卷積神經(jīng)網(wǎng)絡(luò)卷

30、積層,通道,池化層卷積神經(jīng)網(wǎng)絡(luò)(LeNet),VGG,殘差網(wǎng)絡(luò)ResNet循環(huán)神經(jīng)網(wǎng)絡(luò):序列建模循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,雙向RNN,深度循環(huán)網(wǎng)絡(luò)門控循環(huán)單元GRU,長短期記憶LSTM優(yōu)化算法主要內(nèi)容深度學習基礎(chǔ)優(yōu)化算法SGD缺點:選擇合適的learning rate比較困難對所有的參數(shù)更新使用同樣的learning rate。對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些對于不經(jīng)常出現(xiàn)的特征,對于常出現(xiàn)的特征更新慢一些,這時候SGD就不太能滿足要求了SGD容易收斂到局部最優(yōu),在某些情況下可能被困在鞍點batch gradient descent, stochastic gradient descent, mini-batch gradient descent優(yōu)化算法SGD缺點:優(yōu)化算法損失平面等高線優(yōu)化算法損失平面等高線優(yōu)化算法鞍點處的比較優(yōu)化算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論