




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、深度學(xué)習(xí)的最優(yōu)化方法比較-最優(yōu)化理論報告姓名:陸家雙學(xué)號:182201181梯度下降算法針對凸優(yōu)化問題原則上是可以收斂到全局最優(yōu)的,因為此時只有唯一的局 部最優(yōu)點。而實際上深度學(xué)習(xí)模型是一個復(fù)雜的非線性結(jié)構(gòu),一般屬于非凸問題,這意味著 存在很多局部最優(yōu)點(鞍點),采用梯度下降算法可能會陷入局部最優(yōu),這應(yīng)該是最頭疼的 問題。這點和進化算法如遺傳算法很類似,都無法保證收斂到全局最優(yōu)??梢钥吹剑荻认?降算法中一個重要的參數(shù)是學(xué)習(xí)速率,適當(dāng)?shù)膶W(xué)習(xí)速率很重要:學(xué)習(xí)速率過小時收斂速度慢, 而過大時導(dǎo)致訓(xùn)練震蕩,而且可能會發(fā)散。理想的梯度下降算法要滿足兩點:收斂速度要快; 能全局收斂。為了這個理想,出現(xiàn)了
2、很多經(jīng)典梯度下降算法的改進。SGD梯度下降算法(Gradient Descent Optimization)是神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練最常用的優(yōu)化算法。梯度下降算法背后的原理:目標(biāo)函數(shù)J( )關(guān)于參數(shù)。的梯度將是目標(biāo)函數(shù)上升最快的方向,對于最小化優(yōu)化問題,只需要將參數(shù)沿著梯度相反的方向前進一個步長(學(xué) 習(xí)速率),就可以實現(xiàn)目標(biāo)函數(shù)的下降。參數(shù)更新公式如下:。FV J ()0其中V J ()是參數(shù)的梯度。根據(jù)計算目標(biāo)函數(shù)J (0)采用數(shù)據(jù)量的大小,梯度下降算法又可以分為批量梯度下降算 法(Batch Gradient Descent),隨機梯度下降算法(Stochastic GradientDescen
3、t)和小批 量梯度下降算法(Mini-batch Gradient Descent)。批量梯度下降算法,J()是在整個訓(xùn)練集上計算的,如果數(shù)據(jù)集比較大,可能會面 臨內(nèi)存不足問題,而且其收斂速度一般比較慢。隨機梯度下降算法,J()是針對訓(xùn)練集中的一個訓(xùn)練樣本計算的,又稱為在線學(xué)習(xí), 即得到了一個樣本,就可以執(zhí)行一次參數(shù)更新。所以其收斂速度會快一些,但是有 可能出現(xiàn)目標(biāo)函數(shù)值震蕩現(xiàn)象,因為高頻率的參數(shù)更新導(dǎo)致了高方差。小批量梯度下降算法,是折中方案,選取訓(xùn)練集中一個小批量樣本計算,這樣可以 保證訓(xùn)練過程更穩(wěn)定,而且采用批量訓(xùn)練方法也可以利用矩陣計算的優(yōu)勢。這是目 前最常用的梯度下降算法。momen
4、tumSGD方法的一個缺點是,其更新方向完全依賴于當(dāng)前的batch,因而其更新十分不 穩(wěn)定,每次迭代計算的梯度含有比較大的噪音。解決這一問題的一個簡單的做法便是引 入momentum,momentum即動量,是BorisPolyak在1964年提出的,其基于物體運動 時的慣性:將一個小球從山頂滾下,其初始速率很慢,但在加速度作用下速率很快增加, 并最終由于阻力的存在達到一個穩(wěn)定速率,即更新的時候在一定程度上保留之前更新的 方向,同時利用當(dāng)前batch的梯度微調(diào)最終的更新方向。這樣一來,可以在一定程度上增加穩(wěn)定性,從而學(xué)習(xí)地更快,并且還有一定擺脫局部最優(yōu)的能力。掌握單純形法的理 論依據(jù)、基本思想
5、和最優(yōu)性檢驗定理,熟練用大M法和兩階段求解線性規(guī)劃問題,理 解構(gòu)造的新問題和原問題的解的關(guān)系。其更新方法如下:可以看到,參數(shù)更新時不僅考慮當(dāng)前梯度值,而且加上了一個動量項 m,但多了一 個超參Y,通常Y設(shè)置為0.5,直到初始學(xué)習(xí)穩(wěn)定,然后增加到0.9或更高。相比原始梯度 下降算法,動量梯度下降算法有助于加速收斂。當(dāng)梯度與動量方向一致時,動量項會增加, 而相反時,動量項減少,因此動量梯度下降算法可以減少訓(xùn)練的震蕩過程??梢钥吹?,參數(shù) 更新時不僅考慮當(dāng)前梯度值,而且加上了一個動量項 m,但多了一個超參Y,通常Y設(shè) 置為0.5,直到初始學(xué)習(xí)穩(wěn)定,然后增加到0.9或更高。相比原始梯度下降算法,動量梯度
6、 下降算法有助于加速收斂。當(dāng)梯度與動量方向一致時,動量項會增加,而相反時,動量項減 少,因此動量梯度下降算法可以減少訓(xùn)練的震蕩過程。NAGNAG(Nesterov Accelerated Gradient),由 Ilya Sutskever(2012 unpublished)在 Nesterov 工作的啟發(fā)下提出的。對動量梯度下降算法的改進版本,其速度更快。其變化之處在于計算 “超前梯度”更新動量項Y m,具體公式如下:既然參數(shù)要沿著動量項y m更新,不妨計算未來位置0 -丫 m)的梯度,然后合并兩項作為最終的更新項。效果示意圖如下:Starting pointoptimumRegular m
7、omentum updateStarting pointoptimumRegular momentum updateAdaGradAdaGrad是Duchi在2011年提出的一種學(xué)習(xí)速率自適應(yīng)的梯度下降算法。在訓(xùn)練 迭代過程,其學(xué)習(xí)速率是逐漸衰減的,經(jīng)常更新的參數(shù)其學(xué)習(xí)速率衰減更快,這是一種 自適應(yīng)算法。其更新過程如下:8 = n c m8 + 堂 g g,;i=1每步迭代過程:從訓(xùn)練集中的隨機抽取一批容量為m的樣本x1,xm,以及相關(guān)的輸出yi計算梯度和誤差,更新r-再根據(jù)r和梯度計算參數(shù)更新量:g - -0蕓 L(f (x ;9), y )m 9 i ii丫 丫 + gOg-8 一A0 =
8、Og8 +理9 9+A9由于梯度平方的累計量r逐漸增加的,那么學(xué)習(xí)速率是衰減的??紤]下圖所示的情 況,目標(biāo)函數(shù)在兩個方向的坡度不一樣,如果是原始的梯度下降算法,在接近坡底時收 斂速度比較慢。而當(dāng)采用AdaGrad,這種情況可以被改善。由于比較陡的方向梯度比較 大,其學(xué)習(xí)速率將衰減得更快,這有利于參數(shù)沿著更接近坡底的方向移動,從而加速收 斂。對于每個參數(shù),隨著其更新的總距離增多,其學(xué)習(xí)速率也隨之變慢。RMSPropRMSprop是對Adagrad算法的改進,主要是解決。其實思路很簡單,類似Momentum 思想,引入一個衰減系數(shù),讓梯度平方的累計量r每回合都衰減一定比例:Y PY + G-pk
9、Og-A9 = Og8 +罰9 9+A9優(yōu)點:-相比于AdaGrad,這種方法有效減少了出現(xiàn)梯度爆炸情況,因此避免了學(xué)習(xí)速率過快衰 減的問題。-適合處理非平穩(wěn)目標(biāo),對于RNN效果很好。缺點:-又引入了新的超參一衰減系數(shù)P-依然依賴于全局學(xué)習(xí)速率。Adam自適應(yīng)矩估計(daptive moment estimation,Adam),是 Kingma 等在 2015 年提出的一 種新的優(yōu)化算法,本質(zhì)上是帶有動量項的RMSprop,其結(jié)合了 Momentum和RMSprop算法 的思想。它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率。具體實現(xiàn)每步迭代過程:從訓(xùn)練集中的隨機抽取一批容量為m
10、的樣本x1,.,xm,以及相關(guān)的輸出y i計算梯度和誤差,更新Y和s ,再根據(jù)Y和s以及梯度計算參數(shù)更新量:s p +Y p 2 + ss 1-p11 -p2AO = _.打+8O O+AO其中,一階動量s,二階動量Y (初始化為0), 一階動量衰減系數(shù)p 1,二階動量衰減系數(shù)p 2??偨Y(jié)對于稀疏數(shù)據(jù),優(yōu)先選擇學(xué)習(xí)速率自適應(yīng)的算法如RMSprop和Adam算法,而且 最好采用默認值,大部分情況下其效果是較好的SGD通常訓(xùn)練時間更長,容易陷入鞍點,但是在好的初始化和學(xué)習(xí)率調(diào)度方案的情 況下,結(jié)果更可靠。如果要求更快的收斂,并且較深較復(fù)雜的網(wǎng)絡(luò)時,推薦使用學(xué)習(xí)率自適應(yīng)的優(yōu)化方 法。例如對于RNN之類的網(wǎng)絡(luò)結(jié)構(gòu),Adam速度快,效果好,而對于CNN之類的網(wǎng)絡(luò) 結(jié)構(gòu),SGD+momentum的更新方法要更好(常見國際頂尖期刊常見優(yōu)化方法)。Adadelta, RMSprop,Adam是比較相近的算法,在相似的情況下表現(xiàn)差不多。在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好 的效果。特別注意學(xué)習(xí)速率的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 膀胱破裂的護理病例討論
- 二零二五年度高端住宅區(qū)房地產(chǎn)開發(fā)招標(biāo)代理協(xié)議
- 二零二五年度高科技園區(qū)研發(fā)場地租賃合同
- 2025版防腐蝕欄桿安裝與防腐處理合同范本
- 2025版車輛租賃行業(yè)信用擔(dān)保與風(fēng)險控制協(xié)議
- 二零二五版智慧城市項目合同續(xù)約協(xié)議
- 二零二五年公文合同模板定制服務(wù)與范文案例
- 2025年綠色建筑精裝修工程承攬合同
- 二零二五年度綠色建筑項目施工合同價格形式規(guī)范
- 2025版電子競技產(chǎn)業(yè)銷售合作伙伴招募合同
- 二手車交易試駕協(xié)議
- CBT3795-96船舶上排、下水氣囊
- 壓力容器使用管理規(guī)則TSG R5002-2021
- 2024年蘇州吳中高新控股集團有限公司招聘筆試沖刺題(帶答案解析)
- 2024年民族宗教政策法規(guī)宣傳月知識競賽考試題庫(含答案)
- JT-T-480-2002交通工程土工合成材料 土工格柵
- 2024新人教版初中英語單詞表匯總(七-九年級)中考復(fù)習(xí)必背
- 《健康管理學(xué)》課程標(biāo)準
- 槲皮素的提取課件
- 無人機培訓(xùn)課件
- 安全生產(chǎn)責(zé)任保險
評論
0/150
提交評論