【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】_第1頁
【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】_第2頁
【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】_第3頁
【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】_第4頁
【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

卷積神絡(luò)理論基礎(chǔ)知識(shí)綜述目錄TOC\o"1-3"\h\u11296卷積神絡(luò)理論基礎(chǔ)知識(shí)綜述 122571.1卷積神經(jīng)網(wǎng)絡(luò) 1147181.2激活函數(shù)的選擇 3193031.3LeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 63341.4GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 6221141.5Resnet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 8神經(jīng)網(wǎng)絡(luò)被人們學(xué)習(xí)是開始于上個(gè)世紀(jì)的八九十年代[25],只是后因?yàn)橛布O(shè)施的限制,人們的學(xué)習(xí)研究越來越少。AlexNet得獎(jiǎng)以后,人們又開始對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行深入的研究,此時(shí)硬件設(shè)備已發(fā)展的比早前要先進(jìn),所以在硬件條件發(fā)展完善的今天,卷積神經(jīng)網(wǎng)絡(luò)才得到充分的研究,在計(jì)算機(jī)多媒體環(huán)境范圍內(nèi)被研究,然后應(yīng)用于各個(gè)領(lǐng)域[25]。神經(jīng)網(wǎng)絡(luò)的運(yùn)行機(jī)制模擬生物神經(jīng)元細(xì)胞的運(yùn)行機(jī)制[26],通過信息在神經(jīng)元細(xì)胞之間的傳遞,進(jìn)行學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)跟神經(jīng)元細(xì)胞一樣,相鄰的兩個(gè)層(細(xì)胞)被連接,每層提取圖像中特定信息并將得到的信息經(jīng)過處理以后作為下一層的輸入,隨后又通過事先準(zhǔn)備好的標(biāo)簽和學(xué)習(xí)到的信息進(jìn)行誤差計(jì)算,然后又依次向前傳播并學(xué)習(xí)得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)可以被分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),數(shù)據(jù)帶有標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),是監(jiān)督學(xué)習(xí);利用已經(jīng)訓(xùn)練過的數(shù)據(jù)分析未知數(shù)據(jù)時(shí),是無監(jiān)督學(xué)習(xí)[27]。本文訓(xùn)練模型所用的數(shù)據(jù)帶有標(biāo)簽,因此本文網(wǎng)絡(luò)是監(jiān)督網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的深淺,指的是一個(gè)網(wǎng)絡(luò)有多少層卷積核,多少層池化,多少層全連接。當(dāng)它只包含一個(gè)輸入層、卷積層、輸出層時(shí),這樣的網(wǎng)絡(luò)被叫做單層感知器。相反它包含多個(gè)輸入層、隱含層、輸出層時(shí),這樣的網(wǎng)絡(luò)被叫做多層感知器,又被叫做深層神經(jīng)網(wǎng)絡(luò)。記憶學(xué)習(xí)當(dāng)然是連接的神經(jīng)元細(xì)胞越多越好,單層和多層感知器也一樣,層數(shù)越多,學(xué)習(xí)能力越強(qiáng)。但并不是連接的層數(shù)越多越好,當(dāng)層數(shù)達(dá)到飽和之后,就會(huì)造成難以進(jìn)行學(xué)習(xí)的現(xiàn)象,或者學(xué)習(xí)出來的數(shù)據(jù)并不理想。1.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是卷積層、池化層、激活函數(shù)、全連接層等模塊一起組成的非線性結(jié)構(gòu),隨后完成特定任務(wù)的學(xué)習(xí)[28]。尺度和平移魯棒性是CNN的優(yōu)良特性,CNN在圖像處理上模擬了人類的視覺功能,神經(jīng)元之間的聯(lián)系類似于人類視覺皮層[28]。在CNN中,一個(gè)單一的過濾器掃描圖像的一部分,就像視覺細(xì)胞只關(guān)注我們視覺的一部分[28]。原始圖像經(jīng)過多層不同濾波器處理,池化層池化加全連接輸出,形成最后的特征組成,即原始數(shù)據(jù)通過模型學(xué)習(xí)到的信息。與傳統(tǒng)的人工設(shè)計(jì)不同,CNN可以根據(jù)具體任務(wù)通過反向傳播自動(dòng)學(xué)習(xí)權(quán)重。真實(shí)數(shù)據(jù),類似于圖像和聲音,包含非常冗余的結(jié)構(gòu),并且具有低秩屬性。因此當(dāng)CNN連接時(shí),采用權(quán)值共享策略,有效減少參數(shù)個(gè)數(shù)、降低網(wǎng)絡(luò)過擬合度、減少計(jì)算量[28]。1.輸入層圖像是多維數(shù)據(jù),可以是1,2,3,4維的。因輸入到卷積神經(jīng)網(wǎng)絡(luò)的圖片大小是固定的,因此要將圖片裁剪成網(wǎng)絡(luò)輸入的固定大小,我們還要對(duì)圖像進(jìn)行標(biāo)準(zhǔn)化處理,對(duì)于圖像像素【0,255】的原始像素被歸一化到【0,1】或者【-1,1】之間,歸一化可以提高神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中的效率[29]。1.卷積層提取特征被用來作為卷積層的功能,其過程是多個(gè)卷積核共同掃描圖像[30]。卷積層的參數(shù)為卷積核大小、步長、填充[31]。其中卷積核的大小要小于圖像大小,步長是卷積核移動(dòng)的像素值,填充是將被卷積的圖像人為的擴(kuò)充其尺寸,這樣做的目的是為了減小尺寸收縮影響方法[32]。卷積層的運(yùn)行原理是,設(shè)置一個(gè)卷積核大小,在一張N*N的圖像上用M*M(M<N)的濾波器對(duì)圖像掃描,通過定義的步長進(jìn)行從左到右、從上到下的移動(dòng),在這過程中可對(duì)圖像進(jìn)行填充。下圖中,輸入是input,卷積核大小為3*3,通過卷積核進(jìn)卷積操作,將9個(gè)像素值通過運(yùn)算成一個(gè)像素值。下圖1.1為卷積核卷積過程圖。圖1.1卷積核卷積過程3.池化層在上一節(jié)中講到,池化層一般依附在卷積層上,被視為一層結(jié)構(gòu)。所以池化層接收來自卷積層特征提取之后的數(shù)據(jù)。這池化層中接受上一層輸入的信息,其作用是信息選擇和數(shù)據(jù)優(yōu)化。池化層中根據(jù)預(yù)設(shè)的池化函數(shù)不同,池化層也被分為幾類,常見的有(1)一般池化(GeneralPooling),一般池化又被分為平均池化(AveragePooling):在一定范圍內(nèi),選擇總和除以個(gè)數(shù)值作為區(qū)域池化值[33];最大池化(maxpooling):挑選卷積層輸出后的最大值作為區(qū)域池化后的值[34];(2)重疊池化(OverlappingPooling):顧名思義兩個(gè)池化又交疊的部分;(3)空金字塔池化(SpatialPyramidPooling):上層的卷積特征被幾個(gè)大小不一的池化層池化。4.全連接層全連接層則是最后一層。在全連接層中也可以說是卷積層的變體[35],全連接層相當(dāng)于是1*1的卷積,但不進(jìn)行特征學(xué)習(xí),而是將特征輸出,供人們實(shí)驗(yàn)。5.輸出層最后是輸出層,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的功能不同,輸出的值也不同。即卷積神經(jīng)網(wǎng)絡(luò)被用于訓(xùn)練分類,則最后輸出的是數(shù)據(jù)集的標(biāo)簽[36]。卷積神經(jīng)網(wǎng)絡(luò)被訓(xùn)練與物體識(shí)別,則最后的輸出是坐標(biāo)[37]。卷積神經(jīng)網(wǎng)絡(luò)被用于訓(xùn)練圖像語義分割上,最后輸出的是每個(gè)像素的分類結(jié)果[38]。1.2激活函數(shù)的選擇激活函數(shù)解決非線性問題。被輸入的數(shù)據(jù)進(jìn)行一些列操作后,還被作用激活函數(shù)[39]??上攵倭思せ詈瘮?shù)的神經(jīng)網(wǎng)絡(luò),就是一層層矩陣的相乘,不論加深深度還是增寬寬度到最后還是矩陣。本文的實(shí)驗(yàn)實(shí)質(zhì)是一個(gè)多分類問題,因此需要學(xué)習(xí)了解掌握什么是激活函數(shù),下面是幾個(gè)常用的激活函數(shù)。Sigmoid函數(shù)圖1.2Sigmoid函數(shù)圖上圖1.2為Sigmoid函數(shù)的曲線圖,函數(shù)曲線增長緩慢、平滑。通過上圖我們知道函數(shù)的取值范圍在【0,1】之間,易于取導(dǎo)數(shù)。通過1.1式可知,F(xiàn)(x)=(1.1)因?yàn)閑x指數(shù)函數(shù),其函數(shù)值始終大于0,所以Sigmoid函數(shù)值始終大于0,這導(dǎo)致梯度在被回傳的時(shí)候,所有的梯度都是正的,在更新的過程當(dāng)中,所有的權(quán)重也都是正的,且因?yàn)閷?dǎo)數(shù)好求,導(dǎo)致Sigmoid函數(shù)會(huì)發(fā)現(xiàn)網(wǎng)絡(luò)爆炸,過擬合情況。因此Sigmoid函數(shù)只能進(jìn)行二分類問題。1.Tanh函數(shù)圖1.3Tanh函數(shù)圖通過圖1.3,發(fā)現(xiàn)Tanh函數(shù)曲線圖和Sigmoid函數(shù)曲線圖都是曲線平滑,易于求導(dǎo)數(shù),區(qū)別在于Tanh函數(shù)曲線的函數(shù)值在【-1,1】之間,梯度被回傳時(shí),權(quán)重有正有負(fù)。通過式子1.2可知,F(xiàn)(x)=(1.2)當(dāng)x=0或無窮大時(shí),激活函數(shù)等于1或者0,因此使用優(yōu)化器時(shí),其網(wǎng)絡(luò)更新很慢。3.Relu函數(shù)Relu函數(shù)被作為‘修正線單元’,為什么Relu被提出來后被應(yīng)用于各種網(wǎng)絡(luò)模型呢,其重要原因在于能夠解決‘梯度消失’問題,就比如Relu函數(shù)對(duì)于初始化比較敏感,在Relu中是沒有負(fù)值的,因?yàn)槎急籖elu賦值為零。其圖為1.4所示。圖1.4Relu函數(shù)圖通過上圖1.3,Relu函數(shù)左邊曲線直接為0,即矩陣中如果有負(fù)數(shù)直接取0,因此能加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。由于公式簡單,可以猜測能解決過擬合和梯度消失問題[40]。但Relu對(duì)初始化比較敏感,當(dāng)很多的神經(jīng)元被置于0的時(shí)候,網(wǎng)絡(luò)的很多神經(jīng)元無法再進(jìn)行學(xué)習(xí)。其函數(shù)公式見式(1.3),(1.3)4.Softmax函數(shù)在網(wǎng)絡(luò)模型中最后一層通過使用的激活函數(shù)為Softmax,Softmax擁有多個(gè)單元的輸出層,即我們有多少個(gè)類就有多少個(gè)單元[43]。Softmax被加入到最后一層全連接層后,其作用是會(huì)計(jì)算出每個(gè)當(dāng)前樣本屬于本類的概率。通過分析下式,softmax函數(shù)做指數(shù)運(yùn)算,所以保證了softmax結(jié)果保證了非負(fù)性,這也是為什么,被用作多分類的原因,其函數(shù)表達(dá)見式(1.5),F(xiàn)(xi)=(1.5)學(xué)習(xí)激活函數(shù)的基本,了解激活函數(shù)性能,分析激活函數(shù)的優(yōu)缺點(diǎn)。通過對(duì)比分析本文選擇Relu具有穩(wěn)定性,較快收斂性、稀疏表達(dá)性,因此Relu激活函數(shù)作為本實(shí)驗(yàn)卷積層和池化層的激活函數(shù)。1.3LeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí)LeNet-5模型發(fā)表,是YannLeCun教授在1998年論文《Gradient-basedlearningappliedtodocumnetrecognitionr》中的[44]。數(shù)字識(shí)別是第一個(gè)被LeNet-5成功識(shí)別的問題[45]。LeNet-5模型在在MNIST數(shù)據(jù)集上的正確率達(dá)大約99.2%[45]。LeNet-5是一個(gè)入門級(jí)的神經(jīng)網(wǎng)絡(luò)模型,被用來做手寫體識(shí)別,是在LeNet的基礎(chǔ)上加入池化層對(duì)輸入特征進(jìn)行篩選,其構(gòu)筑中交替出現(xiàn)的卷積層-池化層被認(rèn)為有效提取了圖像的平移不變特征[46]。下表1.1為LeNet-5模型的每層參數(shù)。表1.1LeNet-5結(jié)構(gòu)每層參數(shù)輸入圖像(32*32*3)卷積層C1卷積核5*5,數(shù)量6,步長1輸出特征圖像大?。海?2-5)/1+1=28,即28*28*6激活函數(shù)(Relu)池化層S2池化(kernel_size=2,stride=2)輸出特征圖像大?。海?8-2)/2+1=14,即14*14*6卷積層C3卷積核5*5,數(shù)量16,步長1輸出特征圖像大?。海?4-5)/1+1=10,即10*10*16激活函數(shù)(Relu)池化層S4池化(kernel_size=2,stride=2)輸出特征圖像大?。海?0-2)/2+1=5,即5*5*16卷積層C5卷積核5*5,數(shù)量120,步長1輸出的特征圖像大小為:1*1*120激活函數(shù)(Relu)全連接層684個(gè)神經(jīng)元激活函數(shù)(Relu)全連接層7輸出3765個(gè)類激活函數(shù)(softmax)1.4GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí)GoogLeNet的推出,其創(chuàng)新之處在于Inception模塊,。在2014年的ImageNet競賽中奪得了冠軍,一直在改進(jìn)在其后的兩年,出現(xiàn)了InceptionV2、InceptionV3、InceptionV4、等系列[47]。下圖1.5是Inception結(jié)構(gòu)圖,根據(jù)Inception結(jié)構(gòu)圖,Inception被多個(gè)卷積和一個(gè)池化組成,在神經(jīng)網(wǎng)絡(luò)里可以被看作是一個(gè)整體。GoogLeNet區(qū)別于其他網(wǎng)絡(luò),其增加了網(wǎng)絡(luò)的深度和寬度。所以GoogLeNet在增加深度和寬度的同時(shí),為了減少參數(shù),防止過擬合和模型難以優(yōu)化等問題提出Inception。圖1.5GoogLeNet每層結(jié)構(gòu)圖下圖1.6為GoogLeNet每層結(jié)構(gòu)圖,其中一個(gè)Inception作為一個(gè)整體。其結(jié)構(gòu)圖有三次分類,其中有兩次分類發(fā)生在過程中,其目的就是為了防止GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)中間部分的梯度消失過程,并且發(fā)生在過程中的兩次分類僅僅是用于訓(xùn)練的,并非用于預(yù)測過程。圖1.6Inception結(jié)構(gòu)圖1.5Resnet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 2015年,Resnet網(wǎng)絡(luò)被提出。在這之前最深的深度網(wǎng)絡(luò)只有二三十層左右,ResNet的問世打破了這種局限,可以根據(jù)個(gè)人意愿將神經(jīng)網(wǎng)絡(luò)深度隨意增加,另外訓(xùn)練也不會(huì)占用太多的時(shí)間,所以ResNet經(jīng)常被用來訓(xùn)練圖像識(shí)別,并且準(zhǔn)確率大幅增加。在ImageNet大賽中,分別獲得圖像分類、圖形定位、圖像檢測三個(gè)項(xiàng)目的冠軍[50]。其能獲得三項(xiàng)大獎(jiǎng)的原因是因?yàn)楦先?jié)中講到的網(wǎng)絡(luò)不同之處在于其在網(wǎng)絡(luò)結(jié)構(gòu)中加入了殘差結(jié)構(gòu)(residual),在上三節(jié)講到的網(wǎng)絡(luò)中,簡單的增加網(wǎng)絡(luò)的深度,會(huì)發(fā)生梯度彌散或者梯度爆炸等問題,而殘差結(jié)構(gòu)的主要功能在于容易被優(yōu)化,并且是唯一一個(gè)能夠通過增加深度來提高準(zhǔn)確率。下表1.3是ResNet層數(shù)結(jié)構(gòu)圖,有五種不同的深度,層數(shù)較少的是18層和34層,層數(shù)較多的是50層、101層、152層。表1.3不同深度的ResNet結(jié)構(gòu)圖參數(shù)LayerOutputsize18-Layer34-Layer50-Layer101-Layer152-LayerConv1112*1127*7,64,stride23*3max_pool,stride2Conv2_x56*563*3,643*3,6423*3,643*3,6431*1,643*3,6431*1,641*1,643*3,6431*1,641*1,643*3,6431*1,64Conv3_x28*283*3,1283*3,12823*3,1283*3,12841*1,1283*3,12841*1,5121*1,1283*3,12841*1,5121*1,1283*3,12881*1,512Conv4_x14*143*3,2563*3,25623*3,2563*3,25661*1,2563*3,25661*1,10241*1,2563*3,256231*1,10241*1,2563*3,256361*1,1024Conv5_x7*73*3,5123*3,51223*3,5123*3,51231*1,5123*3,51231*1,20481*1,5123*3,51231*1,20481*1,5123*3,51231*1,20481*1Average_pool,1000-dfc,softmaxFLOPs1.8*1093.6*1093.8*1097.6*10911.3+109ResNet也是被卷積層、池化層、全連接層組成[51]。根據(jù)上圖可以發(fā)現(xiàn),在18層和34層的時(shí)候,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論