【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】

上傳人：E*** IP屬地：湖北上傳時(shí)間：2025-07-29 格式：DOCX 頁數(shù)：10 大小：343.67KB 積分：13 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

卷積神絡(luò)理論基礎(chǔ)知識(shí)綜述目錄TOC\o"1-3"\h\u11296卷積神絡(luò)理論基礎(chǔ)知識(shí)綜述 122571.1卷積神經(jīng)網(wǎng)絡(luò) 1147181.2激活函數(shù)的選擇 3193031.3LeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 63341.4GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 6221141.5Resnet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 8神經(jīng)網(wǎng)絡(luò)被人們學(xué)習(xí)是開始于上個(gè)世紀(jì)的八九十年代[25]，只是后因?yàn)橛布O(shè)施的限制，人們的學(xué)習(xí)研究越來越少。AlexNet得獎(jiǎng)以后，人們又開始對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行深入的研究，此時(shí)硬件設(shè)備已發(fā)展的比早前要先進(jìn)，所以在硬件條件發(fā)展完善的今天，卷積神經(jīng)網(wǎng)絡(luò)才得到充分的研究，在計(jì)算機(jī)多媒體環(huán)境范圍內(nèi)被研究，然后應(yīng)用于各個(gè)領(lǐng)域[25]。神經(jīng)網(wǎng)絡(luò)的運(yùn)行機(jī)制模擬生物神經(jīng)元細(xì)胞的運(yùn)行機(jī)制[26]，通過信息在神經(jīng)元細(xì)胞之間的傳遞，進(jìn)行學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)跟神經(jīng)元細(xì)胞一樣，相鄰的兩個(gè)層（細(xì)胞）被連接，每層提取圖像中特定信息并將得到的信息經(jīng)過處理以后作為下一層的輸入，隨后又通過事先準(zhǔn)備好的標(biāo)簽和學(xué)習(xí)到的信息進(jìn)行誤差計(jì)算，然后又依次向前傳播并學(xué)習(xí)得到最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)可以被分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)，數(shù)據(jù)帶有標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，是監(jiān)督學(xué)習(xí)；利用已經(jīng)訓(xùn)練過的數(shù)據(jù)分析未知數(shù)據(jù)時(shí)，是無監(jiān)督學(xué)習(xí)[27]。本文訓(xùn)練模型所用的數(shù)據(jù)帶有標(biāo)簽，因此本文網(wǎng)絡(luò)是監(jiān)督網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的深淺，指的是一個(gè)網(wǎng)絡(luò)有多少層卷積核，多少層池化，多少層全連接。當(dāng)它只包含一個(gè)輸入層、卷積層、輸出層時(shí)，這樣的網(wǎng)絡(luò)被叫做單層感知器。相反它包含多個(gè)輸入層、隱含層、輸出層時(shí)，這樣的網(wǎng)絡(luò)被叫做多層感知器，又被叫做深層神經(jīng)網(wǎng)絡(luò)。記憶學(xué)習(xí)當(dāng)然是連接的神經(jīng)元細(xì)胞越多越好，單層和多層感知器也一樣，層數(shù)越多，學(xué)習(xí)能力越強(qiáng)。但并不是連接的層數(shù)越多越好，當(dāng)層數(shù)達(dá)到飽和之后，就會(huì)造成難以進(jìn)行學(xué)習(xí)的現(xiàn)象，或者學(xué)習(xí)出來的數(shù)據(jù)并不理想。1.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是卷積層、池化層、激活函數(shù)、全連接層等模塊一起組成的非線性結(jié)構(gòu)，隨后完成特定任務(wù)的學(xué)習(xí)[28]。尺度和平移魯棒性是CNN的優(yōu)良特性，CNN在圖像處理上模擬了人類的視覺功能，神經(jīng)元之間的聯(lián)系類似于人類視覺皮層[28]。在CNN中，一個(gè)單一的過濾器掃描圖像的一部分，就像視覺細(xì)胞只關(guān)注我們視覺的一部分[28]。原始圖像經(jīng)過多層不同濾波器處理，池化層池化加全連接輸出，形成最后的特征組成，即原始數(shù)據(jù)通過模型學(xué)習(xí)到的信息。與傳統(tǒng)的人工設(shè)計(jì)不同，CNN可以根據(jù)具體任務(wù)通過反向傳播自動(dòng)學(xué)習(xí)權(quán)重。真實(shí)數(shù)據(jù)，類似于圖像和聲音，包含非常冗余的結(jié)構(gòu)，并且具有低秩屬性。因此當(dāng)CNN連接時(shí)，采用權(quán)值共享策略，有效減少參數(shù)個(gè)數(shù)、降低網(wǎng)絡(luò)過擬合度、減少計(jì)算量[28]。1.輸入層圖像是多維數(shù)據(jù)，可以是1，2,3,4維的。因輸入到卷積神經(jīng)網(wǎng)絡(luò)的圖片大小是固定的，因此要將圖片裁剪成網(wǎng)絡(luò)輸入的固定大小，我們還要對(duì)圖像進(jìn)行標(biāo)準(zhǔn)化處理，對(duì)于圖像像素【0,255】的原始像素被歸一化到【0,1】或者【-1,1】之間，歸一化可以提高神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中的效率[29]。1.卷積層提取特征被用來作為卷積層的功能，其過程是多個(gè)卷積核共同掃描圖像[30]。卷積層的參數(shù)為卷積核大小、步長、填充[31]。其中卷積核的大小要小于圖像大小，步長是卷積核移動(dòng)的像素值，填充是將被卷積的圖像人為的擴(kuò)充其尺寸，這樣做的目的是為了減小尺寸收縮影響方法[32]。卷積層的運(yùn)行原理是，設(shè)置一個(gè)卷積核大小，在一張N*N的圖像上用M*M(M<N)的濾波器對(duì)圖像掃描，通過定義的步長進(jìn)行從左到右、從上到下的移動(dòng)，在這過程中可對(duì)圖像進(jìn)行填充。下圖中，輸入是input，卷積核大小為3*3，通過卷積核進(jìn)卷積操作，將9個(gè)像素值通過運(yùn)算成一個(gè)像素值。下圖1.1為卷積核卷積過程圖。圖1.1卷積核卷積過程3.池化層在上一節(jié)中講到，池化層一般依附在卷積層上，被視為一層結(jié)構(gòu)。所以池化層接收來自卷積層特征提取之后的數(shù)據(jù)。這池化層中接受上一層輸入的信息，其作用是信息選擇和數(shù)據(jù)優(yōu)化。池化層中根據(jù)預(yù)設(shè)的池化函數(shù)不同，池化層也被分為幾類，常見的有（1）一般池化（GeneralPooling），一般池化又被分為平均池化(AveragePooling):在一定范圍內(nèi)，選擇總和除以個(gè)數(shù)值作為區(qū)域池化值[33]；最大池化(maxpooling)：挑選卷積層輸出后的最大值作為區(qū)域池化后的值[34];（2）重疊池化(OverlappingPooling)：顧名思義兩個(gè)池化又交疊的部分；（3）空金字塔池化（SpatialPyramidPooling）：上層的卷積特征被幾個(gè)大小不一的池化層池化。4.全連接層全連接層則是最后一層。在全連接層中也可以說是卷積層的變體[35]，全連接層相當(dāng)于是1*1的卷積，但不進(jìn)行特征學(xué)習(xí)，而是將特征輸出，供人們實(shí)驗(yàn)。5.輸出層最后是輸出層，根據(jù)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的功能不同，輸出的值也不同。即卷積神經(jīng)網(wǎng)絡(luò)被用于訓(xùn)練分類，則最后輸出的是數(shù)據(jù)集的標(biāo)簽[36]。卷積神經(jīng)網(wǎng)絡(luò)被訓(xùn)練與物體識(shí)別，則最后的輸出是坐標(biāo)[37]。卷積神經(jīng)網(wǎng)絡(luò)被用于訓(xùn)練圖像語義分割上，最后輸出的是每個(gè)像素的分類結(jié)果[38]。1.2激活函數(shù)的選擇激活函數(shù)解決非線性問題。被輸入的數(shù)據(jù)進(jìn)行一些列操作后，還被作用激活函數(shù)[39]?？上攵倭思せ詈瘮?shù)的神經(jīng)網(wǎng)絡(luò)，就是一層層矩陣的相乘，不論加深深度還是增寬寬度到最后還是矩陣。本文的實(shí)驗(yàn)實(shí)質(zhì)是一個(gè)多分類問題，因此需要學(xué)習(xí)了解掌握什么是激活函數(shù)，下面是幾個(gè)常用的激活函數(shù)。Sigmoid函數(shù)圖1.2Sigmoid函數(shù)圖上圖1.2為Sigmoid函數(shù)的曲線圖，函數(shù)曲線增長緩慢、平滑。通過上圖我們知道函數(shù)的取值范圍在【0,1】之間，易于取導(dǎo)數(shù)。通過1.1式可知，F(xiàn)(x)=（1.1）因?yàn)閑x指數(shù)函數(shù)，其函數(shù)值始終大于0，所以Sigmoid函數(shù)值始終大于0，這導(dǎo)致梯度在被回傳的時(shí)候，所有的梯度都是正的，在更新的過程當(dāng)中，所有的權(quán)重也都是正的，且因?yàn)閷?dǎo)數(shù)好求，導(dǎo)致Sigmoid函數(shù)會(huì)發(fā)現(xiàn)網(wǎng)絡(luò)爆炸，過擬合情況。因此Sigmoid函數(shù)只能進(jìn)行二分類問題。1.Tanh函數(shù)圖1.3Tanh函數(shù)圖通過圖1.3，發(fā)現(xiàn)Tanh函數(shù)曲線圖和Sigmoid函數(shù)曲線圖都是曲線平滑，易于求導(dǎo)數(shù)，區(qū)別在于Tanh函數(shù)曲線的函數(shù)值在【-1,1】之間，梯度被回傳時(shí)，權(quán)重有正有負(fù)。通過式子1.2可知，F(xiàn)(x)=（1.2）當(dāng)x=0或無窮大時(shí)，激活函數(shù)等于1或者0，因此使用優(yōu)化器時(shí)，其網(wǎng)絡(luò)更新很慢。3.Relu函數(shù)Relu函數(shù)被作為‘修正線單元’，為什么Relu被提出來后被應(yīng)用于各種網(wǎng)絡(luò)模型呢，其重要原因在于能夠解決‘梯度消失’問題，就比如Relu函數(shù)對(duì)于初始化比較敏感，在Relu中是沒有負(fù)值的，因?yàn)槎急籖elu賦值為零。其圖為1.4所示。圖1.4Relu函數(shù)圖通過上圖1.3，Relu函數(shù)左邊曲線直接為0，即矩陣中如果有負(fù)數(shù)直接取0，因此能加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。由于公式簡單，可以猜測能解決過擬合和梯度消失問題[40]。但Relu對(duì)初始化比較敏感，當(dāng)很多的神經(jīng)元被置于0的時(shí)候，網(wǎng)絡(luò)的很多神經(jīng)元無法再進(jìn)行學(xué)習(xí)。其函數(shù)公式見式(1.3)，(1.3)4.Softmax函數(shù)在網(wǎng)絡(luò)模型中最后一層通過使用的激活函數(shù)為Softmax，Softmax擁有多個(gè)單元的輸出層，即我們有多少個(gè)類就有多少個(gè)單元[43]。Softmax被加入到最后一層全連接層后，其作用是會(huì)計(jì)算出每個(gè)當(dāng)前樣本屬于本類的概率。通過分析下式，softmax函數(shù)做指數(shù)運(yùn)算，所以保證了softmax結(jié)果保證了非負(fù)性，這也是為什么，被用作多分類的原因，其函數(shù)表達(dá)見式（1.5），F(xiàn)(xi)=(1.5)學(xué)習(xí)激活函數(shù)的基本，了解激活函數(shù)性能，分析激活函數(shù)的優(yōu)缺點(diǎn)。通過對(duì)比分析本文選擇Relu具有穩(wěn)定性，較快收斂性、稀疏表達(dá)性，因此Relu激活函數(shù)作為本實(shí)驗(yàn)卷積層和池化層的激活函數(shù)。1.3LeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí)LeNet-5模型發(fā)表，是YannLeCun教授在1998年論文《Gradient-basedlearningappliedtodocumnetrecognitionr》中的[44]。數(shù)字識(shí)別是第一個(gè)被LeNet-5成功識(shí)別的問題[45]。LeNet-5模型在在MNIST數(shù)據(jù)集上的正確率達(dá)大約99.2%[45]。LeNet-5是一個(gè)入門級(jí)的神經(jīng)網(wǎng)絡(luò)模型，被用來做手寫體識(shí)別，是在LeNet的基礎(chǔ)上加入池化層對(duì)輸入特征進(jìn)行篩選，其構(gòu)筑中交替出現(xiàn)的卷積層-池化層被認(rèn)為有效提取了圖像的平移不變特征[46]。下表1.1為LeNet-5模型的每層參數(shù)。表1.1LeNet-5結(jié)構(gòu)每層參數(shù)輸入圖像（32*32*3）卷積層C1卷積核5*5，數(shù)量6，步長1輸出特征圖像大?。海?2-5）/1+1=28，即28*28*6激活函數(shù)（Relu）池化層S2池化（kernel_size=2,stride=2）輸出特征圖像大?。海?8-2）/2+1=14，即14*14*6卷積層C3卷積核5*5，數(shù)量16，步長1輸出特征圖像大?。海?4-5）/1+1=10，即10*10*16激活函數(shù)（Relu）池化層S4池化（kernel_size=2,stride=2）輸出特征圖像大?。海?0-2）/2+1=5，即5*5*16卷積層C5卷積核5*5，數(shù)量120，步長1輸出的特征圖像大小為：1*1*120激活函數(shù)（Relu）全連接層684個(gè)神經(jīng)元激活函數(shù)（Relu）全連接層7輸出3765個(gè)類激活函數(shù)（softmax）1.4GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí)GoogLeNet的推出，其創(chuàng)新之處在于Inception模塊，。在2014年的ImageNet競賽中奪得了冠軍，一直在改進(jìn)在其后的兩年，出現(xiàn)了InceptionV2、InceptionV3、InceptionV4、等系列[47]。下圖1.5是Inception結(jié)構(gòu)圖，根據(jù)Inception結(jié)構(gòu)圖，Inception被多個(gè)卷積和一個(gè)池化組成，在神經(jīng)網(wǎng)絡(luò)里可以被看作是一個(gè)整體。GoogLeNet區(qū)別于其他網(wǎng)絡(luò)，其增加了網(wǎng)絡(luò)的深度和寬度。所以GoogLeNet在增加深度和寬度的同時(shí)，為了減少參數(shù)，防止過擬合和模型難以優(yōu)化等問題提出Inception。圖1.5GoogLeNet每層結(jié)構(gòu)圖下圖1.6為GoogLeNet每層結(jié)構(gòu)圖，其中一個(gè)Inception作為一個(gè)整體。其結(jié)構(gòu)圖有三次分類，其中有兩次分類發(fā)生在過程中，其目的就是為了防止GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)中間部分的梯度消失過程，并且發(fā)生在過程中的兩次分類僅僅是用于訓(xùn)練的，并非用于預(yù)測過程。圖1.6Inception結(jié)構(gòu)圖1.5Resnet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí) 2015年，Resnet網(wǎng)絡(luò)被提出。在這之前最深的深度網(wǎng)絡(luò)只有二三十層左右，ResNet的問世打破了這種局限，可以根據(jù)個(gè)人意愿將神經(jīng)網(wǎng)絡(luò)深度隨意增加，另外訓(xùn)練也不會(huì)占用太多的時(shí)間，所以ResNet經(jīng)常被用來訓(xùn)練圖像識(shí)別，并且準(zhǔn)確率大幅增加。在ImageNet大賽中，分別獲得圖像分類、圖形定位、圖像檢測三個(gè)項(xiàng)目的冠軍[50]。其能獲得三項(xiàng)大獎(jiǎng)的原因是因?yàn)楦先?jié)中講到的網(wǎng)絡(luò)不同之處在于其在網(wǎng)絡(luò)結(jié)構(gòu)中加入了殘差結(jié)構(gòu)(residual)，在上三節(jié)講到的網(wǎng)絡(luò)中，簡單的增加網(wǎng)絡(luò)的深度，會(huì)發(fā)生梯度彌散或者梯度爆炸等問題，而殘差結(jié)構(gòu)的主要功能在于容易被優(yōu)化，并且是唯一一個(gè)能夠通過增加深度來提高準(zhǔn)確率。下表1.3是ResNet層數(shù)結(jié)構(gòu)圖，有五種不同的深度，層數(shù)較少的是18層和34層，層數(shù)較多的是50層、101層、152層。表1.3不同深度的ResNet結(jié)構(gòu)圖參數(shù)LayerOutputsize18-Layer34-Layer50-Layer101-Layer152-LayerConv1112*1127*7,64,stride23*3max_pool,stride2Conv2_x56*563*3,643*3,6423*3,643*3,6431*1,643*3,6431*1,641*1,643*3,6431*1,641*1,643*3,6431*1,64Conv3_x28*283*3,1283*3,12823*3,1283*3,12841*1,1283*3,12841*1,5121*1,1283*3,12841*1,5121*1,1283*3,12881*1,512Conv4_x14*143*3,2563*3,25623*3,2563*3,25661*1,2563*3,25661*1,10241*1,2563*3,256231*1,10241*1,2563*3,256361*1,1024Conv5_x7*73*3,5123*3,51223*3,5123*3,51231*1,5123*3,51231*1,20481*1,5123*3,51231*1,20481*1,5123*3,51231*1,20481*1Average_pool,1000-dfc,softmaxFLOPs1.8*1093.6*1093.8*1097.6*10911.3+109ResNet也是被卷積層、池化層、全連接層組成[51]。根據(jù)上圖可以發(fā)現(xiàn)，在18層和34層的時(shí)候，

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】

文檔簡介

溫馨提示

最新文檔

評(píng)論

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

【《卷積神絡(luò)理論基礎(chǔ)知識(shí)》4400字】

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔