基于脈沖神經(jīng)網(wǎng)絡(luò)的彎曲字母矯正研究_第1頁
基于脈沖神經(jīng)網(wǎng)絡(luò)的彎曲字母矯正研究_第2頁
基于脈沖神經(jīng)網(wǎng)絡(luò)的彎曲字母矯正研究_第3頁
基于脈沖神經(jīng)網(wǎng)絡(luò)的彎曲字母矯正研究_第4頁
基于脈沖神經(jīng)網(wǎng)絡(luò)的彎曲字母矯正研究_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE131、緒論1.1研究背景及意義近年來,隨著計算機(jī)技術(shù)的飛速進(jìn)步,人工智能(AI)領(lǐng)域迎來了以數(shù)據(jù)和計算能力為核心驅(qū)動力的第三次發(fā)展浪潮。人工神經(jīng)網(wǎng)絡(luò)(ANN),如深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),在多個領(lǐng)域內(nèi)取得了顯著的應(yīng)用突破,尤其是在圖像處理、自然語言處理以及大語言模型等方面展現(xiàn)出了強(qiáng)大的性能。然而,這些傳統(tǒng)ANN在處理復(fù)雜任務(wù)時帶來的高能耗問題逐漸成為限制其發(fā)展的重要因素。在大語言模型廣泛影響各行各業(yè)的今天,大型計算中心的高能耗問題,對環(huán)境、電力成本以及硬件設(shè)備的負(fù)擔(dān)都提出了嚴(yán)峻的挑戰(zhàn),迫切需要更加節(jié)能高效的技術(shù)方案來應(yīng)對。脈沖神經(jīng)網(wǎng)絡(luò)(SNN)作為第三代人工神經(jīng)網(wǎng)絡(luò),因其獨(dú)特的生物仿真性以及低能耗特性而廣受關(guān)注。SNN模仿生物神經(jīng)元來進(jìn)行信息傳遞,通過神經(jīng)元之間的脈沖信號對信息進(jìn)行處理。這種模式使得SNN在進(jìn)行信息處理時能夠以較低的能耗完成復(fù)雜的計算任務(wù),因為SNN傾向于產(chǎn)生稀疏的脈沖信號表示,即在神經(jīng)元的活動中存在大量的零值,從而顯著降低了網(wǎng)絡(luò)的總體計算需求??。與此同時,大量紙質(zhì)文檔的數(shù)字化需求日益增長,文檔數(shù)字化不僅對于保存和檢索傳統(tǒng)紙質(zhì)文檔具有重要意義,還極大地便利了書籍、資料、報刊等文件的存儲、管理和利用。過去,文檔數(shù)字化主要依賴于掃描儀等專業(yè)設(shè)備,這雖然可以獲得清晰、平整的數(shù)字文檔,但其高昂的成本、笨重的體積和復(fù)雜的操作限制了其在非專業(yè)場景下的使用。相對而言,隨著移動互聯(lián)網(wǎng)和電子數(shù)碼行業(yè)的飛速發(fā)展,智能手機(jī)已經(jīng)成為一種更為便捷、經(jīng)濟(jì)的文檔圖像采集工具,使用手機(jī)拍攝紙質(zhì)文檔成為了一種普遍且簡便的文檔數(shù)字化手段。然而,盡管智能手機(jī)極大簡化了文檔的采集過程,由于手持拍攝角度往往不能做到完全平行居中,以及文檔本身可能存在彎曲折疊等問題,往往導(dǎo)致拍攝得到的文檔圖像出現(xiàn)透視變形、彎曲扭曲等問題,這不僅影響視覺效果,更重要的是會降低后續(xù)文本檢測、識別和信息提取的準(zhǔn)確性和效率。因此,研發(fā)高效、準(zhǔn)確的圖像矯正技術(shù)以解決這些問題,是提升文檔數(shù)字化質(zhì)量的關(guān)鍵。當(dāng)前,對彎曲文檔圖像矯正的主流技術(shù),如通過貝塞爾曲線[1]或三維彎曲模型[2]進(jìn)行調(diào)整,雖然很大程度上能將字母恢復(fù)到同一水平線,但仍存在部分的字母變形或字距不均勻等問題。這些問題的存在不僅影響了文本的閱讀體驗,也限制了后續(xù)進(jìn)行文本識別的效果??。在文檔圖像整體被矯正的情況下,對矯正效果不良的彎曲形變字符做進(jìn)一步矯正,有望提升矯正效果,并提高文本識別的準(zhǔn)確率。因此,本研究旨在以彎曲的英文字母矯正作為切入點,研究與探索脈沖神經(jīng)網(wǎng)絡(luò)在圖像矯正領(lǐng)域中的潛力。憑借SNN不僅可以利用網(wǎng)絡(luò)的空間信息,還可以利用脈沖發(fā)放的時序信息這一特點,有望在圖像矯正任務(wù)上取得新的突破。此外,SNN在這一領(lǐng)域的應(yīng)用成功不僅能夠推動其在圖像處理領(lǐng)域更廣泛的應(yīng)用,也能夠為未來SNN的研究和發(fā)展開辟新的方向和可能性????????。1.2國內(nèi)外研究現(xiàn)狀1.2.1脈沖神經(jīng)網(wǎng)絡(luò)的研究現(xiàn)狀 在神經(jīng)網(wǎng)絡(luò)的發(fā)展史中,人工神經(jīng)網(wǎng)絡(luò)經(jīng)歷了從模擬生物神經(jīng)系統(tǒng)的簡單嘗試到實現(xiàn)復(fù)雜計算功能的演變過程。第一代ANN采用M-P模型[3]作為計算單元,通過對輸入信息以各自的權(quán)重加權(quán)求和,再執(zhí)行閾值運(yùn)算來產(chǎn)生輸出0或1。該階段的標(biāo)志性的ANN模型有如Hopfield網(wǎng)絡(luò)[4]和多層感知機(jī)[5]等。 隨后,第二代的ANN開始使用連續(xù)非線性的激活函數(shù),如Sigmoid、Tanh、ReLU等,使得網(wǎng)絡(luò)模型可以處理線性不可分的問題,極大擴(kuò)展了ANN的應(yīng)用范圍。此外,這一時期的研究開始關(guān)注生物神經(jīng)系統(tǒng)如何通過動作電位或脈沖信號來編碼信息,促進(jìn)了SNN研究的發(fā)展[6]。SNN被認(rèn)為是第三代ANN,旨在更接近生物神經(jīng)系統(tǒng)的信息處理機(jī)制。在神經(jīng)元模型的研究方面,Hodgkin和Huxley對烏賊的神經(jīng)電位數(shù)據(jù)進(jìn)行總結(jié),提出了HH模型[7],能夠精確地模擬神經(jīng)元放電和傳遞電信號的生理過程。為了簡化HH模型的復(fù)雜度,后續(xù)研究提出了LIF模型[28]和SRM模型[29]等,這些模型在保持計算效率的同時,盡可能地模擬生物神經(jīng)元的特性。 基于有無在訓(xùn)練過程中使用提前標(biāo)定的目標(biāo)值,SNN的學(xué)習(xí)算法可以分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。 SNN領(lǐng)域的無監(jiān)督學(xué)習(xí)主要基于生物神經(jīng)系統(tǒng)中的突觸可塑性現(xiàn)象,它展現(xiàn)了神經(jīng)元如何通過改變它們之間的連接強(qiáng)度以使得神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)和記憶信息。Hebbian規(guī)則[8]提出了這樣一種機(jī)制:當(dāng)一個突觸前神經(jīng)元對一個突觸后神經(jīng)元的持續(xù)刺激導(dǎo)致后者產(chǎn)生興奮時,這個突觸的連接強(qiáng)度會增加。進(jìn)一步的研究提出了STDP(SpikeTiming-DependentPlasticity),它是Hebbian學(xué)習(xí)規(guī)則的一種時間非對稱形式,強(qiáng)調(diào)了突觸前后神經(jīng)元不同的放電時序也會對突觸傳遞效率產(chǎn)生影響。當(dāng)突觸前神經(jīng)元比突觸后神經(jīng)元先激活時,兩者的連接強(qiáng)度會增加,反之則減弱[9-10]。這些原理一定程度上揭示了大腦的學(xué)習(xí)機(jī)制,為開發(fā)基于脈沖的無監(jiān)督學(xué)習(xí)算法提供了理論基礎(chǔ)。Diehl等人[12]提出的SNN模型便使用了STDP學(xué)習(xí)規(guī)則,并進(jìn)一步結(jié)合了神經(jīng)元側(cè)抑制等生物神經(jīng)元特性,在MNIST手寫數(shù)字?jǐn)?shù)據(jù)集上進(jìn)行驗證,獲得了95%的準(zhǔn)確率,展示了基于STDP的無監(jiān)督學(xué)習(xí)方法在數(shù)字識別任務(wù)中的有效性和可行性。 盡管基于無監(jiān)督學(xué)習(xí)算法的SNN模型在模擬生物視覺系統(tǒng)進(jìn)行圖像識別方面展現(xiàn)出潛力,但它們在大型復(fù)雜任務(wù)中的性能通常不如傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的ANN模型。ANN的監(jiān)督學(xué)習(xí)主要通過根據(jù)提前設(shè)定的目標(biāo)值,計算輸出值與目標(biāo)值的誤差,然后將誤差反向傳播,沿梯度下降方向調(diào)整網(wǎng)絡(luò)權(quán)重,來使網(wǎng)絡(luò)模型的預(yù)測越來越接近目標(biāo)值,但由于SNN中脈沖信號帶來的梯度不可微問題,使得設(shè)計高效的誤差反向傳播算法面臨挑戰(zhàn)。 SNN的監(jiān)督學(xué)習(xí),包括直接監(jiān)督學(xué)習(xí)和間接監(jiān)督學(xué)習(xí)。直接監(jiān)督學(xué)習(xí)主要通過反向傳播直接計算梯度,Bohte等人[13]提出的SpikeProp算法通過最小化實際脈沖輸出時刻和期望脈沖輸出時刻之間的差異來調(diào)整突觸連接的權(quán)重,首次在SNN中實現(xiàn)了誤差反向傳播。雖然SpikeProp算法在處理簡單問題上取得了成功,但它在處理多脈沖輸出方面遇到了限制。為了克服這一限制,后續(xù)研究提出了Multi-SpikeProp算法[14],允許突觸前神經(jīng)元發(fā)放多個脈沖給突觸后神經(jīng)元,提高了SNN處理復(fù)雜問題的能力。Gütig等人[15]提出的Tempotron算法通過最大化正樣本的膜電位響應(yīng)和最小化負(fù)樣本的膜電位響應(yīng)來調(diào)整突觸權(quán)重,使得SNN能夠進(jìn)行有效的二分類任務(wù)。而后來的Chronotron算法[16]則使用VP矩陣來構(gòu)建損失函數(shù),通過比較期望脈沖時間序列和實際脈沖時間序列之間的差異來進(jìn)行梯度下降,使得SNN能夠產(chǎn)生時序上精確符合預(yù)期的脈沖序列,從而學(xué)習(xí)到更復(fù)雜的時序模式。除了上述方法,Wu等人[17]提出的脈沖時間反向傳播算法(Spatio-TemporalBackpropagation,STBP)也是一種重要的監(jiān)督學(xué)習(xí)方法,它通過時間和空間維度上的誤差反向傳播來訓(xùn)練SNN,使用替代梯度的方法來解決脈沖信號不可微的問題。STBP算法考慮了脈沖神經(jīng)元的時間動態(tài)特性,使得SNN能夠處理與時序數(shù)據(jù)相關(guān)的復(fù)雜模式識別任務(wù)。STBP算法的提出,進(jìn)一步證明了利用時序信息在SNN中進(jìn)行有效學(xué)習(xí)的可能性。 這些研究表明了SNN強(qiáng)大的處理時序信息的能力和在模擬生物神經(jīng)系統(tǒng)方面的優(yōu)勢,但目前SNN因其計算模型復(fù)雜、缺乏高效的學(xué)習(xí)算法、沒有很成熟的模擬生物神經(jīng)的硬件等原因,應(yīng)用并不如傳統(tǒng)ANN廣泛。如何更深入地理解突觸可塑性規(guī)則并將其高效地實現(xiàn)應(yīng)用,是SNN領(lǐng)域研究的重點和熱點。1.2.2文檔圖像矯正的研究現(xiàn)狀 文檔圖像矯正技術(shù)受益于計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的快速發(fā)展,近年來也進(jìn)步顯著。主要的矯正技術(shù)可以大致分為兩類:基于傳統(tǒng)圖像處理的方法和基于深度學(xué)習(xí)的方法。在文檔圖像矯正領(lǐng)域,傳統(tǒng)方法主要圍繞利用圖像處理技術(shù)和幾何建模來解決文檔由于拍攝角度、紙張彎曲等因素引起的扭曲形變問題。這些方法又可以大致分為基于文本行、三維重建、邊界形狀和陰影的策略?;谖谋拘械姆椒僭O(shè)文檔主要由按行排列的文本組成,利用此特性通過參數(shù)曲線擬合文本行進(jìn)行矯正。Cao等人[18]將文檔表面映射到圓柱體表面上進(jìn)行數(shù)學(xué)建模,接著利用相機(jī)成像原理得到3D到2D的映射方程,再通過文本行的彎曲程度來計算曲面的彎曲程度,進(jìn)而矯正彎曲的文檔圖像。Ezaki等人[19]提出的文檔矯正模型定義了一組三次樣條,這些三次樣條非線性地擬合到文本行或文本行之間的空間,在擬合的過程中考慮樣條之間的關(guān)系來進(jìn)行全局優(yōu)化。這種方法不僅考慮了局部文本行的情況,還通過全局優(yōu)化技術(shù)整合了多個文本行之間的相互影響,從而在整個文檔層面上達(dá)到更加準(zhǔn)確和自然的矯正效果。三維重建的方法指通過構(gòu)建文檔的三維模型來矯正扭曲,通常使用專門的硬件或多視角圖像來重建文檔的三維結(jié)構(gòu)模型。例如,Brown等人[20]首先使用結(jié)構(gòu)光設(shè)備采集文檔的3D結(jié)構(gòu)信息,接著通過對文檔的3D模型施加物理約束,并計算作用于文檔表面的力,該力可以使不規(guī)則的彎曲表面變平,最終計算在模擬中質(zhì)子的最終位置與其起始位置之間的關(guān)系,來將原始扭曲的文檔圖像映射到平整圖像中。Tsoi等人[21]則通過多視角圖像重建技術(shù),在多張不同視角的文檔圖像中進(jìn)行采樣,選取矯正過程中最佳的局部采樣,從而達(dá)到矯正目的?;谶吔缧螤畹姆椒ㄖ饕ㄟ^分析文檔邊緣來估計文檔的形變情況。Brown等人[22]通過邊界插值技術(shù)來矯正文檔圖像中的幾何形變和光照陰影,通過算法找到扭曲文檔中的曲線與平整文檔的直線之間的映射參數(shù),然后將曲線拉直以矯正彎曲文檔。該方法的局限在于要求文檔的邊界完整清晰,且文檔與背景也需要容易分離。Wada等人[23]提出的基于陰影的方法通過分析由定向光源產(chǎn)生的陰影形狀,結(jié)合三維重建技術(shù),對文檔表面進(jìn)行模型重建來實現(xiàn)矯正。之后,Courteille等人[24]進(jìn)一步擴(kuò)展了這一方法,使用數(shù)碼相機(jī)代替昂貴的掃描儀進(jìn)行文檔數(shù)據(jù)采集,通過陰影重建技術(shù)進(jìn)行幾何和光度矯正。盡管這些傳統(tǒng)方法在處理特定類型的文檔扭曲時效果顯著,它們通常面臨著依賴特定假設(shè)和先驗知識、處理復(fù)雜扭曲場景能力有限以及對特殊硬件依賴等局限。例如,基于三維重建的方法雖能有效處理任意類型的文檔扭曲并具有較高的魯棒性,但這些方法需要專用的設(shè)備來采集扭曲文檔的3D信息,這不僅增加了成本,也限制了其在日常場景中的應(yīng)用。采用多視角技術(shù)和光照陰影分析的方法雖然在理論上能夠?qū)崿F(xiàn)高精度的文檔矯正,但實際操作中對數(shù)據(jù)采集的要求較高,對光照條件有嚴(yán)格限制,且往往只適用于邊界清晰的文檔,難以應(yīng)對更為復(fù)雜的文檔扭曲場景。深度學(xué)習(xí)技術(shù)的進(jìn)步為文檔圖像矯正領(lǐng)域帶來了革命性的變化。與傳統(tǒng)方法相比,深度學(xué)習(xí)方法通過學(xué)習(xí)大量數(shù)據(jù)的內(nèi)在規(guī)律,能夠處理更加復(fù)雜的扭曲情況,如折疊、彎曲和遮擋等多種情況的混合。深度學(xué)習(xí)的方法能夠自動從數(shù)據(jù)中學(xué)習(xí)特征,而無需依賴于預(yù)設(shè)的規(guī)則或模型,使得應(yīng)用場景可以更加廣泛,受到的限制更少。其中,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度網(wǎng)絡(luò)結(jié)構(gòu)在文檔矯正任務(wù)中顯示出了卓越的性能。這些網(wǎng)絡(luò)通過深層的非線性變換,能夠捕捉到圖像中復(fù)雜的扭曲模式,并據(jù)此進(jìn)行有效的矯正。Li等人[25]通過三維建模軟件生成含有鏡頭畸變扭曲的文檔圖像,并利用深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練模型以實現(xiàn)矯正。通過將文檔圖像切分為多個小塊(Patch),分別對每個小塊進(jìn)行矯正,然后再將這些矯正后的小塊拼接起來,以實現(xiàn)對整個文檔的矯正。這種方法有效降低了單個數(shù)據(jù)的復(fù)雜度,提升局部的矯正精度,也使得整體的矯正效果更好。Ma等人[26]提出的DocUNet模型則開創(chuàng)了端到端文檔矯正的先河,通過直接從輸入的變形文檔圖像中預(yù)測矯正坐標(biāo),DocUNet能夠直接輸出矯正后的文檔圖像,無需在特征提取和矯正之間切換不同的處理流程。DocUNet將兩個UNet進(jìn)行堆疊,通過第一個UNet的輸出,獲得初步的預(yù)測偏移圖,并疊加第一個UNet的輸出作為第二個UNet的輸入,來達(dá)到更好的矯正效果。這種方法大大簡化了文檔矯正流程,提高了矯正效率。Ma等人在后續(xù)工作中進(jìn)一步改進(jìn)了DocUNet,提出了DewarpNet模型[27]。該模型包含形狀網(wǎng)絡(luò)、紋理映射網(wǎng)絡(luò)和細(xì)化網(wǎng)絡(luò)三個部分,并重點考慮了失真文檔的三維幾何特性,通過增加三維信息,實現(xiàn)更加準(zhǔn)確的文檔矯正效果。DewarpNet在各種場景下都表現(xiàn)出了良好的泛化能力和優(yōu)秀的矯正效果。使用基于深度學(xué)習(xí)的方法來處理復(fù)雜文檔扭曲圖像,為圖像矯正領(lǐng)域的研究提供了新的方向。基于深度學(xué)習(xí)的彎曲圖像矯正方法,能夠適應(yīng)多種扭曲類型的文檔圖像矯正,包括手寫文檔等難以預(yù)設(shè)規(guī)則進(jìn)行處理的場景。然而,這些方法也面臨著對大量標(biāo)注數(shù)據(jù)的需求,以及如何進(jìn)一步提高矯正精度和速度的挑戰(zhàn)。1.3本文主要研究內(nèi)容 目前脈沖神經(jīng)網(wǎng)絡(luò)的研究主要局限于簡單的圖像分類任務(wù),甚至在目標(biāo)檢測、語義分割等復(fù)雜一些的任務(wù)場景上的應(yīng)用都非常有限,而對于圖像矯正,這一難度較高、可以視作無限類別數(shù)的語義分割任務(wù)的場景下,可以說幾乎沒有相關(guān)研究證實其有效性。對此,本文希望將脈沖神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域拓展到圖像矯正場景,提出基于脈沖信號的彎曲字母圖像矯正網(wǎng)絡(luò)模型。本文的主要工作如下: (1)本文通過平面的圖像彎曲算法,將平面的字母圖像進(jìn)行隨機(jī)扭曲,批量生成大量彎曲字母圖像以構(gòu)建彎曲字母圖像數(shù)據(jù)集。在形變類型中包含兩種類型,分別為彎曲形變和折疊形變,通過各自的算法模型計算出每個像素的位移向量,生成偏移圖。最后將偏移圖與原圖進(jìn)行疊加,即可生成扭曲圖像。 (2)針對彎曲字母圖像矯正這一場景,本文參考圖像處理領(lǐng)域經(jīng)典的ANN網(wǎng)絡(luò)模型UNet,將其簡化以作為網(wǎng)絡(luò)的主干架構(gòu),使用脈沖頻率編碼將圖像的像素顏色值轉(zhuǎn)換為脈沖信號,并采用STBP算法進(jìn)行反向傳播訓(xùn)練,提出了STBP-UNet網(wǎng)絡(luò)模型。傳統(tǒng)語義分割的ANN模型往往使用卷積核為1的卷積層進(jìn)行輸出通道的降維,本文根據(jù)生物神經(jīng)網(wǎng)絡(luò)特性,增大了卷積核尺寸,以提高對輸出神經(jīng)元的感受野,通過對比實驗驗證了這一改動可以達(dá)到更精確的矯正效果。(3)針對STBP-UNet在對較高分辨率的彎曲字母圖像進(jìn)行矯正時出現(xiàn)失真率較高的現(xiàn)象,本文在該模型的基礎(chǔ)上進(jìn)一步引入了Hebbian學(xué)習(xí)算法,在Unet的編碼部分和解碼部分之間加入基于Hebbian學(xué)習(xí)算法的隱藏層,提出了HP-UNet網(wǎng)絡(luò)模型。Hebbian學(xué)習(xí)算法的加入使得隱藏層中同時激活的神經(jīng)元之間的權(quán)重增強(qiáng),反之減弱,從而使網(wǎng)絡(luò)模型具備更強(qiáng)的特征處理能力、泛化性,也具有更強(qiáng)的生物可解釋性。此外,對脈沖發(fā)放的時間窗、激活閾值和膜電位衰減參數(shù)進(jìn)行調(diào)整,以使得增大參數(shù)量后的模型推理時間增長較少,并保持良好的矯正的效果。1.4本文組織結(jié)構(gòu) 第一章首先介紹使用SNN進(jìn)行彎曲字符圖像矯正的背景和意義,接著介紹目前SNN研究領(lǐng)域的一些里程碑式的成果和彎曲文檔圖像矯正的一些主流技術(shù),然后介紹本文的主要工作和創(chuàng)新點。 第二章將對SNN的相關(guān)知識與理論進(jìn)行介紹,為后續(xù)的研究闡述做理論鋪墊。首先將介紹生物神經(jīng)元模型,以及受此啟發(fā)的不同脈沖神經(jīng)元模型,接著將介紹一些經(jīng)典的SNN學(xué)習(xí)算法及其不同的適用場景。 第三章將介紹本文所用的彎曲字母圖像的合成算法、流程,以及如何制作訓(xùn)練和驗證使用的數(shù)據(jù)集。 第四章將詳細(xì)闡釋本文所提出的兩個SNN模型——STBP-UNet,及在其基礎(chǔ)上融合了Hebbian學(xué)習(xí)規(guī)則的HP-UNet。 第五章將首先對模型使用的損失函數(shù)以及輸出圖像的評價指標(biāo)進(jìn)行介紹,接著給出實驗的詳細(xì)參數(shù)配置,最后對實驗的結(jié)果進(jìn)行展示和分析。 第六章針對本文所做的研究工作進(jìn)行總結(jié),同時指出本研究中尚未解決的問題和本文研究中存在的局限性,提出未來可能的研究方向,為進(jìn)一步的應(yīng)用落地提出可能的解決思路。

2、脈沖神經(jīng)網(wǎng)絡(luò)相關(guān)知識及理論2.1引言 脈沖神經(jīng)網(wǎng)絡(luò),作為第三代神經(jīng)網(wǎng)絡(luò),通過模擬生物神經(jīng)系統(tǒng)中的脈沖動作來傳遞信息,具有高度的生物仿真性,在處理時序數(shù)據(jù)等任務(wù)中顯示出了獨(dú)特的優(yōu)勢。本章將從生物神經(jīng)元模型開始,詳細(xì)介紹它們的結(jié)構(gòu)和功能,為理解脈沖神經(jīng)元模型奠定基礎(chǔ)。隨后,本章將介紹幾種主流的脈沖神經(jīng)元模型,解析其如何實現(xiàn)并模擬真實的神經(jīng)動作。最后,將詳細(xì)闡述一些有代表性的脈沖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,這是使得網(wǎng)絡(luò)結(jié)構(gòu)能夠自我優(yōu)化、處理復(fù)雜任務(wù)的關(guān)鍵。2.2生物神經(jīng)元模型人腦中的數(shù)十億個生物神經(jīng)元由突觸進(jìn)行連接,形成了一個極其龐大的信息傳遞和處理網(wǎng)絡(luò),即人類的中樞神經(jīng)系統(tǒng)。神經(jīng)元細(xì)胞的結(jié)構(gòu)包括樹突、細(xì)胞體、和軸突,這三個部分依次完成對信號的輸入、處理和輸出過程,如圖2-1所示。圖2-1神經(jīng)元細(xì)胞的基本結(jié)構(gòu)示意圖Figure2-1Basicstructureofaneuroncell神經(jīng)元之間的信號傳遞主要依賴于突觸結(jié)構(gòu),包括電突觸和化學(xué)突觸。電突觸允許神經(jīng)元之間直接以離子電流形式傳遞信號,而化學(xué)突觸則涉及信號的轉(zhuǎn)化過程。當(dāng)動作電位到達(dá)化學(xué)突觸的突觸前末梢時,會引發(fā)突觸小泡向突觸間隙釋放神經(jīng)遞質(zhì),神經(jīng)遞質(zhì)隨后與突觸后膜上的受體結(jié)合,導(dǎo)致離子通道開放,進(jìn)而引起突觸后神經(jīng)元的電位(PostsynapticPotentials,PSP)變化,這一過程中電信號轉(zhuǎn)換為化學(xué)信號再轉(zhuǎn)成電信號,至此實現(xiàn)了信號傳遞的過程。神經(jīng)元功能的核心是生成和傳遞動作電位,涉及到膜電位的一系列變化,包括極化、去極化、復(fù)極化以及超極化等過程。這些變化由特定的離子通道和泵調(diào)控,以確保神經(jīng)信號的準(zhǔn)確傳遞和神經(jīng)元的迅速恢復(fù)。神經(jīng)元膜電位的變化是由細(xì)胞內(nèi)外的離子濃度差變化而決定的,通常在沒有接收任何信號時,神經(jīng)元保持在一種稱為靜息狀態(tài)的恒定膜電位下。接收到脈沖信號后,膜電位會短暫上升,而后逐漸恢復(fù)到靜息電位。脈沖信號分為興奮性和抑制性兩種,神經(jīng)元通過接收到的信號類型來調(diào)整當(dāng)前的膜電位,當(dāng)膜電位超過閾值,神經(jīng)元會激活并發(fā)放一個脈沖,并且膜電位會很快下降至低于靜息電位的水平,之后再逐漸恢復(fù)。在恢復(fù)期間就算神經(jīng)元再受到電刺激,都不會產(chǎn)生新的脈沖,這一段時間被稱作不應(yīng)期。此外,突觸的可塑性是記憶和學(xué)習(xí)的生理基礎(chǔ),其指的是突觸傳遞效能隨著使用頻率和強(qiáng)度變化的能力,包括長時程增強(qiáng)(long-termpotentiation,LTP)和長時程抑制(long-termdepression,LTD)。LTP是一種突觸傳遞效能隨著對突觸進(jìn)行高頻刺激而持續(xù)增強(qiáng)的現(xiàn)象。這個過程通常發(fā)生在兩個神經(jīng)元的連接處,當(dāng)一個神經(jīng)元反復(fù)或持續(xù)強(qiáng)烈地刺激另一個神經(jīng)元時,這種連接的效率就會增加,即神經(jīng)遞質(zhì)釋放的數(shù)量增多或突觸后神經(jīng)元對這些遞質(zhì)的反應(yīng)增強(qiáng)。這種效率的增加可以持續(xù)數(shù)小時甚至更長,從而增強(qiáng)了神經(jīng)網(wǎng)絡(luò)中特定路徑的信號傳遞能力。LTD是神經(jīng)系統(tǒng)另一種調(diào)整自身連接強(qiáng)度的方式,使得過去由于低頻或較弱的刺激而建立的突觸連接在效能上減弱,有助于去除舊的記憶或?qū)W習(xí)過程中無關(guān)的信息,從而使神經(jīng)網(wǎng)絡(luò)能夠適應(yīng)新的學(xué)習(xí)任務(wù)和不斷改變的環(huán)境。脈沖時序依賴性可塑性(STDP)是突觸的可塑性中一個關(guān)鍵機(jī)制,其指的是突觸強(qiáng)度的變化不僅僅取決于突觸前神經(jīng)元和突觸后神經(jīng)元的激活頻率,還依賴于兩者活動的相對時序。如果突觸前神經(jīng)元的比后神經(jīng)元先激活,則會導(dǎo)致突觸連接增強(qiáng)(LTP);相反,如果突觸后神經(jīng)元比前神經(jīng)元先激活,那么突觸連接就會減弱(LTD)。這種時序依賴性的變化使得突觸不僅能夠存儲信息,還能夠根據(jù)輸入信號的時序模式進(jìn)行編碼,為復(fù)雜的學(xué)習(xí)和記憶過程提供了一種動態(tài)的調(diào)節(jié)機(jī)制。2.3脈沖神經(jīng)元模型2.3.1HH模型HH模型(Hodgkin-Huxley模型)[7]是AlanHodgkin和AndrewHuxley于1952年提出用來描述神經(jīng)元動作電位的產(chǎn)生和傳播的一種量化模型。HH模型認(rèn)為神經(jīng)元的膜電位變化是由鈉離子(Na+)、鉀離子(K+)以及其他離子(如氯離子ClHH模型的膜電位變化,可以用下面的方程來描述:C 其中,Vm是膜電位,Cm是膜電容,Iext是流入細(xì)胞的電流,gNa、gK和gL分別是鈉、鉀和泄漏通道的電導(dǎo)值,dmdnd?其中,α和β是速率常數(shù),取決于膜電位VmHH模型較為精確地表達(dá)了脈沖神經(jīng)元動作電位的產(chǎn)生機(jī)制,但因其公式變量較多,計算復(fù)雜,并不適合用于構(gòu)建大規(guī)模的脈沖神經(jīng)網(wǎng)絡(luò),而更適合模擬少量的神經(jīng)元活動。

2.3.2LIF模型LeakyIntegrate-and-Fire(LIF)模型[28],即衰減累積激發(fā)模型,是SNN中使用最廣泛的神經(jīng)元模型之一,其依照生物大腦神經(jīng)元中的電荷積累和動作電位產(chǎn)生的過程來進(jìn)行信息的處理和傳遞。LIF模型的基本思想是將神經(jīng)元的行為簡化為脈沖累積和發(fā)放過程,通過對電流進(jìn)行積分來模擬神經(jīng)元的膜電位的累積變化,當(dāng)膜電位在脈沖的持續(xù)刺激下到達(dá)特定閾值時,神經(jīng)元會被激活并產(chǎn)生一個脈沖信號,同時膜電位會重置到靜息電位。LIF模型在Integrate-and-Fire(IAF)模型之上,加入了衰減(leaky)機(jī)制,即當(dāng)輸入的脈沖較少,或者突觸連接強(qiáng)度較弱,導(dǎo)致神經(jīng)元未被激活時,其膜電位會逐漸回落到靜息電位,這一特性使得LIF模型能夠更好地模擬生物神經(jīng)元的行為??。在電路模型中,通過將電阻R和電容C并聯(lián)組成簡化電路以進(jìn)行模擬,其中輸入電流I(t)通過電容進(jìn)行累積,而電阻則模擬了電流的衰減效應(yīng)。其數(shù)學(xué)模型可以表示為:τ其中,τ是時間常數(shù),其值為神經(jīng)元的膜電容與膜電阻的乘積,V是膜電位,R是膜電阻,I是輸入電流。當(dāng)膜電位V達(dá)到閾值Vthreshold時,神經(jīng)元將會發(fā)放一個脈沖,并且膜電位重置為靜息電位if通過電容的充放電過程,LIF模型實現(xiàn)了對輸入脈沖的累積與衰減,當(dāng)積累的電荷量超過特定閾值時,神經(jīng)元發(fā)放一個脈沖,并重置其電位以準(zhǔn)備下一次激活。LIF模型因其結(jié)構(gòu)簡單和高度泛用性而成為當(dāng)前應(yīng)用最廣泛的神經(jīng)元模型之一。雖然它在生物仿真性上不如HH模型那樣能夠詳細(xì)反映細(xì)胞膜上的離子通道動態(tài)變化,但它計算簡單,易于在硬件電路上實現(xiàn),其計算效率和簡化程度使其在實際應(yīng)用中廣受歡迎。2.3.3SRM模型SRM模型(SpikeResponseModel)[29]中脈沖神經(jīng)元的閾值并非固定,而是隨著時間不斷變化的??,膜電位的變化由神經(jīng)元接收到的輸入電流和神經(jīng)元過去發(fā)放的動作電位共同決定。SRM模型通過兩個關(guān)鍵函數(shù),脈沖響應(yīng)核函數(shù)和不應(yīng)期函數(shù),來描述這一過程。脈沖響應(yīng)核函數(shù)描述了由于突觸前神經(jīng)元的脈沖而引起的膜電位變化。該函數(shù)通常取決于脈沖到達(dá)的時間和脈沖的強(qiáng)度。在SRM模型不同的變種中,脈沖響應(yīng)核函數(shù)可以有不同的形式,例如指數(shù)衰減或其他生物學(xué)上合理的形式。脈沖響應(yīng)核函數(shù)的一般形式為:?其中,A是脈沖強(qiáng)度的系數(shù),τm不應(yīng)期函數(shù)則描述了神經(jīng)元在發(fā)放動作電位之后,由于離子通道動態(tài)變化導(dǎo)致的膜電位調(diào)整。雖然在這個階段,神經(jīng)元暫時無法再次發(fā)放脈沖,但相較于LIF模型等直接舍棄了對不應(yīng)期階段到達(dá)的突觸前脈沖的處理,SRM模型以較小的權(quán)重考慮該階段脈沖刺激對膜電位的影響。不應(yīng)期函數(shù)反映了動作電位后膜電位的恢復(fù)過程,通常采用如下形式:ηt=?B?在SRM模型中,神經(jīng)元的膜電位VV這里,Vrest是靜息電位,firingηtSRM模型通過上述方式細(xì)致地模擬了脈沖神經(jīng)元對輸入脈沖的響應(yīng)以及發(fā)放脈沖后的不應(yīng)期過程,使得該模型能夠精確地描述神經(jīng)元的時間動態(tài)行為。SRM模型兼具計算的簡易性以及較高的仿生性,使其應(yīng)用也較為廣泛。

2.4脈沖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法2.4.1無監(jiān)督的SNN學(xué)習(xí)算法無監(jiān)督的SNN學(xué)習(xí)算法主要受生物神經(jīng)網(wǎng)絡(luò)中的突觸可塑性原理啟發(fā),通過調(diào)整突觸連接權(quán)值實現(xiàn)學(xué)習(xí)。Hebbian學(xué)習(xí)規(guī)則是無監(jiān)督學(xué)習(xí)算法的基礎(chǔ),它提出如果一個突觸前神經(jīng)元的活動導(dǎo)致了突觸后神經(jīng)元激活,即在極短時間內(nèi)突觸前后神經(jīng)元同時激活,那么突觸傳遞的效率就會增加。在此基礎(chǔ)上引申出的STDP(Spike-TimingDependentPlasticity)規(guī)則[10],進(jìn)一步擴(kuò)展了Hebbian原理,通過考慮突觸前后神經(jīng)元的相對激活時序來調(diào)整突觸權(quán)重。如果突觸前神經(jīng)元激活后,突觸后神經(jīng)元緊隨其激活,則連接權(quán)值會增加;相反,如果突觸后神經(jīng)元先發(fā)放脈沖,則連接權(quán)值將減少。突觸權(quán)重的變化量Δw代表了因突觸前后神經(jīng)元的相對發(fā)放時刻差異而引起的突觸權(quán)重的調(diào)整量。具體地,ΔΔ其中,tpost和tpre分別為突觸后神經(jīng)元和突觸前神經(jīng)元的脈沖發(fā)放時刻。A+和A?是定義的正負(fù)權(quán)重變化的幅度因子,分別對應(yīng)于突觸權(quán)重增加和減少的情況。τ+和τ?是時間常數(shù),決定了權(quán)重變化隨時間的衰減速度。當(dāng)突觸后神經(jīng)元激活時刻在前神經(jīng)元的脈沖發(fā)放時刻之后(即tpost這種基于脈沖時序的權(quán)重調(diào)整機(jī)制使得SNN能夠在無監(jiān)督學(xué)習(xí)過程中自動提取重復(fù)出現(xiàn)的模式或序列中的時序信息,使得SNN能夠?qū)W習(xí)到復(fù)雜的輸入模式。三脈沖STDP是STDP的一個變種,由Pfister和Gerstne提出[30]??紤]到單一突觸前和突觸后的脈沖對突觸權(quán)重的影響可能不足以模擬復(fù)雜的生物學(xué)習(xí)過程,它引入了三個脈沖的情況:一個突觸前脈沖和兩個突觸后脈沖,或兩個突觸前脈沖和一個突觸后脈沖,以更細(xì)致地對生物突觸可塑性進(jìn)行建模。這種方法允許模型根據(jù)突觸前后脈沖之間的相對時序更精確地增強(qiáng)或減弱突觸連接,從而更好地模擬生物神經(jīng)網(wǎng)絡(luò)中的信息傳遞和學(xué)習(xí)機(jī)制。R-STDP則將獎勵機(jī)制引入STDP中[31],在R-STDP模型中,突觸權(quán)重的更新不僅取決于突觸前后神經(jīng)元的相對發(fā)放時刻,還取決于整個網(wǎng)絡(luò)的反饋,即獎勵信號。當(dāng)網(wǎng)絡(luò)的輸出接近目標(biāo)時,獎勵信號會增強(qiáng)正向的STDP調(diào)整,反之則增強(qiáng)負(fù)向調(diào)整。這種方法使得SNN能夠在沒有明確監(jiān)督信號的情況下,通過獎勵信號驅(qū)動學(xué)習(xí),提高網(wǎng)絡(luò)的任務(wù)性能。這些研究表明,無監(jiān)督的SNN學(xué)習(xí)算法不僅可以對輸入數(shù)據(jù)進(jìn)行有效的特征提取和模式識別,還能在保持生物可解釋性的同時,實現(xiàn)對復(fù)雜數(shù)據(jù)的高效處理。但目前的無監(jiān)督學(xué)習(xí)算法在處理復(fù)雜的數(shù)據(jù)集和任務(wù)時往往面臨性能上的限制,特別是在精確度和泛化能力方面,可能無法與監(jiān)督學(xué)習(xí)方法相匹敵。其次,這些算法在深層網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計和訓(xùn)練中也面臨著困難,因為它們主要依賴于局部的學(xué)習(xí)規(guī)則,這限制了它們在構(gòu)建和訓(xùn)練復(fù)雜網(wǎng)絡(luò)架構(gòu)時的有效性。2.4.2有監(jiān)督的SNN學(xué)習(xí)算法2.4.2.1SpikeProp算法SpikeProp算法[13]是一種基于梯度下降的監(jiān)督學(xué)習(xí)算法,利用脈沖的精確發(fā)放時間來傳遞信息。該算法的核心思想是通過線性假設(shè)將神經(jīng)元的膜電位和脈沖產(chǎn)生時間關(guān)聯(lián)起來,以解決SNN中激活函數(shù)不可導(dǎo)的問題,并利用梯度下降法對權(quán)重進(jìn)行更新。SpikeProp算法的誤差函數(shù)通?;谀繕?biāo)脈沖發(fā)放時間和實際脈沖發(fā)放時間之間的差異,公式定義為:E=其中,tjtarget和t突觸連接權(quán)重的更新公式為:w其中,η是學(xué)習(xí)率,?E?w通過反復(fù)迭代這一過程,SpikeProp算法可以逐漸調(diào)整SNN的權(quán)重,使得網(wǎng)絡(luò)的實際脈沖發(fā)放模式逼近目標(biāo)模式。SpikeProp算法開拓性地將反向傳播用于SNN,提供了一種有效的SNN訓(xùn)練方法。然而,這個算法也有局限性,表現(xiàn)在每個神經(jīng)元最多只能產(chǎn)生一個脈沖,這限制了它的訓(xùn)練效果。2.4.2.2Tempotron算法Tempotron算法[15]是一種基于時間編碼的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,首先由Gütig和Sompolinsky于2006年提出,其基本思想是利用神經(jīng)元的膜電位與閾值之間的差異來調(diào)整突觸權(quán)重,從而實現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)的過程。Tempotron算法使用的是LIF模型,它主要針對二分類任務(wù)進(jìn)行處理:對于期望產(chǎn)生動作電位的輸入模式,實際上卻沒有脈沖發(fā)放,會加強(qiáng)突觸傳遞效率;當(dāng)輸入脈沖模式不應(yīng)該產(chǎn)生動作電位,又錯誤地發(fā)放了脈沖時,則會減弱突觸傳遞效率??。該算法的誤差函數(shù)根據(jù)輸出神經(jīng)元的最大膜電位值是否超過閾值來判斷正負(fù)類數(shù)據(jù)的分類是否正確,進(jìn)而決定如何調(diào)整突觸權(quán)重。當(dāng)SNN錯誤地將正類數(shù)據(jù)判斷為負(fù)類時,即該發(fā)放脈沖而未發(fā)放的情況下,通過增大突觸連接權(quán)重使得輸出神經(jīng)元更容易被激活;而當(dāng)負(fù)類數(shù)據(jù)被錯誤地識別為正類時,即不該發(fā)放脈沖卻發(fā)放了的情況,則會減小權(quán)重來使輸出神經(jīng)元不易被激活??。盡管Tempotron算法展現(xiàn)了對簡單模式分類任務(wù)的有效性,但其單層網(wǎng)絡(luò)結(jié)構(gòu)限制了特征提取能力。為解決這一問題,后續(xù)研究提出將其與CNN結(jié)合,利用CNN的強(qiáng)大特征提取能力和SNN的低功耗優(yōu)勢,創(chuàng)建了能夠更好地提取特征的混合模型??。2.4.2.3ANN-SNN算法ANN-SNN的轉(zhuǎn)換技術(shù)是一種間接的學(xué)習(xí)方法,旨在解決直接在SNN上訓(xùn)練時遇到的梯度反向傳播困難的問題。通過在ANN上訓(xùn)練和更新權(quán)重后,再將這些權(quán)重遷移到SNN上進(jìn)行進(jìn)一步的優(yōu)化。這種方法利用了ANN的成熟模型架構(gòu)和理論,同時避免了直接在SNN上計算梯度的難題,從而使SNN能夠應(yīng)用于更大規(guī)模和更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)場景中。Cao等人[33]在2015年的研究中指出,ANN中ReLU神經(jīng)元的非線性激活函數(shù)與SNN中的IF神經(jīng)元發(fā)放頻率之間存在強(qiáng)關(guān)聯(lián)性,這一發(fā)現(xiàn)為ANN到SNN的轉(zhuǎn)換提供了理論基礎(chǔ)。轉(zhuǎn)換過程中,主要采用的方法是使用SNN中脈沖神經(jīng)元激活頻率來模擬ANN中的連續(xù)激活值。然而,這種轉(zhuǎn)換方法存在一些限制和精度損失的問題。限制主要包括,被轉(zhuǎn)化的ANN不能使用最大池化層,并且除ReLU外的其他激活函數(shù)也不可使用。而精度損失主要由三個原因造成:首先,在SNN中,對于負(fù)數(shù)值的表示較為困難;其次,SNN中也難以有效地表達(dá)傳統(tǒng)ANN中的偏置項;此外,對最大池化層的替代也進(jìn)一步增加了SNN的計算復(fù)雜程度。為解決這些問題,Cao等人[33]提出了在ANN中使用只有正值和零的ReLU激活函數(shù),移除偏置項,以及采用空間線性采樣操作而非最大池化。Rueckauer等人[34]的研究將傳統(tǒng)ANN中的softmax激活函數(shù)、最大池化層和批歸一化等技術(shù),轉(zhuǎn)換為SNN中的等效方法,并提出在SNN中使用恒定的輸入電流來模擬原本的偏置項,進(jìn)一步拓展了傳統(tǒng)ANN向SNN轉(zhuǎn)換的可能性。通過將ANN轉(zhuǎn)換為SNN,研究人員能夠直接利用ANN的成熟理論和結(jié)構(gòu),同時避免了SNN訓(xùn)練中的直接梯度計算問題,但存在一定的約束和精度損失問題。此外,轉(zhuǎn)化后的SNN要想達(dá)到較好的效果,需要較長的時間步進(jìn)行模擬。這些問題還需要進(jìn)一步被研究和攻克。2.4.2.4STBP算法STBP算法[17]是Wu等人提出的高效的SNN直接訓(xùn)練方法,能夠處理SNN的非連續(xù)性和非可微分性的特點。STBP算法通過近似梯度替代的方法來解決脈沖序列不可微的問題,從而使得基于時間和空間信息的梯度下降訓(xùn)練成為可能。該算法對LIF模型進(jìn)行迭代計算,利用在時間域(TemporalDomain,TD)和空間域(SpatialDomain,SD)上的信息共同對膜電位進(jìn)行更新。該算法中,空間域上的誤差傳播即為傳統(tǒng)ANN中從后往前傳播誤差的過程。對于時間域,則使用迭代的LIF模型,根據(jù)鏈?zhǔn)椒▌t將梯度反向傳播,而對于其中脈沖激活函數(shù)不可微的問題,Wu等人使用替代梯度的計算方法。該算法不僅保留了很高的生物可解釋性,計算也較為簡單,可用于構(gòu)建較大規(guī)模的SNN模型。STBP算法原理如圖2-2所示。圖2-2STBP算法原理圖Figure2-2STBPalgorithmschematicdiagramSTBP算法的關(guān)鍵在于使用迭代的LIF模型,并引入替代梯度方法,使得STBP能夠近似計算原本不可微過程的梯度,從而使得反向傳播算法可以在SNN上應(yīng)用。盡管這種方法引入了近似,但它仍具有較好的訓(xùn)練效率和準(zhǔn)確性,使得SNN的高效直接訓(xùn)練成為可能。該算法在圖像識別等領(lǐng)域的應(yīng)用展示了其在處理復(fù)雜數(shù)據(jù)時的潛力和有效性。2.5本章小結(jié)本章詳細(xì)地介紹了脈沖神經(jīng)網(wǎng)絡(luò)的相關(guān)知識及理論。首先從生物神經(jīng)元的基本結(jié)構(gòu)引入,介紹了生物信號是如何通過突觸進(jìn)行傳遞的,進(jìn)而介紹了突觸的可塑性,這是生物不斷學(xué)習(xí)和產(chǎn)生記憶的生理基礎(chǔ),啟發(fā)了很多脈沖神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。接著介紹了三種主流的脈沖神經(jīng)元模型,包括HH模型、LIF模型和SRM模型,分別討論了其特點及適用范圍,它們是SNN模型的基礎(chǔ),其中應(yīng)用最廣的是LIF模型。然后介紹了脈沖神經(jīng)網(wǎng)絡(luò)中的主流的學(xué)習(xí)算法,可以分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)兩種,為后續(xù)的研究內(nèi)容做理論鋪墊。

3、彎曲圖像數(shù)據(jù)集制作3.1引言本文探究基于脈沖神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)網(wǎng)絡(luò)模型對彎曲字符圖片的矯正效果,需要大量的彎曲字符圖片作為數(shù)據(jù)集,同時每張圖片都需要標(biāo)注信息以實現(xiàn)監(jiān)督學(xué)習(xí),對于圖像矯正任務(wù)來說,標(biāo)注的粒度是像素級別的,且不同于傳統(tǒng)的分類任務(wù)類別數(shù)是有限、離散的,其類別數(shù)是無限、連續(xù)值。為應(yīng)對這一挑戰(zhàn),本文使用圖像彎曲算法直接在2D平整圖像上應(yīng)用扭曲形變,并將每張圖片的形變偏移值保存下來作為該圖的標(biāo)注信息。3.3偏移圖生成算法利用平整圖像生成彎曲圖像,其關(guān)鍵是生成表示各個像素偏移方向與偏移量的偏移圖。偏移圖是一個與輸入圖像尺寸相同的雙通道三維張量,其第一個通道包含了圖像像素在豎直方向的偏移量,而第二通道則包含像素在水平方向的偏移量。通過將該偏移圖疊加到原始平整圖像上,并進(jìn)行重采樣,就可以得到彎曲圖像。對于圖像的彎曲形變,本研究基于以下假設(shè):如同現(xiàn)實世界中的紙質(zhì)文檔,圖像不會產(chǎn)生膨脹或壓縮形變。圖像形變由柔性彎曲和折疊彎曲構(gòu)成,對于復(fù)雜的彎曲形變情況都可以由這兩種形變疊加形成。圖像的彎曲形變由一個點開始,其周圍的像素會發(fā)生偏移,且這種偏移會向外傳播給所有的像素點。對于一般的彩色圖像,其尺寸為(h,w,3),其中h為圖片的高度,w為圖片的寬度,3對應(yīng)了R、G、B三個通道。首先在(h,w)范圍內(nèi)隨機(jī)選擇初始形變點,為了保證彎曲效果較明顯,將彎曲的中心點被限制在離圖像邊緣超過30%的區(qū)域內(nèi)。接著隨機(jī)生成彎曲的方向和強(qiáng)度,以向量v表示。由初始形變點和形變向量v可以確定一條直線l,計算每個像素點Pi與l的距離dw其中α控制彎曲形變的傳播范圍,α越大,則wi越接近1,意味著該彎曲形變傳播的范圍更大,而如果α較小,則彎曲形變主要限制在Pi周圍的局部區(qū)域[36]圖3-1一次折疊彎曲的偏移圖示例Figure3-1Exampleofanoffsetgraphofafold對于柔性彎曲形變,wi的計算公式如w式中α和β是用來控制彎曲強(qiáng)度的參數(shù)。進(jìn)行一次柔性彎曲形變的效果圖如圖3-2所示。圖3-2一次柔性彎曲的偏移圖示例Figure3-2Exampleofanoffsetgraphofacurve最終的彎曲偏移圖由多次的折疊彎曲和柔性彎曲疊加而成,圖3-3給出了最終的彎曲偏移圖示例。圖3-3多次彎曲疊加的偏移圖示例Figure3-3Exampleofanoffsetgraphwithmultiplebending3.2彎曲圖像合成方法及流程圖3-4展示了圖像扭曲合成的過程。在生成偏移圖時,首先將原圖進(jìn)行邊界擴(kuò)充,在本研究中以原圖尺寸的15%來擴(kuò)充邊界,以保證即便圖像經(jīng)過彎曲變形,其絕大部分區(qū)域仍在圖片中。接著將圖像縮放至目標(biāo)大小,以匹配適合神經(jīng)網(wǎng)絡(luò)模型處理的圖片尺寸大小。然后每張圖片會經(jīng)過隨機(jī)1到5次的彎曲變形,其中每次會首先隨機(jī)生成彎曲的中心。之后會隨機(jī)生成彎曲的方向和彎曲強(qiáng)度。然后確定彎曲類型,為了更符合現(xiàn)實中大多數(shù)的彎曲形變情況,有70%的概率是柔性彎曲,而30%的概率生成折疊彎曲。接下來,根據(jù)變形的種類,按照3.1節(jié)中像素偏移量的計算方法計算像素偏移量。通過這些步驟完成單次變形的偏移值計算,然后重復(fù)上述過程疊加多次變形的偏移值,從而得到最終的偏移圖。使用所得的偏移圖對平面的原始圖像進(jìn)行雙線性插值采樣,便可生成最終的彎曲圖像。在得到彎曲圖像的同時,將偏移圖以numpy數(shù)組的形式保存下來,作為該彎曲圖像的標(biāo)注信息,以供后續(xù)的監(jiān)督學(xué)習(xí)使用。圖3-4生成彎曲圖片流程圖Figure3-4Flowchartforgeneratingcurvedimages3.4彎曲字母圖像生成 在本研究中使用的字母圖像由photoshop軟件中輸入字母并導(dǎo)出為圖片得到,包含26個英文字母,其中每個字母使用了包括黑體等的多種字體,其中一些字體為仿手寫體,以期增強(qiáng)模型的通用泛化能力。 根據(jù)原圖中各個像素的坐標(biāo)值加上偏移圖的偏移向量,就得到了彎曲后各個像素坐標(biāo)的映射值。因為原圖像素的坐標(biāo)值為整數(shù),而計算彎曲的偏移量的數(shù)據(jù)類型為浮點類型,且在彎曲后會出現(xiàn)原始的幾個像素被映射到同一個位置到情況,所以在進(jìn)行重采樣映射的時候需要使用雙線性插值來填補(bǔ)空缺的像素位置。 每張原始的平整字母圖像經(jīng)過3.2節(jié)的彎曲圖像合成流程就可以得到彎曲圖像。最終的彎曲字母圖像示例如圖3-5所示(a)(b)(c)(d)圖3-5彎曲字母圖像示例,(a)(b)(c)(d)為不同的字母彎曲圖像Figure3-5Exampleofbentletterimages,(a),(b),(c),and(d)arebentpicturesfordifferentletters每個字母平均有四種不同的字體,原始平整字母圖片共107張,然后每張圖像隨機(jī)生成600張彎曲圖像,得到最終的數(shù)據(jù)集,一共有約6萬張彎曲字母圖像。此外,每張圖像都有一份標(biāo)注信息,數(shù)據(jù)集中還包括約6萬份標(biāo)注信息。3.5本章小結(jié) 本章介紹了本研究使用的彎曲字母圖像數(shù)據(jù)集的制作過程。首先介紹了彎曲偏移圖的生成算法,根據(jù)柔性彎曲和折疊彎曲的不同有各自對應(yīng)的偏移計算方法。接著給出了由平整圖像生成最終彎曲圖像的完整過程。最后在平整字母圖像上應(yīng)用上述流程得到彎曲字母圖像,通過批量制作得到最終的數(shù)據(jù)集。

4、彎曲字母矯正網(wǎng)絡(luò)模型4.1引言 近年來,相對于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),脈沖神經(jīng)網(wǎng)絡(luò)因其高生物可解釋性和高能效被更多地關(guān)注到,其在處理時序信息上的能力也在更廣泛的應(yīng)用中展現(xiàn)出潛力。對于目前彎曲文檔圖像矯正方法中部分字符仍存在變形的情況,本研究提出了基于脈沖神經(jīng)網(wǎng)絡(luò)的彎曲字母矯正網(wǎng)絡(luò)模型。本章首先提出STBP-Unet網(wǎng)絡(luò)模型,其參考了圖像處理領(lǐng)域經(jīng)典的UNet網(wǎng)絡(luò)模型作為主體架構(gòu),在網(wǎng)絡(luò)的信息傳遞方式與反向傳播模式則使用了STBP學(xué)習(xí)算法。HP-UNet網(wǎng)絡(luò)模型則是在STBP-UNet的基礎(chǔ)上進(jìn)一步融合更多生物特征,引入Hebbian學(xué)習(xí)規(guī)則的隱藏層,以強(qiáng)化網(wǎng)絡(luò)的特征處理能力和泛化能力。4.2STBP-UNet網(wǎng)絡(luò)模型設(shè)計4.2.1UNet網(wǎng)絡(luò)模型UNet模型[37]最早是為了用于醫(yī)學(xué)圖像處理而被提出的,因為其在圖像語義分割領(lǐng)域表現(xiàn)出色而被廣泛應(yīng)用。它是全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNetworks,F(xiàn)CN)的一個變種,不同于傳統(tǒng)CNN中,先用多個卷積層提取特征,最后接全連接層,將特征圖轉(zhuǎn)換為一個固定尺寸的向量以輸出全局分類信息的做法,F(xiàn)CN將全連接層都換成了卷積層,使得網(wǎng)絡(luò)可以輸出逐像素的分類預(yù)測值。圖4-1是UNet的網(wǎng)絡(luò)模型結(jié)構(gòu),因其整體結(jié)構(gòu)形似字母“U”而得名,“U”的左半部分為編碼器,包括多個卷積層和最大池化操作。輸入圖片尺寸為572x572,因為卷積層沒有設(shè)置padding,導(dǎo)致每次卷積操作都會使特征圖在每條邊上減少兩個像素,在兩次卷積之后進(jìn)行一次池化核為2x2的最大池化,將特征圖的尺寸縮小到二分之一,與此同時特征圖的通道數(shù)變?yōu)榱嗽瓉淼膬杀?。一共進(jìn)行4次上述步驟,特征圖變?yōu)樵即笮〉募s1/16。編碼器部分主要作用是提取輸入圖像在不同尺寸和維度上的特征信息,隨著層次深度的加深,特征圖的尺寸越來越小,維度越來越大,特征信息也越來越抽象。“U”的右半部分為解碼器,包括轉(zhuǎn)置卷積層和卷積層,轉(zhuǎn)置卷積可以將特征圖放大,以達(dá)到還原原圖尺寸的目的。在UNet的每一層都引入了跳躍連接的結(jié)構(gòu)(圖4-1中的灰色箭頭),它將同層的編碼過程中提取出來的輸出特征圖與上一層經(jīng)過轉(zhuǎn)置卷積放大后尺寸相同的特征圖在維度上進(jìn)行拼接,使得淺層具象的圖像特征信息和深層抽象的圖像特征信息可以相融合,旨在在還原原圖尺寸的過程中,既能有效處理圖片整體特征,又能較好地還原細(xì)節(jié)和邊緣信息。最后使用1x1的卷積核對輸出特征圖進(jìn)行降維,得到最終的分割結(jié)果。圖4-1UNet網(wǎng)絡(luò)模型結(jié)構(gòu)[37]Figure4-1UNetarchitecture4.2.2STBP-UNet網(wǎng)絡(luò)模型架構(gòu) 本文提出的STBP-UNet網(wǎng)絡(luò)模型以LIF作為神經(jīng)元模型,將傳統(tǒng)的UNet網(wǎng)絡(luò)模型加以調(diào)整和簡化作為網(wǎng)絡(luò)的主干部分,而對于網(wǎng)絡(luò)中的信息傳遞則使用了脈沖神經(jīng)網(wǎng)絡(luò)的直接監(jiān)督學(xué)習(xí)算法STBP。STBP-UNet的基本結(jié)構(gòu)如圖4-2所示。圖4-2STBP-UNet網(wǎng)絡(luò)模型結(jié)構(gòu)Figure4-2STBP-UNetarchitecture 該脈沖網(wǎng)絡(luò)模型采用頻率編碼,輸入三通道的圖像,將每個通道上的色彩強(qiáng)度值歸一化到[0,1]區(qū)間,在每個時間步內(nèi)按照概率發(fā)放脈沖信號,如果該通道的色彩強(qiáng)度值越大,則在該時間步發(fā)放脈沖的概率就越大。通過設(shè)置合理的時間窗(time_window)大小,脈沖信號會在網(wǎng)絡(luò)中傳播time_window次,每一個時間步的輸出脈沖信號會被累加(accumulate)。最后將累加的脈沖信號除以時間窗大小,得到每個神經(jīng)元的平均脈沖發(fā)放頻率。 在該網(wǎng)絡(luò)的前向傳播過程中,需要創(chuàng)建每一層的脈沖神經(jīng)元,在代碼實現(xiàn)上即需要初始化并更新每一層的膜電位參數(shù),每一層神經(jīng)元的數(shù)量與輸入圖像的尺寸相同。這就意味著相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),其參數(shù)量只與卷積核尺寸成正比,與輸入圖像尺寸無關(guān),而采用STBP學(xué)習(xí)算法的脈沖神經(jīng)網(wǎng)絡(luò),其參數(shù)量在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量的基礎(chǔ)上,還需要加上輸入圖像尺寸相當(dāng)?shù)膮?shù)。過多的參數(shù)會大量占用內(nèi)存空間,導(dǎo)致模型性能下降,所以該網(wǎng)絡(luò)的主干部分相較于經(jīng)典的UNet網(wǎng)絡(luò)進(jìn)行了簡化,其中編碼器部分的卷積層由兩層減為一層,而解碼器部分則只保留了轉(zhuǎn)置卷積層。Lu等人提出的Half-UNet[38]的解碼器部分只保留了上采樣操作,經(jīng)實驗驗證其效果與完整的UNet相似,但參數(shù)量大大減少了,這一研究為本文的簡化UNet設(shè)計提供了理論基礎(chǔ)。 網(wǎng)絡(luò)中使用迭代的LIF模型,其膜電位更新方程如公式4-1所示[39]。u 其中u是膜電位,τ是時間常數(shù),I是突觸前輸入。將1?Δtτ使用kτu 引入脈沖激活和膜電位重置機(jī)制,可以得到:ot+1u其中,n和ln分別代表第n層及其神經(jīng)元數(shù)量,wijn是從第n層的第j個神經(jīng)元到第n+1層的第i個神經(jīng)元的突觸權(quán)重,fx是階躍函數(shù),當(dāng)x>0時,算法1:mem_update輸入:第n+1層神經(jīng)元在t時刻的膜電位utn+1,第n層神經(jīng)元在t+1時刻的輸出脈沖o輸出:第n+1層神經(jīng)元在t+1時刻的膜電位ut+1n+1,第n1u2o3u4returnu由此,不同層之間的神經(jīng)元有不同的連接權(quán)重,這使得網(wǎng)絡(luò)模型能有效利用空間信息來調(diào)整網(wǎng)絡(luò)連接;而每個神經(jīng)元上一時刻的脈沖發(fā)放情況會影響到下一時刻的膜電位和脈沖發(fā)放,這使得網(wǎng)絡(luò)模型能利用脈沖的時序信息,構(gòu)建相應(yīng)的脈沖時序模式。傳統(tǒng)ANN中多使用最大池化來縮小特征圖,然而對于脈沖神經(jīng)網(wǎng)絡(luò)而言,在一塊區(qū)域內(nèi)取最大值并沒有什么意義,例如對于2x2的區(qū)域只要有一個為1,則取1,否則為0,這樣會導(dǎo)致大量的信息丟失。所以本文的模型采用平均池化來代替最大池化操作,在減小特征圖尺寸的同時,盡可能多地保留特征圖的信息。在進(jìn)行語義分割任務(wù)時,傳統(tǒng)ANN中使用尺寸為1x1的卷積核來對輸出特征圖的維度降到數(shù)據(jù)集包含的需要區(qū)分的總類數(shù)n,最后使用softmax函數(shù)來計算各個像素屬于每一類的概率。對于本文提出的模型,使用1x1的卷積核來提取脈沖神經(jīng)網(wǎng)絡(luò)的輸出脈沖特征圖并沒有表現(xiàn)出良好的效果。在生物層面,距離較近的神經(jīng)元通常一起激活,這表明使用一塊區(qū)域內(nèi)的神經(jīng)元來共同決定單個像素的偏移預(yù)測值會比使用單個神經(jīng)元更合理。所以本文的模型將由平均脈沖頻率特征圖輸出偏移預(yù)測圖的卷積核尺寸設(shè)置為5x5,提高了最終輸出層的感受野,如圖4-3所示。這意味著每個像素的偏移預(yù)測值最多由25個脈沖神經(jīng)元決定,減輕了單個神經(jīng)元在給定時間窗內(nèi)發(fā)放脈沖頻率的負(fù)擔(dān),將其分擔(dān)到神經(jīng)元群之上,以提升網(wǎng)絡(luò)模型的偏移預(yù)測效果和魯棒性。與此同時,使用神經(jīng)元群來進(jìn)行決策也可以使得網(wǎng)絡(luò)模型可以在更小的時間窗內(nèi)完成推理,提高網(wǎng)絡(luò)模型的推理速度。圖4-3輸出卷積層示意圖Figure4-3Outputconvolutionallayerdiagram4.3HP-UNet網(wǎng)絡(luò)模型設(shè)計4.3.1HP學(xué)習(xí)算法 HP(HybridPlacticity)算法,即混合可塑性算法,是Wu等人[40]于2022年在STBP算法的基礎(chǔ)上,又引入了Hebbian的學(xué)習(xí)規(guī)則,而提出的一種新的脈沖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)框架。它旨在通過模擬人腦中存在的兩種主要學(xué)習(xí)機(jī)制,全局可塑性(GlobalPlasticity,GP)和局部可塑性(LocalPlasticity,LP),來實現(xiàn)更高效和靈活的學(xué)習(xí)能力。 GP通過全局的反饋信號來對網(wǎng)絡(luò)進(jìn)行整體的調(diào)整和優(yōu)化,它使用傳統(tǒng)的誤差反向傳播算法或其他全局優(yōu)化策略,根據(jù)網(wǎng)絡(luò)輸出與期望輸出之間的差異來更新網(wǎng)絡(luò)中的連接權(quán)重,以使得網(wǎng)絡(luò)模型向著整體輸出誤差減少的方向?qū)W習(xí)。LP則是利用局部的脈沖發(fā)放情況進(jìn)行學(xué)習(xí)和自我權(quán)重調(diào)整,它不依賴于全局的誤差信號,而是根據(jù)神經(jīng)元自身的活動情況以及其與鄰近神經(jīng)元的交互來調(diào)整突觸連接強(qiáng)度,以使得網(wǎng)絡(luò)可以“記住”過往的脈沖發(fā)放模式,使神經(jīng)網(wǎng)絡(luò)更加高效、泛用性更好。LP學(xué)習(xí)算法的例子包括Hebbian學(xué)習(xí)規(guī)則、STDP學(xué)習(xí)規(guī)則等,本研究中使用的是Hebbian學(xué)習(xí)規(guī)則,即讓同時激活的神經(jīng)元之間的連接權(quán)重增強(qiáng),反之減弱。 HP算法提出了元局部模塊(Meta-LocalModule)來作為連接GP和LP的橋梁。它引入了一些獨(dú)立于全局誤差更新的元參數(shù),來調(diào)整GP和LP對連接權(quán)重的影響比例,以整合來自GP和LP的信號,并根據(jù)這些信號協(xié)同調(diào)整網(wǎng)絡(luò)的學(xué)習(xí)過程,使網(wǎng)絡(luò)最終收斂到一個穩(wěn)定的協(xié)同工作模式。圖4-4GP過程、LP過程及HP過程[40]Figure4-4GP,LP,andHPprocesses圖4-4左上部分為LP學(xué)習(xí)過程,在信號前向傳播的過程中會根據(jù)前后神經(jīng)元的脈沖發(fā)放情況來調(diào)整神經(jīng)元間的連接權(quán)重,調(diào)整依據(jù)僅僅為局部的神經(jīng)活動情況。左下部分是GP學(xué)習(xí)過程,先前向傳播,接著計算模型輸出和期望輸出之間的誤差,將誤差反向傳播,沿著梯度下降最快的方向調(diào)整全局連接權(quán)重。圖的右半部分即為融合了GP和LP的HP學(xué)習(xí)過程,在反向傳播的過程中還會根據(jù)全局的誤差信息來調(diào)整作用于LP學(xué)習(xí)規(guī)則的元參數(shù)。4.3.2HP-UNet網(wǎng)絡(luò)模型 本文在STBP-Unet的基礎(chǔ)上,引入了使用HP算法的隱藏層,并對膜電位激活閾值、衰減因子等進(jìn)行了適當(dāng)調(diào)整,進(jìn)一步提出了HP-UNet網(wǎng)絡(luò)模型,其基本結(jié)構(gòu)如圖4-5所示。圖4-5HP-UNet網(wǎng)絡(luò)模型結(jié)構(gòu)Figure4-5HP-Unetarchitecture HP-UNet在U型網(wǎng)絡(luò)的底部,編碼器和解碼器之間,加了兩層全連接層,其權(quán)重的更新規(guī)則使用了HP學(xué)習(xí)算法。對于編碼器輸出的256通道的特征圖,首先將其展開為一維的特征圖,經(jīng)過一次全連接操作,將其尺寸縮小至512,再經(jīng)過一層全連接層,其尺寸恢復(fù)到原來的大小,最后將其重新變?yōu)?56維的特征圖輸入解碼器部分。該模型中HP學(xué)習(xí)算法的膜電位更新和脈沖發(fā)放的偽代碼如下:算法2:mem_update_HP輸入:第n+1層神經(jīng)元在t時刻的膜電位utn+1和輸出脈沖otn+1j,第n層神經(jīng)元在t+1時刻的輸出脈沖ot+1nj,全局權(quán)重矩陣W輸出:第n+1層神經(jīng)元在t+1時刻的膜電位ut+1n+1,第n+1層神經(jīng)元在t+1時刻的輸出脈沖o1ut+12o3W4setWlp5returnu其中,為了在局部權(quán)重矩陣Wlp圖4-6tanh函數(shù)圖像Figure4-6tanhfunctiongraph 當(dāng)輸入脈沖ot,in+1為1時,如果當(dāng)前層神經(jīng)元被激活(ut+1,jn+1/Vth>1),則tanh作用于正值上,其函數(shù)值也為正值,權(quán)重W 此外,在HP-UNet的時間窗口中,還引入了隨時間步長的衰減因子,如式子4-5所示。decay decay_factor隨著時間步長step的增大而逐漸減小,其以權(quán)重的形式作用于脈沖神經(jīng)元的輸出信號上,使越早發(fā)放的信號對網(wǎng)絡(luò)輸出影響越大,而對于晚發(fā)放的神經(jīng)元有一定的懲罰效果。這使得脈沖的發(fā)放時間順序也會對信息的傳輸產(chǎn)生影響,增加了網(wǎng)絡(luò)模型的動態(tài)性,提高網(wǎng)絡(luò)模型的效率。 HP-UNet仍然使用解碼器部分來提取輸入圖像的特征,加入使用HP算法的隱藏層可以對這些特征進(jìn)行進(jìn)一步的提取和處理,提高網(wǎng)絡(luò)的矯正彎曲圖像效果。同時它會根據(jù)脈沖激活情況來學(xué)習(xí)歷史的脈沖時序模式,對于同時激活的神經(jīng)元,其連接會增強(qiáng),下一次有突觸前脈沖到達(dá)時,突觸后神經(jīng)元就會更容易被激活;而對于突觸前神經(jīng)元發(fā)放脈沖,突觸后神經(jīng)元的膜電位離激活閾值相去甚遠(yuǎn)的情況,它們的連接權(quán)重就會下降,未來有該突觸前神經(jīng)元的脈沖到達(dá)時,突觸后神經(jīng)元也更不容易被激發(fā)。這使得網(wǎng)絡(luò)可以在局部動態(tài)調(diào)整其結(jié)構(gòu),使網(wǎng)絡(luò)能夠更高效、穩(wěn)定地收斂到期望的脈沖時序模式,并在未來的神經(jīng)活動中更容易地激發(fā)這套脈沖時序模式,使網(wǎng)絡(luò)具有記憶力。4.4本章小結(jié) 本章詳細(xì)介紹了本文所提出的兩個脈沖神經(jīng)網(wǎng)絡(luò)模型,首先是STBP-UNet,它以簡化的UNet作為骨架,使用迭代式的LIF神經(jīng)元,并采用STBP算法來直接進(jìn)行監(jiān)督學(xué)習(xí),構(gòu)建了一個可以用于彎曲字母矯正的脈沖神經(jīng)網(wǎng)絡(luò)模型。在STBP-UNet的基礎(chǔ)上,又融合了HP學(xué)習(xí)算法,進(jìn)一步提出了HP-UNet,其具有更好的性能和生物仿真性。

5、實驗過程及分析5.1引言 本文提出了STBP-UNet和HP-UNet,本章將詳細(xì)介紹在這個兩個脈沖神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行的彎曲字母圖像矯正的實驗過程,并對實驗結(jié)果進(jìn)行分析。包括在訓(xùn)練網(wǎng)絡(luò)模型的過程中使用的損失函數(shù)、對網(wǎng)絡(luò)模型輸出的矯正預(yù)測圖像使用的圖像評價指標(biāo)、本研究的實驗環(huán)境及詳細(xì)的參數(shù)配置。最后會給出實驗數(shù)據(jù),并對彎曲字母圖片的矯正結(jié)果進(jìn)行分析。5.2損失函數(shù) 本實驗中使用的損失函數(shù)為:Ld 其中,yi為輸出的像素偏移預(yù)測值,yi?5.3評價指標(biāo) 為了評估網(wǎng)絡(luò)模型對彎曲字符的矯正效果,比起色彩,更關(guān)注圖像的結(jié)構(gòu)信息,故本實驗使用多尺度結(jié)構(gòu)相似性指數(shù)(MS-SSIM)作為矯正圖像的評價指標(biāo)。結(jié)構(gòu)相似性指數(shù)(SSIM)主要從三個維度對圖像相似度進(jìn)行評價:亮度、對比度和結(jié)構(gòu)。而MS-SSIM是SSIM的擴(kuò)展,它對原始圖像進(jìn)行多次下采樣操作,以生成不同尺度的圖像,然后在每個尺度上進(jìn)行上計算SSIM值,最后將這些SSIM值通過加權(quán)平均綜合起來,得到最終的MS-SSIM評分。該方法通過引入多尺度分析,增強(qiáng)了評價指標(biāo)的魯棒性和準(zhǔn)確性,相比單尺度方法具有更大的靈活性。MS-SSIM能更好地與人眼對圖像的主觀感知相一致。MS-SSIM的值越接近1,表明圖片的相似度越高。5.4實驗環(huán)境及設(shè)置 本實驗主要使用Pytorch深度學(xué)習(xí)框架來實現(xiàn)本文所提出的兩個網(wǎng)絡(luò)模型,并使用NVIDIAT416GB顯卡和CUDA12.2進(jìn)行模型訓(xùn)練。本實驗的數(shù)據(jù)集包括64x64尺寸的十萬張彎曲字母圖片,和128x128尺寸的約六萬張彎曲字母圖片,每張圖片由第三章的方法生成,包含多次隨機(jī)彎曲和不同的彎曲類型。數(shù)據(jù)集中80%的圖片作為訓(xùn)練集,剩下20%作為測試圖片集。一共進(jìn)行10輪的迭代訓(xùn)練,在每輪訓(xùn)練過程中分批對模型訓(xùn)練,每批數(shù)據(jù)量為10。實驗中使用Adam優(yōu)化器,每迭代三輪,學(xué)習(xí)率下降到1/5。 在本實驗中STBP-UNet網(wǎng)絡(luò)模型和HP-UNet網(wǎng)絡(luò)模型的參數(shù)設(shè)置如表5-1所示。當(dāng)數(shù)據(jù)集的圖像尺寸擴(kuò)大到128x128時,本文提出的網(wǎng)絡(luò)模型的參數(shù)量也會隨之?dāng)U大。為了使得訓(xùn)練推理時間維持在一個合理的范圍內(nèi),實驗中將時間窗大小調(diào)整為一半,相應(yīng)地調(diào)整了膜電位激活閾值和膜電位衰減因子的參數(shù)值,使得在較短的時間窗內(nèi),也有與之前相近的激活率,從而在平衡訓(xùn)練時間的同時,盡可能保持模型的性能。表5-1模型參數(shù)Table5-1Modelparameters參數(shù)STBP-UNet(64x64)STBP-UNet(128x128)HP-UNet(128x128)描述thresh0.50.350.35膜電位激活閾值decay0.20.40.4膜電位衰減因子time_window201010時間窗大小gp_learning_rate1e-31e-31e-3全局學(xué)習(xí)率lp_learning_rate//5e-4局部學(xué)習(xí)率τ//40脈沖輸出權(quán)重衰減參數(shù)w//0.95LP權(quán)重衰減因子

5.5實驗結(jié)果與分析5.5.1輸出卷積核尺寸評估圖5-1不同輸出卷積核尺寸的STBP-UNet逐像素?fù)p失折線圖Figure5-1LinechartoflossfunctionperpixelforSTBP-UNetwithdifferentoutputconvolutionkernelsizes實際圖彎曲圖1x1預(yù)測圖5x5預(yù)測圖圖5-2不同輸出卷積核尺寸的STBP-UNet矯正彎曲字母效果示例Figure5-2ExamplesoftheeffectofSTBP-UNetwithdifferentoutputconvolutionkernelsizesoncorrectingbentletters表5-2不同輸出卷積核尺寸的STBP-UNet矯正效果MS-SSIM評估Table5-2MS-SSIMevaluationofSTBP-UNetcorrectioneffectwithdifferentoutputconvolutionkernelsizesSTBP-UNet輸出卷積核尺寸平均MS-SSIM1x10.948635x50.97673 由圖5-1,可以看到,使用5x5輸出卷積核尺寸的STBP-UNet比1x1尺寸的損失下降速度更快,在第一個迭代輪次損失就出現(xiàn)了明顯下降,且最終收斂的損失也更低。兩者對64x64分辨率的彎曲字母圖片的矯正效果如圖5-2所示,兩者均能實現(xiàn)將彎曲的字母矯正回平整的狀態(tài),但是輸出卷積核尺寸為1x1的STBP-UNet在邊緣和細(xì)節(jié)上出現(xiàn)了較明顯的失真

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論