




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于YOLOv7的自動駕駛道路目標(biāo)識別設(shè)計(jì)摘要近年來,自動駕駛技術(shù)已經(jīng)逐漸嶄露頭角,成為了學(xué)術(shù)界和商業(yè)界關(guān)注的焦點(diǎn)。在眾多關(guān)鍵技術(shù)中,道路目標(biāo)的識別與檢測占據(jù)了一個至關(guān)重要的地位。它為自動駕駛系統(tǒng)提供了必要的決策依據(jù),幫助車輛理解并遵守路面規(guī)則。然而,盡管其重要性不可或缺,目前存在的檢測算法卻往往難以同時達(dá)到精確性和迅捷性的雙重要求。為了應(yīng)對目前道路監(jiān)控系統(tǒng)在車輛、行人、交通燈等識別方面存在的準(zhǔn)確度不足的挑戰(zhàn),最近提出了一種以YOLOv7為基礎(chǔ)的道路目標(biāo)檢測新方法。此方法首先創(chuàng)建了一個專門針對道路監(jiān)控視角的車輛數(shù)據(jù)集。接著,通過融合GhostNet與YOLOv7網(wǎng)絡(luò),實(shí)現(xiàn)了一個輕量級的檢測模型。通過在關(guān)鍵的特診層上引入通道注意力機(jī)制,該模型進(jìn)一步降低了道路目標(biāo)的漏檢率。最后通過對車輛行駛路段的實(shí)時視頻進(jìn)行檢測識別,就能對行駛車輛作出一定的操作指令,從而實(shí)現(xiàn)車輛自動駕駛道路目標(biāo)識別的作用。雖然經(jīng)過多年不斷發(fā)展,YOLOv7為道路目標(biāo)識別提供了一種快速且準(zhǔn)確的解決方案,但仍需關(guān)注其在某些設(shè)計(jì)和環(huán)境條件下的局限性。關(guān)鍵詞:YOLOv7;道路目標(biāo)識別;GhostNet;輕量化檢測模型DesignofRoadTargetRecognitionforAutonomousDrivingBasedonYOLOv7AbstractInrecentyears,autonomousdrivingtechnologyhasgraduallyemergedandbecomeafocusofattentioninbothacademicandbusinesscircles.Amongnumerouskeytechnologies,roadtargetrecognitionanddetectionoccupyacrucialposition.Itprovidesthenecessarydecision-makingbasisfortheautodrivesystemtohelpthevehicleunderstandandcomplywiththeroadrules.However,despiteitsindispensableimportance,currentdetectionalgorithmsoftenstruggletomeetthedualrequirementsofaccuracyandspeedsimultaneously.Inordertoaddressthechallengeofinsufficientaccuracyinidentifyingvehicles,pedestrians,trafficlights,etc.incurrentroadmonitoringsystems,anewroadobjectdetectionmethodbasedonYOLOv7hasrecentlybeenproposed.Thismethodfirstcreatesavehicledatasetspecificallydesignedforroadmonitoringperspectives.Subsequently,alightweightdetectionmodelwasimplementedbyintegratingGhostNetandYOLOv7networks.Byintroducingchannelattentionmechanismonkeydiagnosticlayers,thismodelfurtherreducesthemisseddetectionrateofroadtargets.Finally,bydetectingandrecognizingreal-timevideosofthevehicle'sdrivingroute,certainoperationalinstructionscanbegiventothedrivingvehicle,therebyachievingthefunctionofautomaticdrivingroadtargetrecognition.AlthoughYOLOv7hasprovidedafastandaccuratesolutionforroadtargetrecognitionafteryearsofcontinuousdevelopment,attentionstillneedstobepaidtoitslimitationsincertaindesignandenvironmentalconditions.KeyWords:YOLOv7;RoadTargetRecognition;GhostNet;LightweightDetectionModel目錄摘要 第1章引言1.1研究背景隨著城市化進(jìn)程的加速和汽車保有量的持續(xù)增長,道路交通狀況日益復(fù)雜。特別是在高速公路和城市主干道上,車輛密度大、交通流量高,給道路安全管理帶來了巨大挑戰(zhàn)。那么我們開發(fā)一種高效、準(zhǔn)確的道路目標(biāo)識別技術(shù),對于提升道路交通安全、減少交通事故,是有著非常重要的作用的。智能交通系統(tǒng)的快速發(fā)展為道路目標(biāo)識別技術(shù)提供了廣闊的應(yīng)用場景。智能交通系統(tǒng)憑借先進(jìn)的傳感器、通信和計(jì)算機(jī)技術(shù)的集成應(yīng)用,實(shí)現(xiàn)了對道路交通狀況的實(shí)時精準(zhǔn)監(jiān)控與高效管理。其中,道路目標(biāo)識別技術(shù)作為該系統(tǒng)的核心組成部分,展現(xiàn)出對車輛、行人等道路目標(biāo)的精確識別能力,為交通管理提供了強(qiáng)有力的技術(shù)支持與保障。自動駕駛技術(shù)的興起也推動了道路目標(biāo)識別技術(shù)的研究。自動駕駛車輛需要能夠準(zhǔn)確識別道路上的各種目標(biāo),包括車輛、行人、交通標(biāo)志等,以實(shí)現(xiàn)自主導(dǎo)航和智能決策。道路目標(biāo)識別技術(shù)的精確度和實(shí)時響應(yīng)能力對于自動駕駛技術(shù)的持續(xù)進(jìn)步具有舉足輕重的關(guān)鍵作用。隨著計(jì)算機(jī)視覺和人工智能技術(shù)的飛速發(fā)展,道路目標(biāo)識別技術(shù)的研究得到了強(qiáng)大的技術(shù)支持與推動。通過利用深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù),道路目標(biāo)識別算法的性能得到了顯著提升,能夠更好地適應(yīng)復(fù)雜多變的道路環(huán)境。國內(nèi)道路目標(biāo)識別技術(shù)的研究背景主要基于道路交通安全管理的需求、智能交通系統(tǒng)和自動駕駛技術(shù)的發(fā)展以及計(jì)算機(jī)視覺和人工智能技術(shù)的進(jìn)步。這些因素共同推動了道路目標(biāo)識別技術(shù)的研究和應(yīng)用。1.2國內(nèi)研究現(xiàn)狀道路目標(biāo)識別作為計(jì)算機(jī)視覺領(lǐng)域的一大關(guān)鍵分支,專注于對道路環(huán)境中多種目標(biāo)進(jìn)行自動化檢測與細(xì)致分類。在復(fù)雜的交通場景中,行人、車輛和交通燈是最基本且最關(guān)鍵的目標(biāo)。它們的準(zhǔn)確識別對于保障交通安全、提高交通效率以及推動智能交通系統(tǒng)的發(fā)展具有不可替代的作用。圖1-1識別示例行人是道路交通中最脆弱的參與者,他們的安全直接關(guān)系到交通事故的發(fā)生率和嚴(yán)重程度。通過實(shí)時準(zhǔn)確地識別行人,智能駕駛系統(tǒng)可以及時做出反應(yīng),避免潛在的碰撞風(fēng)險(xiǎn)。在自動駕駛和輔助駕駛系統(tǒng)中,行人識別是實(shí)現(xiàn)人車有效交互的基礎(chǔ)。車輛需要準(zhǔn)確感知行人的意圖和行為,以做出合理的駕駛決策。在城市監(jiān)控系統(tǒng)中,行人識別有助于實(shí)現(xiàn)異常行為檢測、人流統(tǒng)計(jì)等智能化功能,從而提升城市管理的效率和安全性REF_Ref25862\r\h[1]。通過先進(jìn)的車輛識別技術(shù),我們能夠?qū)崟r監(jiān)控道路交通流量,為交通管理部門提供寶貴的數(shù)據(jù)支持,從而有助于優(yōu)化交通信號控制和路線規(guī)劃,提升整體交通效率。此外,該技術(shù)還能自動識別違章車輛,如違規(guī)停車、闖紅燈等行為,對于維護(hù)交通秩序、減少交通事故發(fā)生具有舉足輕重的意義。在自動駕駛領(lǐng)域,車輛識別更是關(guān)鍵技術(shù)之一,它要求系統(tǒng)能夠精確識別周圍車輛的位置、速度和方向,確保自動駕駛過程的安全可靠。交通燈也是道路交通規(guī)則的重要組成部分。準(zhǔn)確識別交通燈的狀態(tài)對于確保車輛和行人遵守交通規(guī)則至關(guān)重要。通過實(shí)時識別交通燈信號,車輛可以合理調(diào)整行駛速度,減少不必要的停車和啟動,從而提高道路交通的流暢性和效率。交通燈識別技術(shù)與智能交通控制系統(tǒng)相結(jié)合,能夠?qū)崟r分析交通流量數(shù)據(jù),自動調(diào)整信號燈時長,從而優(yōu)化交通分配,提升道路通行效率。道路目標(biāo)識別技術(shù)在行人、車輛和交通燈識別方面展現(xiàn)出巨大的潛力。這些關(guān)鍵目標(biāo)的準(zhǔn)確識別不僅對于提升道路交通安全性和效率至關(guān)重要,也是推動智能交通系統(tǒng)發(fā)展的重要基石。未來,隨著算法的不斷優(yōu)化和計(jì)算能力的提升,我們有理由相信這一技術(shù)將在道路交通領(lǐng)域發(fā)揮更加顯著的作用。國內(nèi)道路目標(biāo)識別研究還涉及到深度學(xué)習(xí)、計(jì)算機(jī)視覺等多個領(lǐng)域。隨著算法的不斷優(yōu)化和計(jì)算能力的提升,道路目標(biāo)識別的準(zhǔn)確性和實(shí)時性得到了顯著提高。與此同時,國內(nèi)的研究機(jī)構(gòu)和高校也在積極開展相關(guān)研究工作,推動道路目標(biāo)識別技術(shù)的創(chuàng)新和應(yīng)用。但其仍面臨一些挑戰(zhàn),復(fù)雜多變的道路環(huán)境和交通狀況對目標(biāo)識別算法的魯棒性和準(zhǔn)確性提出了更高的要求。隱私和安全問題也是道路目標(biāo)識別技術(shù)發(fā)展過程中需要重視的問題。1.3主要研究內(nèi)容國內(nèi)道路目標(biāo)識別技術(shù)的主要研究內(nèi)容之一便是基于YOLO(YouOnlyLookOnce)的目標(biāo)檢測算法。(1)YOLO是一種先進(jìn)的深度學(xué)習(xí)算法,廣泛應(yīng)用于實(shí)時目標(biāo)檢測系統(tǒng)。我們主要研究的對象也是國內(nèi)道路上各種車輛行人等等。其原理也非常容易理解,YOLO算法的核心思想是將目標(biāo)檢測任務(wù)轉(zhuǎn)化為一個回歸問題,通過一次前向傳播即可在圖像中識別出目標(biāo)的位置和類別。這種設(shè)計(jì)使得YOLO具有速度快、精度高的特點(diǎn),非常適合應(yīng)用于道路目標(biāo)識別場景。在道路交通領(lǐng)域,YOLO算法被用于識別車輛、行人、交通標(biāo)志等關(guān)鍵目標(biāo)。通過訓(xùn)練模型,YOLO可以準(zhǔn)確地檢測出這些目標(biāo)的位置和類別,為智能交通系統(tǒng)提供重要的輸入信息。在算法這一領(lǐng)域也是非常多花樣,針對道路場景的復(fù)雜性和多樣性,研究者們對YOLO算法進(jìn)行了大量的優(yōu)化和改進(jìn)。例如,通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)損失函數(shù)、引入多尺度特征融合等方法,提高YOLO算法在道路目標(biāo)識別任務(wù)中的性能REF_Ref26356\r\h[2]。為了提高算法的實(shí)時性和準(zhǔn)確性,世界各地的研究人員還探索了如何結(jié)合其他技術(shù),如圖像處理、傳感器融合等,與YOLO算法進(jìn)行融合,以進(jìn)一步提升道路目標(biāo)識別的效果。(2)而在數(shù)據(jù)標(biāo)注處理上面,在道路目標(biāo)識別研究中,數(shù)據(jù)集的構(gòu)建和模型的訓(xùn)練是至關(guān)重要的環(huán)節(jié)。我們需要收集大量的道路場景圖像和視頻數(shù)據(jù),并進(jìn)行標(biāo)注和處理,以構(gòu)建適合YOLO算法訓(xùn)練的數(shù)據(jù)集。通過合理的模型訓(xùn)練策略,如選擇合適的優(yōu)化器、學(xué)習(xí)率、批次大小等參數(shù),以及采用數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)等技術(shù)手段,可以進(jìn)一步提高YOLO算法在道路目標(biāo)識別任務(wù)中的泛化能力和性能。國內(nèi)道路目標(biāo)識別技術(shù)的主要研究內(nèi)容之一便是基于YOLO的目標(biāo)檢測算法。通過對YOLO算法原理、優(yōu)化改進(jìn)以及數(shù)據(jù)集構(gòu)建和模型訓(xùn)練等方面的研究,可以不斷提升道路目標(biāo)識別的準(zhǔn)確性和實(shí)時性,為智能交通系統(tǒng)的發(fā)展提供有力支持。(3)標(biāo)注之后便是進(jìn)行數(shù)據(jù)處理以及數(shù)據(jù)增強(qiáng),這其中我們用到了YOLO-GhostNet主干網(wǎng)絡(luò)來進(jìn)行數(shù)據(jù)處理和增強(qiáng)。GhostNet是華為諾亞方舟實(shí)驗(yàn)室在CVPR2020大會上提出的創(chuàng)新神經(jīng)網(wǎng)絡(luò)模型。該模型在保持相同精度的情況下,其運(yùn)算速度和計(jì)算量均優(yōu)于目前業(yè)界領(lǐng)先的SOTA方法。鑒于當(dāng)前神經(jīng)網(wǎng)絡(luò)日益注重移動設(shè)備應(yīng)用的需求,對于模型壓縮的研究日趨重要。一些方法主要側(cè)重于模型的優(yōu)化與壓縮,如剪枝、量化和知識蒸餾等;而另一些方法則聚焦于高效的網(wǎng)絡(luò)設(shè)計(jì),如MobileNet和ShuffleNet等。GhostNet正是結(jié)合了這些優(yōu)點(diǎn),通過其獨(dú)特的設(shè)計(jì),實(shí)現(xiàn)了高效、輕量且性能卓越的特性,為移動端的深度學(xué)習(xí)應(yīng)用提供了新的可能。它可以對特征提取后生成的所有特征圖中,對其中的一個特征圖進(jìn)行(CheapOperations)簡單的線性運(yùn)算從而生成更多相似特征圖,從而可以使用更少的參數(shù)生成更多的特征圖,將相似的特征圖認(rèn)為是彼此的GhostREF_Ref27531\r\h[3]。原理介紹YOLOv7作為一款優(yōu)秀的目標(biāo)檢測器,它是在YOLOv5的基礎(chǔ)上進(jìn)行改進(jìn)和優(yōu)化得到的,它結(jié)合了眾多優(yōu)秀的先進(jìn)思想,共有YOLOv7-tiny、YOLOv7、YOLOv7-d6、YOLOv7-e6、YOLOv7-e6e、YOLOv7-w6六個版本。本文中一直用到的就是YOLOv7版本,既然如此,那當(dāng)然要好好地介紹一下咱們的主角--YOLOv7。以下我們從三個方面來介紹分析它:YOLOv7的網(wǎng)絡(luò)架構(gòu)、訓(xùn)練策略與優(yōu)化技術(shù)以及YOLOv7的創(chuàng)新點(diǎn)分析。2.1YOLOv7的網(wǎng)絡(luò)架構(gòu)YOLOv7的網(wǎng)絡(luò)架構(gòu)擁有眾多方面,其在被設(shè)計(jì)時,就考慮了諸多方面,譬如安全性、穩(wěn)定性、準(zhǔn)確性、平衡性等等。YOLOv7的網(wǎng)絡(luò)結(jié)構(gòu)精巧地劃分為三個主要部分:輸入端(input)、骨干網(wǎng)絡(luò)(backbone)以及頭部(head),如圖2-1所示。與YOLOv5有所不同的是,YOLOv7將原本的neck層和head層合并為一個新的head層,盡管名稱有所變化,但其在網(wǎng)絡(luò)中的功能仍保持一致。backbone負(fù)責(zé)從輸入圖像中提取關(guān)鍵特征,而head則負(fù)責(zé)利用這些特征進(jìn)行最終的預(yù)測。值得一提的是,YOLOv7在輸入端采用了多種先進(jìn)技術(shù),包括自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放以及數(shù)據(jù)增強(qiáng)方式,從而提升了模型的靈活性和預(yù)測準(zhǔn)確性。圖2-1YOLOv7網(wǎng)絡(luò)架構(gòu)示意圖不同顏色的Bconv表示卷積的kernel不同(k表示kernel長寬大小,s表示stride,o為outchannel,i為inchannel,其中o=i表示outchannel=inchannel,o≠i表示outchannel與inchannel無相關(guān)性,并非其值一定不相等).首先是(k=1,s=1)卷積核的卷積操作,該操作的特點(diǎn)是輸入輸出的長寬保持不變,主要目的是調(diào)整通道數(shù);接著采用(k=3,s=1)卷積核進(jìn)行卷積,同樣地,輸出的長寬也保持不變,這一步主要是為了提取圖像的特征;最后利用(k=3,s=2)卷積核進(jìn)行卷積操作,此時輸出的長寬會變?yōu)檩斎氲囊话?,這一步的主要作用是進(jìn)行下采樣操作。(如圖2-2)REF_Ref29683\r\h[7]圖2-2卷積通道示意圖它的骨干網(wǎng)絡(luò),通常以深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)為基礎(chǔ),用于精確提取輸入圖像中的關(guān)鍵特征。這些特征在后續(xù)的處理過程中,發(fā)揮著至關(guān)重要的作用,為檢測圖像中的目標(biāo)對象提供了有力的支持。在構(gòu)建骨干網(wǎng)絡(luò)時,我們采用了諸如CSPDarknet等流行的網(wǎng)絡(luò)架構(gòu),或是其他經(jīng)過深度優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),以確保特征提取的準(zhǔn)確性和高效性。此外,YOLOv7還引入了特征金字塔網(wǎng)絡(luò)(FPN)的概念,旨在實(shí)現(xiàn)多尺度上的目標(biāo)檢測。FPN通過精心設(shè)計(jì)的上采樣和特征融合策略,將來自不同網(wǎng)絡(luò)層的特征圖進(jìn)行有效整合,從而顯著提升了跨尺度目標(biāo)檢測的準(zhǔn)確性和穩(wěn)定性。這一創(chuàng)新性的設(shè)計(jì)使得YOLOv7在復(fù)雜場景和多變目標(biāo)尺寸下,仍能保持出色的檢測性能。這有助于算法更好地檢測不同大小的目標(biāo)對象。檢測頭是YOLOv7架構(gòu)中的一個關(guān)鍵組件,負(fù)責(zé)生成目標(biāo)對象的邊界框和類別預(yù)測。它采用類似于先前YOLO版本的錨框(anchorboxes)機(jī)制,但也有所改進(jìn),以提高檢測性能和準(zhǔn)確性。YOLOv7使用損失函數(shù)來優(yōu)化模型的預(yù)測結(jié)果。這些損失函數(shù)通常包括邊界框回歸損失(用于預(yù)測目標(biāo)的位置)和分類損失(用于預(yù)測目標(biāo)的類別)。這些損失函數(shù)在訓(xùn)練過程中被最小化,以提高模型的準(zhǔn)確性。為了提高性能和減少計(jì)算成本,YOLOv7采用了一系列優(yōu)化和加速技術(shù)。例如,它使用了模型剪枝、量化或知識蒸餾等方法來減小模型大小并提高推理速度。此外,它還采用了數(shù)據(jù)增強(qiáng)技術(shù)來增加訓(xùn)練數(shù)據(jù)的多樣性,從而提高模型的泛化能力REF_Ref29683\r\h[7]。2.2車輛、行人和交通燈識別的傳統(tǒng)方法車輛、行人和交通燈構(gòu)成了智能交通系統(tǒng)中不可或缺的關(guān)鍵元素。在深度學(xué)習(xí)技術(shù)廣泛應(yīng)用之前,傳統(tǒng)的識別方法主要依賴于圖像處理、計(jì)算機(jī)視覺以及機(jī)器學(xué)習(xí)技術(shù)的結(jié)合。對于車輛的識別,傳統(tǒng)方法往往基于圖像處理技術(shù),例如邊緣檢測、形狀分析以及紋理識別等手段。這些方法通過精細(xì)地提取圖像中的特征,如邊緣、角點(diǎn)以及顏色直方圖等,來實(shí)現(xiàn)對車輛的準(zhǔn)確識別。在特征提取方面,常用的方法包括Sobel、Canny等邊緣檢測算法,以及HOG(方向梯度直方圖)等高級技術(shù),它們共同為智能交通系統(tǒng)的車輛識別提供了有力的技術(shù)支持。然后,這些特征會被輸入到分類器(如SVM、AdaBoost等)中進(jìn)行分類和識別。行人識別同樣依賴于圖像處理和計(jì)算機(jī)視覺技術(shù)。傳統(tǒng)方法中,常用的特征提取方法包括HOG、Haar特征等。這些特征能夠捕捉到行人的形狀、邊緣和紋理信息。此外,行人的運(yùn)動特征(如光流法)也被用于行人檢測。在特征提取后,通常使用分類器(如SVM、決策樹等)進(jìn)行行人的檢測和識別。交通燈識別的傳統(tǒng)方法主要依賴于顏色分割和形狀識別。由于交通燈通常具有固定的顏色和形狀(紅、黃、綠圓形或箭頭形狀),因此可以通過顏色過濾和形狀匹配來進(jìn)行識別。首先,通過顏色空間轉(zhuǎn)換(如RGB轉(zhuǎn)HSV)和閾值分割來提取特定顏色的區(qū)域。然后,對這些區(qū)域進(jìn)行形狀分析,如圓形度檢測、邊緣檢測等,以確定是否為交通燈。當(dāng)然,傳統(tǒng)方法之所以成為傳統(tǒng)方法,也是因?yàn)樗兴木窒扌栽谄渲?。例如,這些方法對光照條件、背景干擾和遮擋等因素較為敏感,可能導(dǎo)致識別性能下降。此外,傳統(tǒng)方法通常需要手工設(shè)計(jì)特征提取器,這既耗時又需要專業(yè)知識,且對于復(fù)雜多變的交通場景可能難以設(shè)計(jì)出有效的特征。2.3基于深度學(xué)習(xí)的目標(biāo)識別方法近年來,基于深度學(xué)習(xí)的目標(biāo)識別方法已成為計(jì)算機(jī)視覺領(lǐng)域的研究焦點(diǎn),并取得了令人矚目的顯著成果。多種目標(biāo)識別方法也是天女散花般泉涌而出,包括:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)、單階段目標(biāo)檢測(YOLO)等等。本次設(shè)計(jì)中,我們將采用單階段目標(biāo)檢測(YOLO)的目標(biāo)識別方法,來探索基于YOLOv7的道路目標(biāo)識別。下面也讓我來為大家分別簡單概述一下這幾種主流的深度學(xué)習(xí)目標(biāo)識別方法REF_Ref29602\r\h[6]:(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN):作為深度學(xué)習(xí)中的明星模型之一,尤其擅長處理圖像處理任務(wù)。在目標(biāo)識別領(lǐng)域,CNN通過巧妙的多層卷積、池化以及非線性激活函數(shù)等操作,能夠自動地從原始圖像中挖掘并提取出層次化的特征表示。這些精心提煉的特征進(jìn)而被傳遞給分類器(如全連接層、Softmax等),從而實(shí)現(xiàn)精準(zhǔn)的目標(biāo)識別和分類。(2)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN):是一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的高效目標(biāo)檢測方法。它通過生成圖像中的一系列候選區(qū)域,并對每個區(qū)域進(jìn)行特征提取和細(xì)致分類,從而實(shí)現(xiàn)了精確的目標(biāo)識別和定位。R-CNN及其優(yōu)化版本,如FastR-CNN和FasterR-CNN,在目標(biāo)檢測任務(wù)中取得了卓越的成果,為計(jì)算機(jī)視覺領(lǐng)域的發(fā)展注入了新的活力。(3)單階段目標(biāo)檢測算法(如YOLO系列、SSD等):與R-CNN系列方法存在顯著區(qū)別。這類算法將目標(biāo)檢測和分類任務(wù)集成在一個單一的神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)了從輸入到輸出的端到端目標(biāo)識別。由于這種整合性設(shè)計(jì),單階段目標(biāo)檢測算法不僅具有較快的檢測速度,還保持了較高的準(zhǔn)確率,因此特別適用于實(shí)時目標(biāo)檢測場景。2.4深度學(xué)習(xí)在目標(biāo)識別中的應(yīng)用目標(biāo)識別是計(jì)算機(jī)視覺領(lǐng)域的一個重要任務(wù),旨在從圖像或視頻中自動識別和定位出感興趣的目標(biāo)對象。近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展為目標(biāo)識別領(lǐng)域帶來了革命性的進(jìn)步。深度學(xué)習(xí)是一種基于神經(jīng)網(wǎng)絡(luò)的先進(jìn)機(jī)器學(xué)習(xí)方法,它模擬人腦神經(jīng)元的連接與交互機(jī)制,從而實(shí)現(xiàn)對復(fù)雜數(shù)據(jù)的精細(xì)處理與深入分析。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)憑借其卓越的特征表達(dá)能力和更高的性能表現(xiàn),尤其擅長應(yīng)對大規(guī)模、高維度的圖像數(shù)據(jù)處理任務(wù),展現(xiàn)出強(qiáng)大的應(yīng)用潛力。那么隨著深度學(xué)習(xí)越來越迅速的發(fā)展,它的應(yīng)用場景逐漸變得廣泛起來,以下我來列舉幾個比較有代表性的應(yīng)用場景,相信大家也會十分熟悉:(1)自動駕駛:在自動駕駛領(lǐng)域,深度學(xué)習(xí)是實(shí)現(xiàn)車輛周圍環(huán)境感知和障礙物識別的關(guān)鍵技術(shù)。通過處理車載攝像頭和傳感器捕捉的圖像數(shù)據(jù)(如圖2-3),深度學(xué)習(xí)模型可以準(zhǔn)確識別行人、車輛、交通標(biāo)志等目標(biāo),為自動駕駛決策提供重要依據(jù)REF_Ref27626\r\h[4]。圖2-3自動駕駛(2)人臉識別:深度學(xué)習(xí)技術(shù),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN),在人臉識別領(lǐng)域有廣泛應(yīng)用。通過訓(xùn)練大量的面部圖像數(shù)據(jù),深度學(xué)習(xí)模型可以準(zhǔn)確地識別出人臉,并進(jìn)一步進(jìn)行身份驗(yàn)證或識別。(如學(xué)校門口以及宿舍樓下的人臉識別門禁機(jī)。圖2-4)圖2-4人臉識別(3)疫情時期安全監(jiān)控:在疫情四起的那個時期,深度學(xué)習(xí)可以幫助實(shí)現(xiàn)自動化、智能地的目標(biāo)檢測和異常行為、溫度識別(如圖2-5)。例如,通過分析監(jiān)控視頻,深度學(xué)習(xí)算法可以檢測出疑似密接者,亦或者是檢測到異常體溫,并及時發(fā)出警報(bào)。圖2-5溫度報(bào)警2.5現(xiàn)有研究的局限性與挑戰(zhàn)即使在現(xiàn)如今發(fā)展地相對來說已經(jīng)完善的目標(biāo)識別檢測技術(shù)下,其仍然存在一些局限性,限制著我們?nèi)ジ玫赝瓿赡繕?biāo)識別檢測。就最基本的每日上下班早晚高峰中的復(fù)雜道路路況,胡亂穿梭的行人、一眼望不到頭的車流,如果再加上一些下雨、下雪、烈日反光等等一系列復(fù)雜影響因素,這些因素可能導(dǎo)致圖像質(zhì)量下降,目標(biāo)特征模糊,從而增加識別的難度。例如,在強(qiáng)烈陽光下,車輛的反射光可能導(dǎo)致檢測算法失效;而在霧霾或雨天,能見度降低也會使識別變得困難。那么對于道路上的目標(biāo)檢測識別來說,會是一個不小的挑戰(zhàn)REF_Ref29455\r\h[5]。再者,道路目標(biāo)識別系統(tǒng)通常需要實(shí)時處理視頻流數(shù)據(jù),以便及時做出決策。然而,深度學(xué)習(xí)模型通常需要大量的計(jì)算資源,這可能導(dǎo)致處理速度變慢,無法滿足實(shí)時性要求。攝像頭像素和精度也會成為一個問題,在識別的圖像中,遠(yuǎn)處的小目標(biāo)(如行人、自行車等)可能只占據(jù)圖像中的很小一部分像素REF_Ref29935\r\h[8]。這些小目標(biāo)的特征信息較少,容易被忽略或誤檢(如圖2-6)。圖2-6未成功識別示例同時為了克服這些局限性和挑戰(zhàn),現(xiàn)今的深度學(xué)習(xí)算法研究員們也正在不斷探索新的方法和技術(shù)。例如,利用輕量級網(wǎng)絡(luò)結(jié)構(gòu)、模型剪枝和量化等技術(shù)來降低計(jì)算復(fù)雜度,提高處理速度;采用多尺度特征融合、注意力機(jī)制等方法來改進(jìn)小目標(biāo)檢測的性能;利用無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等技術(shù)來減少對標(biāo)注數(shù)據(jù)的依賴;以及通過數(shù)據(jù)增強(qiáng)、正則化等手段來提高模型的魯棒性。第3章系統(tǒng)整體設(shè)計(jì)3.1設(shè)計(jì)流程對于本次設(shè)計(jì),我大致將其分為以下幾個步驟(如圖3-1):YOLO相關(guān)環(huán)境搭建及實(shí)驗(yàn)準(zhǔn)備數(shù)據(jù)集的準(zhǔn)備和預(yù)處理訓(xùn)練數(shù)據(jù)集并進(jìn)行改進(jìn)(4)結(jié)果展示圖3-1設(shè)計(jì)流程3.2相關(guān)環(huán)境搭建及實(shí)驗(yàn)準(zhǔn)備在本次實(shí)驗(yàn)設(shè)計(jì)中,我們選定YOLOv7作為主要模型,旨在實(shí)現(xiàn)車輛行駛過程中,對道路上各種復(fù)雜場景下的目標(biāo)進(jìn)行精確識別。重點(diǎn)任務(wù)在于對行人、車輛以及交通燈等關(guān)鍵目標(biāo)進(jìn)行準(zhǔn)確檢測與分類,以此全面評估YOLOv7在道路目標(biāo)識別任務(wù)中的實(shí)際性能表現(xiàn)。實(shí)驗(yàn)伊始,首要任務(wù)是收集數(shù)據(jù)集。在此過程中,選取適宜道路目標(biāo)識別的公開數(shù)據(jù)集顯得尤為關(guān)鍵,例如COCO、KITTI或是根據(jù)需求定制的自定義數(shù)據(jù)集。確保數(shù)據(jù)集中囊括充足的行人、車輛和交通燈樣本,以支撐后續(xù)的識別任務(wù)。隨后,需將數(shù)據(jù)集轉(zhuǎn)換為YOLOv7兼容的格式,通常表現(xiàn)為每張圖像對應(yīng)一個txt文件,內(nèi)含目標(biāo)的類別和邊界框坐標(biāo)信息。在數(shù)據(jù)處理階段,我們須對數(shù)據(jù)集進(jìn)行細(xì)致劃分,將其精心組織為訓(xùn)練集、驗(yàn)證集和測試集三部分,以確保模型訓(xùn)練的全面性和有效性。其中,訓(xùn)練集專用于模型的訓(xùn)練過程,確保模型能夠?qū)W習(xí)到數(shù)據(jù)的內(nèi)在規(guī)律和特征;驗(yàn)證集則用于模型的選擇,通過不斷調(diào)整模型參數(shù)和結(jié)構(gòu),在驗(yàn)證集上達(dá)到最優(yōu)性能;最后,測試集獨(dú)立于前兩者,用于客觀評估模型的性能,確保模型的泛化能力和實(shí)際應(yīng)用效果。實(shí)驗(yàn)環(huán)境相關(guān)的配置,也有一定的要求。配置高性能的GPU服務(wù)器,以確保模型訓(xùn)練和推理的效率。(1)本次論文使用的配置環(huán)境為:系統(tǒng):Windows10專業(yè)版CPU:英特爾?
酷睿?
i3-12100F內(nèi)存:16GBDDR43200MHz(8GB+8GB)顯卡:NVIDIAGeForceGTX1660SUPER(6GB/英偉達(dá))軟件環(huán)境:YOLOv7、Pycharm2020.1(ProfessionalEdition)、GITBASH、Anaconda等等一切前期工作準(zhǔn)備完畢之后,即可正式開始實(shí)驗(yàn)設(shè)計(jì)。(YOLOv7環(huán)境安裝首先,我們需要搭建YOLO所需的外部環(huán)境。第一步是在Anaconda官網(wǎng)上下載對應(yīng)版本的安裝包。安裝Anaconda的目的是為了搭建Python的虛擬環(huán)境,以便隔離不同項(xiàng)目的依賴項(xiàng),確保YOLOv7的detect和train操作在終端中能夠順利進(jìn)行。完成Anaconda的安裝后,接下來是安裝Pycharm。同樣,我們只需前往官網(wǎng)下載適合的版本即可。Pycharm是一個強(qiáng)大的Python集成開發(fā)環(huán)境,由于YOLOv7的源碼主要使用Python編寫,因此安裝Pycharm將極大地便利我們后續(xù)對YOLOv7相關(guān)源碼的打開、編譯和運(yùn)行,以及進(jìn)行深入的分析和查看。而在Anaconda和Pycharm成功安裝之后,CUDA架構(gòu)的安裝則顯得尤為關(guān)鍵,因?yàn)樗菍?shí)現(xiàn)YOLOv7高效運(yùn)行的重要基石。CUDA是由英偉達(dá)(NVIDIA)推出的一種集成技術(shù),正式名稱為通用并行計(jì)算架構(gòu)(GPGPU)。借助這一先進(jìn)技術(shù),用戶不僅能夠利用NVIDIA的GPU進(jìn)行圖像處理,更能進(jìn)行其他多種運(yùn)算操作。CUDA的引入標(biāo)志著GPU首次可以作為C編譯器的開發(fā)環(huán)境,為計(jì)算領(lǐng)域帶來了革命性的突破。簡要來說cuda是我們電腦gpu必要的開發(fā)包,我們后面所有的訓(xùn)練推理乃至于pytorch的安裝都需要cuda與GPU的結(jié)合。(安裝過程在附錄))(2)數(shù)據(jù)集:為了模擬真實(shí)的車輛行駛中道路目標(biāo)識別情況,本次數(shù)據(jù)集均為本人駕駛車輛在珠海市香洲區(qū)各個路段的真實(shí)行駛路況,并且對行車記錄視頻進(jìn)行分幀檢測,視頻分辨率為1920*1080。(3)數(shù)據(jù)標(biāo)注:通過使用LabelImg工具,標(biāo)注目標(biāo)為三類:car(道路上的車輛)、person(行人)和traffic-light(包括紅黃綠燈).共標(biāo)注7040張圖片,各類別目標(biāo)數(shù)量如表3-1所示:表3-1Car、Person、Traffic-light標(biāo)注統(tǒng)計(jì)數(shù)量標(biāo)簽類別目標(biāo)類型目標(biāo)數(shù)量1Car29882Person32763Traffic-light776合計(jì)/7040(4)參數(shù)設(shè)置根據(jù)實(shí)驗(yàn)相關(guān)的設(shè)備性能以及功能需求,我們可以在YOLOv7文件夾中的train.py文件中設(shè)置模型訓(xùn)練參數(shù)。主要參數(shù)為:epochs=100,batch_size=8,輸入圖片分辨率規(guī)格為640×640。(如圖3-2)圖3-2訓(xùn)練參數(shù)代碼部分第4章數(shù)據(jù)處理及改進(jìn)4.1數(shù)據(jù)集的準(zhǔn)備和預(yù)處理本論文所需要的數(shù)據(jù)集,大多為人、車輛、交通燈圖片,所以我也在論文方向確定之后,馬上前往各個網(wǎng)站進(jìn)行相關(guān)圖片收集。目前已收集7040張相關(guān)圖片以供訓(xùn)練。收集完畢之后,便是需要進(jìn)行人工標(biāo)注工具來讓系統(tǒng)訓(xùn)練識別目標(biāo)。在這個關(guān)鍵時刻,labelImg軟件成為了我們的得力助手。作為一款由Python編寫的圖形圖像注釋工具,它巧妙地利用了Qt構(gòu)建其直觀易用的圖形界面。labelImg不僅支持對圖像進(jìn)行精準(zhǔn)標(biāo)注,更允許用戶輕松選取圖像中的特定區(qū)域,并為其添加標(biāo)簽或類別名稱。這些批注信息可以以PASCALVOC格式(即ImageNet所使用的格式)保存為XML文件,便于后續(xù)處理與分析。此外,labelImg還兼容YOLO格式(即文本格式),進(jìn)一步拓寬了其應(yīng)用范圍,滿足不同用戶的需求。在進(jìn)行標(biāo)注時,需要創(chuàng)建文件夾,并將需要打標(biāo)簽的圖片存放在指定的文件夾中。我們使用LabelImg的標(biāo)注功能,在圖像中選擇目標(biāo)區(qū)域并為其添加相應(yīng)的標(biāo)簽。標(biāo)注完成后,LabelImg可以生成符合指定格式的數(shù)據(jù)集,以便后續(xù)的機(jī)器學(xué)習(xí)訓(xùn)練使用。那么接下來也就進(jìn)入我們的labelImg標(biāo)注時間。①安裝labelImg提前安裝好Anaconda環(huán)境,在開始菜單下找到Anaconda文件夾,并以管理員身份運(yùn)行AnacondaPrompt(anaconda)(如圖4-1)圖4-1AnacondaPrompt打開AnacondaPrompt(anaconda)后,在命令框內(nèi)輸入pipinstalllabelImg,labelImg就會自動安裝。(如圖4-2)圖4-2labelImg安裝安裝完成之后,重新打開AnacondaPrompt(anaconda),在命令框內(nèi)輸入labelImg即可打開labelImg程序。(如圖4-3)圖4-3labelImg界面②人工標(biāo)注環(huán)節(jié)接下來,我們將進(jìn)入人工標(biāo)注環(huán)節(jié)。首先,我們需要導(dǎo)入一張預(yù)先收集好的圖片。然后,點(diǎn)擊“CreateRectBox”按鈕,隨后在圖片上單擊并釋放鼠標(biāo)左鍵,以此來選擇一個特定的區(qū)域進(jìn)行矩形框的標(biāo)注。此外,您還可以使用鼠標(biāo)右鍵拖動矩形框,實(shí)現(xiàn)其復(fù)制或移動的功能,以滿足不同的標(biāo)注需求。(如圖4-4)圖4-4標(biāo)注矩形以此類推,每張圖片都用如此方法操作,直到收集到的擬訓(xùn)練圖片全部完成標(biāo)注。在完成一張圖片的標(biāo)記后,系統(tǒng)將自動在我們預(yù)先設(shè)定的存儲xml文件的文件夾中生成一個對應(yīng)的xml文件。完成標(biāo)注之后便創(chuàng)建對應(yīng)的yaml文件,名稱為voc.yaml,對象為3個,分別是:person,car,traffic-light。(如圖4-5)圖4-5voc.yaml文件到此為止,數(shù)據(jù)集標(biāo)注的任務(wù)就完成了。4.2改進(jìn)GhostNet主干網(wǎng)絡(luò)對于日新月異的識別技術(shù)的提升,以及對神經(jīng)網(wǎng)絡(luò)識別技術(shù)的需求日漸增加,多種改進(jìn)方法也慢慢出現(xiàn)。本文所采用的便是改進(jìn)GhostNet主干網(wǎng)絡(luò)。鑒于嵌入式設(shè)備內(nèi)存與計(jì)算資源的局限性,部署卷積神經(jīng)網(wǎng)絡(luò)(CNN)頗具挑戰(zhàn)。盡管冗余的特征圖是成功神經(jīng)網(wǎng)絡(luò)的關(guān)鍵特征之一,但在神經(jīng)架構(gòu)設(shè)計(jì)中卻鮮有研究。為此,我們創(chuàng)新性地提出了Ghost模塊,它旨在通過低成本的操作生成更多的特征圖。該模塊以一組內(nèi)在特征圖為基礎(chǔ),通過一系列線性變換,以較低的成本生成大量重影特征圖,這些重影特征圖能夠充分展現(xiàn)內(nèi)在特征的信息。Ghost模塊不僅可作為即插即用組件來增強(qiáng)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò),而且我們進(jìn)一步設(shè)計(jì)了Ghost瓶頸,通過堆疊Ghost模塊來構(gòu)建輕量級的GhostNet。基準(zhǔn)實(shí)驗(yàn)結(jié)果表明,Ghost模塊是基線模型中卷積層的卓越替代方案,并且我們的GhostNet在ImageNetILSVRC2012分類數(shù)據(jù)集上,以相似的計(jì)算成本實(shí)現(xiàn)了超越MobileNetV3的識別性能。GhostNet是一種輕量級的卷積神經(jīng)網(wǎng)絡(luò)(如圖4-6),其模型大小與計(jì)算復(fù)雜度均得到有效控制。該網(wǎng)絡(luò)的核心在于采用了GhostModule,該模塊通過降低特征圖通道間的相關(guān)性,顯著減少了模型參數(shù)數(shù)量,進(jìn)而提升了模型的運(yùn)行效率。然而,在應(yīng)對目標(biāo)檢測任務(wù)時,我們發(fā)現(xiàn)GhostNet的主干網(wǎng)絡(luò)仍有進(jìn)一步優(yōu)化的空間,以滿足更高精度和速度的檢測需求。圖4-6GhostNet網(wǎng)絡(luò)結(jié)構(gòu)REF_Ref30176\r\h[15]GhostNet完全由GhostBottlenecks構(gòu)建而成。當(dāng)一張圖片被輸入到GhostNet時,它首先通過一個具有16通道的常規(guī)1×1卷積塊(包含卷積操作、標(biāo)準(zhǔn)化處理和激活函數(shù))。隨后,GhostBottlenecks開始堆疊,通過這些組件,當(dāng)輸入尺寸為224×224×3時,最終能夠生成一個7×7×160的特征層。接下來,為了調(diào)整通道數(shù),我們再次利用一個1×1的卷積塊,將其轉(zhuǎn)化為7×7×960的特征層。隨后,我們執(zhí)行全局平均池化操作,并再次通過一個1×1的卷積塊來調(diào)整通道數(shù),生成一個1×1×1280的特征層。最后,我們將這一特征層平鋪并連接至全連接層,從而完成分類任務(wù)REF_Ref30245\r\h[14]。(圖4-7)圖4-7GhostNet流程圖REF_Ref30176\r\h[15]簡而言之,便是改進(jìn)了GhostNet的YOLOv7,在訓(xùn)練過程中,能將一張圖片經(jīng)過神經(jīng)網(wǎng)絡(luò)特征提取后,得到許多張?zhí)卣鲌D,在特征圖中會有一些相似度特別高(如圖4-8),這是一種正常情況,屬于是神經(jīng)網(wǎng)絡(luò)中存在的特征圖冗雜的情況,而GhostNet可以對起其中的一個特征圖進(jìn)行簡單的線性運(yùn)算從而生成更多相似特征圖,從而可以使用更少的參數(shù)生成更多的特征圖,我們也將相似的特征圖認(rèn)為是彼此的Ghost。圖4-8特征圖相似示例[14]根據(jù)前輩們的研究,相對于其他的主干網(wǎng)絡(luò),更換了GhostNet主干網(wǎng)絡(luò)的YOLOv7對實(shí)驗(yàn)的精度和速度都有一定的提高(如圖4-9),所以本次實(shí)驗(yàn)我們選取了GhostNet主干網(wǎng)絡(luò)來進(jìn)行。圖4-9多種主干網(wǎng)絡(luò)對比圖[13]4.3數(shù)據(jù)集訓(xùn)練在YOLOv7文件夾中的data目錄下創(chuàng)建“Mydata”文件夾,目錄結(jié)構(gòu)如下(圖4-10),將之前l(fā)abelImg標(biāo)注好的xml文件和圖片放到對應(yīng)目錄下。圖4-10Mydata文件夾目錄結(jié)構(gòu)“Images”文件夾用于存放圖片,而“xml”文件夾則用于存放與這些圖片相對應(yīng)的xml文件。在后續(xù)的操作中,將在“Main”文件夾內(nèi)自動生成四個文件:train.txt、val.txt、test.txt和trainval.txt。這些文件分別用于存放訓(xùn)練集、驗(yàn)證集、測試集中圖片的名稱(不包含后綴.jpg),以便于數(shù)據(jù)的劃分和管理。在完成上述準(zhǔn)備工作后,接下來我們需要著手準(zhǔn)備labels。具體步驟是將數(shù)據(jù)集格式轉(zhuǎn)換成YOLO_txt格式,這意味著我們需要從每個xml標(biāo)注中提取出邊界框(bbox)的信息,并將其轉(zhuǎn)化為txt格式。每個圖像將對應(yīng)一個txt文件,且文件的每一行都代表一個目標(biāo)的信息。這些信息按照類別(class)、中心點(diǎn)橫坐標(biāo)(x_center)、中心點(diǎn)縱坐標(biāo)(y_center)、寬度(width)和高度(height)的順序進(jìn)行排列。這樣的轉(zhuǎn)換將使得數(shù)據(jù)更符合YOLO模型的輸入要求,從而便于后續(xù)的目標(biāo)檢測任務(wù)(圖4-11)。圖4-11YOLO_txt接下來,我們將從YOLOv7的GitHub開源網(wǎng)址上下載預(yù)訓(xùn)練模型,確保選擇對應(yīng)版本的模型以適配我們的需求,并對train.py文件進(jìn)行參數(shù)設(shè)置修改(圖4-12)。圖4-12train.py參數(shù)設(shè)置這里我們的參數(shù)設(shè)置為epochs=100,batch_size=8,輸入圖片分辨率規(guī)格為640×640。以上參數(shù)解釋如下:(1)epochs——它表示在訓(xùn)練過程中,整個數(shù)據(jù)集將被完整地遍歷和學(xué)習(xí)的次數(shù)。
(2)batch-size——它決定了在進(jìn)行權(quán)重更新之前,模型需要查看的圖片數(shù)量,即梯度下降算法中使用的mini-batch的大小。
(3)cfg——該文件用于存儲模型的結(jié)構(gòu)信息,定義了模型的基本組件和參數(shù)。
(4)data——此文件夾用于存放訓(xùn)練和測試所需的數(shù)據(jù)文件,包括圖片標(biāo)簽等信息。
(5)img-size——它指定了輸入圖片的寬度和高度,是模型處理圖像數(shù)據(jù)時的重要參數(shù)。所有準(zhǔn)備工作就緒后,輸入訓(xùn)練命令并運(yùn)行即可。 第5章結(jié)果分析與討論5.1模型性能的綜合評價(jià)更換完GhostNet主干網(wǎng)絡(luò)后,我們通過訓(xùn)練數(shù)據(jù)集并運(yùn)行detect.py文件,我們就可以得到識別效果圖片,并能看到前后對比的效果圖??梢郧宄每吹?,圖片識別的置信度也有明顯升高(圖5-1)。而且也可以從下文中看到,在我的設(shè)備性能不太足夠的情況下,識別速度也能為15ms左右。圖5-1改進(jìn)前后對比在經(jīng)過一系列的數(shù)據(jù)集模型訓(xùn)練后,我們可以看到,YOLOv7的訓(xùn)練速度是十分迅速的,本次訓(xùn)練使用的GPU型號為GTX1660s,大概一張照片15ms左右便可訓(xùn)練識別完成。(如圖5-2)圖5-2訓(xùn)練時間等到全部數(shù)據(jù)訓(xùn)練完畢后,我們便可打開YOLOv7項(xiàng)目文件夾下runs/train/exp,即可看到相關(guān)訓(xùn)練效果(如圖5-3、圖5-4)圖5-3訓(xùn)練結(jié)果文件夾圖5-4識別結(jié)果展示5.2相關(guān)性能指標(biāo)在此次訓(xùn)練,我們也可以看到,YOLOv7的識別性能識別也是相當(dāng)強(qiáng)大,我們也可以參照性能評估指標(biāo)來分析此次訓(xùn)練結(jié)果的各項(xiàng)數(shù)據(jù)。(如圖5-5)相關(guān)性能指標(biāo)評估YOLOv7指標(biāo)為以下數(shù)據(jù):mAP值(meanAveragePrecision),平均精度(AveragePrecision,AP)、召回率(Recall,R)、精確率(Precision,P)和F1(F1-Score)圖5-5相關(guān)性能指標(biāo)數(shù)據(jù)匯總(1)Box:推測為GIoU損失函數(shù)均值,越小方框越準(zhǔn);(2)Objectness:推測為目標(biāo)檢測loss均值,越小目標(biāo)檢測越準(zhǔn);(3)Classification:推測為分類loss均值,越小分類越準(zhǔn);(4)Precision:精度(找對的正類/所有找到的正類)(式5-1);(5-1)(5)Recall:召回率(找對的正類/所有本應(yīng)該被找對的正類)(式5-2);(5-2)mAP@0.5(式5-3)和mAP@0.5:0.95:就是mAP是用Precision和Recall作為兩軸作圖后圍成的面積,m表示平均,@后面的數(shù)表示判定iou為正負(fù)樣本的閾值,@0.5:0.95表示閾值取0.5:0.05:0.95后取均值[10]。(5-3)F1(F1-Score)是對精確率和召回率的加權(quán)求和(式5-4);(5-4)[11]在訓(xùn)練過程中,我們通常主要關(guān)注精度(Precision)和召回率(Recall)的波動情況來評估訓(xùn)練效果。如果這兩項(xiàng)指標(biāo)的波動幅度不大,那么通常意味著訓(xùn)練效果較為理想,我們從訓(xùn)練結(jié)果圖中,也可以清楚得看到精度與召回率的波動是相對來說較小的,也根據(jù)識別圖像的精確度與置信度關(guān)系(P_curve)、精確度與召回率關(guān)系(PR_curve)、召回率與置信度關(guān)系(R_curve)(如圖5-11)以及result文本數(shù)據(jù)(圖5-7)結(jié)合得看,改進(jìn)了GhostNet主干網(wǎng)絡(luò)的YOLOv7訓(xùn)練效果較好。圖5-6result文本數(shù)據(jù)圖5-7P、PR、P圖(上、左、右)我們可以通過對YOLOv7的混淆矩陣(如圖5-8)進(jìn)行深入分析,從而精確地計(jì)算出數(shù)據(jù)集的召回率(Recall)以及漏檢率(FNR),以此來評估模型的性能。(式5-5)(5-5)圖中各自里面的數(shù)字表示比例,X軸上person、car、traffic-light表示真實(shí)值,Y軸上person、car、traffic-light表示預(yù)測值,通過下式5-6、式5-7可計(jì)算出各個類別的召回率(對角線的值即為召回率)、漏檢率(以下舉例為car類別)。(5-6)(5-7)圖5-8混淆矩陣5.2方法的優(yōu)勢與局限性在完成本文所描述的YOLOv7的道路目標(biāo)識別設(shè)計(jì)后,該次訓(xùn)練所展現(xiàn)出來的效果是令人滿意的,它采用了一系列優(yōu)化策略,如網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)、數(shù)據(jù)增強(qiáng)方法等,使得檢測速度更快,也使得YOLOv7在實(shí)時性要求較高的應(yīng)用場景中具有很大的優(yōu)勢。而且YOLOv7的多目標(biāo)檢測性能相對于其他YOLO版本也有了一個很好的提升,在性能提升的情況下,YOLOv7依舊能保持相對較好的精度,這是一個非常不錯的優(yōu)勢。相對于較新的版本,YOLOv7也只需要較低的計(jì)算資源就能實(shí)現(xiàn)較好的性能,這使得它在資源有限的設(shè)備上也能運(yùn)行。這對于是還是學(xué)生的我也非常友好。但相同的,任何東西都不是完美的,它也具有一定的局限性。盡管YOLOv7在大多數(shù)情況下都能提供令人滿意的檢測結(jié)果,但在小目標(biāo)檢測方面仍存在一定的不足,可能會出現(xiàn)目標(biāo)定位不準(zhǔn)確的情況(上文已提出)。不過基本上的要求都能滿足,如果需要更加細(xì)致地訓(xùn)練,更加精準(zhǔn)地識別,則需要對YOLOv7進(jìn)行一系列的改進(jìn)。5.3對未來工作的展望盡管對于道路目標(biāo)識別技術(shù)的研究我還處于非常淺顯的階段,但是YOLO等深度學(xué)習(xí)算法依舊對我有很大的影響,完成此篇論文的同時,我也學(xué)習(xí)到了非常多的相關(guān)專業(yè)知識,這對我無論是生活還是工作方面,都影響深遠(yuǎn)。YOLO的發(fā)展我是持一個非常積極的態(tài)度的。它作為一種實(shí)時目標(biāo)檢測算法,已經(jīng)在多個領(lǐng)域取得了顯著的成果,并且持續(xù)地在改進(jìn)和優(yōu)化。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,我們可以期待YOLO在未來版本中進(jìn)一步提高檢測精度和速度。這可以通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化訓(xùn)練策略、引入更先進(jìn)的特征提取方法等方式實(shí)現(xiàn)。雖然YOLO已經(jīng)在多個數(shù)據(jù)集上取得了良好的性能,但在不同場景下的泛化能力仍有待提高。未來的工作可以關(guān)注如何使YOLO更好地適應(yīng)各種環(huán)境和場景,包括不同的光照條件、背景干擾、遮擋等情況。隨著物聯(lián)網(wǎng)、移動設(shè)備和邊緣計(jì)算等領(lǐng)域的快速發(fā)展,對實(shí)時目標(biāo)檢測算法的計(jì)算資源和模型尺寸要求越來越高。因此,未來的YOLO版本可能會更加注重輕量級模型的設(shè)計(jì)和優(yōu)化,以滿足在這些場景下的應(yīng)用需求。我對未來的YOLO發(fā)展,甚至是深度學(xué)習(xí)的發(fā)展,都無比期待。我也相信它會在各種專業(yè)人士的改進(jìn)和優(yōu)化下,變得更加的智能,更加方便地服務(wù)于未來社會!結(jié)論本文基于自動駕駛道路目標(biāo)識別,進(jìn)行了多樣的道路圖像數(shù)據(jù)收集,建立相關(guān)模型,并進(jìn)行標(biāo)注、訓(xùn)練、增強(qiáng)等操作。并采取對YOLOv7主干網(wǎng)絡(luò)進(jìn)行改進(jìn),引入了GhostNet主干網(wǎng)絡(luò)識別,優(yōu)化了神經(jīng)網(wǎng)絡(luò)提取后的重復(fù)復(fù)雜特征圖,使其擁有在相對較差硬件環(huán)境下,依舊能夠擁有足夠的性能來識別出圖像。也通過各種數(shù)據(jù)的對比,能看出其對整個圖像識別有顯著提升。本文中做的改進(jìn)也讓道路目標(biāo)識別模型能適應(yīng)并提升在各種復(fù)雜道路中的檢測性能和結(jié)果可信度。通過對道路目標(biāo)的高效、準(zhǔn)確識別,本文的研究成果不僅為自動駕駛技術(shù)的發(fā)展提供了有力支持,同時也為智能交通系統(tǒng)的建設(shè)和應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。在未來,隨著智能交通系統(tǒng)的廣泛部署和自動駕駛技術(shù)的不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理核心制度解讀及案例
- 代運(yùn)營合同范本 鑒于
- 勞務(wù)派遣合同范本2003
- 托管裝修服務(wù)合同范本
- 清酒代理合同范本
- 工程設(shè)施購買合同范本
- 德邦加盟合同范本
- 拆遷分戶合同范本
- 主力攝影合同范本
- 廣告制作合同范本2017
- 2024年度軟件即服務(wù)(SaaS)平臺租賃合同3篇
- 網(wǎng)絡(luò)攻防原理與技術(shù) 第3版 教案 -第12講 網(wǎng)絡(luò)防火墻
- 2024年新課標(biāo)培訓(xùn)2022年小學(xué)英語新課標(biāo)學(xué)習(xí)培訓(xùn)課件
- 2024小學(xué)語文教學(xué)及說課課件:二年級上冊《田家四季歌》
- 2024至2030年中國聚脲涂料行業(yè)市場發(fā)展調(diào)研及投資前景分析報(bào)告
- 1.1 鴉片戰(zhàn)爭 課件 2024-2025學(xué)年統(tǒng)編版八年級歷史上冊
- 2024至2030年中國演播室行業(yè)市場調(diào)查研究及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- DB11∕T 420-2019 電梯安裝、改造、重大修理和維護(hù)保養(yǎng)自檢規(guī)則
- 國旗臺施工合同
- 總代理授權(quán)書
- 醫(yī)療器械售后服務(wù)能力證明資料模板
評論
0/150
提交評論