一種基于改進(jìn)YOLO的小目標(biāo)檢測(cè)模型_第1頁(yè)
一種基于改進(jìn)YOLO的小目標(biāo)檢測(cè)模型_第2頁(yè)
一種基于改進(jìn)YOLO的小目標(biāo)檢測(cè)模型_第3頁(yè)
一種基于改進(jìn)YOLO的小目標(biāo)檢測(cè)模型_第4頁(yè)
一種基于改進(jìn)YOLO的小目標(biāo)檢測(cè)模型_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一種基于改進(jìn)YOLO的小目標(biāo)檢測(cè)模型近年來(lái),隨著深度學(xué)習(xí)技術(shù)1的飛躍性進(jìn)步,計(jì)算機(jī)視覺領(lǐng)域中的目標(biāo)檢測(cè)任務(wù)已躍升為研究的焦點(diǎn)。目前,目標(biāo)檢測(cè)任務(wù)應(yīng)用范圍廣泛覆蓋了視頻監(jiān)控、工業(yè)自動(dòng)化檢測(cè)、醫(yī)療健康監(jiān)測(cè)等多個(gè)關(guān)鍵領(lǐng)域[2-3],顯著提升了這些領(lǐng)域的效率與智能化水平。在這一背景下,通過(guò)計(jì)算機(jī)視覺技術(shù)減少對(duì)人力與資源的依賴,展現(xiàn)出重要的實(shí)際應(yīng)用價(jià)值與深遠(yuǎn)的社會(huì)意義。然而,盡管當(dāng)前主流的目標(biāo)檢測(cè)框架在多個(gè)方面取得了顯著成就,在處理小目標(biāo)檢測(cè)任務(wù)時(shí)仍面臨挑戰(zhàn),這一局限在實(shí)際應(yīng)用場(chǎng)景中尤為突出[4。小目標(biāo)檢測(cè),通常指的是尺寸在32×32像素或更小的目標(biāo),其在無(wú)人機(jī)搜救中對(duì)災(zāi)民的精準(zhǔn)識(shí)別、自動(dòng)駕駛系統(tǒng)中對(duì)遠(yuǎn)處交通標(biāo)識(shí)及車輛的即時(shí)捕捉等場(chǎng)景中扮演著不可或缺的角色[5]。由于小目標(biāo)在圖像中的絕對(duì)尺寸較小且相對(duì)占比低,現(xiàn)有的目標(biāo)檢測(cè)算法在捕捉這些小目標(biāo)的特征時(shí)往往面臨困難,導(dǎo)致檢測(cè)性能出現(xiàn)下滑。這一現(xiàn)象促使研究界深入探索針對(duì)小目標(biāo)的優(yōu)化策略,以克服檢測(cè)精度與效率上的瓶頸,進(jìn)而推動(dòng)計(jì)算機(jī)視覺技術(shù)在更多復(fù)雜、精細(xì)場(chǎng)景中的有效應(yīng)用。如劉一江等提出一種基于YOLOv5s的安全帽改進(jìn)算法。該算法在EfficientRepGFPN基礎(chǔ)上引入淺層分支及轉(zhuǎn)置卷積替換PAFPN,補(bǔ)充淺層小目標(biāo)特征,減少上采樣中小目標(biāo)丟失的邊緣信息。田春欣等提出一種基于密集連接任務(wù)對(duì)齊的小目標(biāo)檢測(cè)算法DATNet。該算法采用CSPDarkNet網(wǎng)絡(luò)提取輸入圖像特征,通過(guò)密集連接的方式融入空洞卷積,添加注意力模塊捕捉感興趣的目標(biāo)區(qū)域,引入DIoU回歸損失函數(shù)通過(guò)任務(wù)對(duì)齊的檢測(cè)頭來(lái)訓(xùn)練模型。田鵬等[8提出了一種基于YOLOv8改進(jìn)的道路交通標(biāo)志目標(biāo)檢測(cè)算法。該算法利用BRA(bi-levelroutingattention)注意力機(jī)制和可形變卷積模塊DCNv3(deformableconvolutionv3)提升小目標(biāo)檢測(cè)能力。吳錦達(dá)等提出了一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法。該方法的核心在于提出細(xì)粒度上下文模塊構(gòu)建主干網(wǎng)絡(luò),設(shè)計(jì)特征分化結(jié)構(gòu)以增強(qiáng)對(duì)應(yīng)尺寸目標(biāo)的特征表達(dá),定義自適應(yīng)雙重焦點(diǎn)損失函數(shù)替換交叉熵?fù)p失函數(shù)。郭越等[提出了一種引入小目標(biāo)檢測(cè)層和基于空洞卷積與注意力機(jī)制的特征增強(qiáng)模塊的方法,旨在提升無(wú)人機(jī)航拍圖像的目標(biāo)檢測(cè)性能。盡管上述研究取得了一定的成就,但由于背景復(fù)雜、空間分辨率差異大、密集、小而不規(guī)則排列、遮擋、模糊等問題普遍存在,現(xiàn)有實(shí)際情況下密集小自標(biāo)檢測(cè)挑戰(zhàn)依然存在。尤為關(guān)鍵的是,現(xiàn)有算法在追求檢測(cè)精度的同時(shí),往往犧牲了模型的計(jì)算效率和輕量化,導(dǎo)致模型尺寸龐大、推理速度慢,極大地限制了其在資源受限的嵌入式設(shè)備上的部署與應(yīng)用。因此,如何在保證檢測(cè)精度的前提下,實(shí)現(xiàn)檢測(cè)速度的提升和模型的輕量化,成為當(dāng)前小目標(biāo)檢測(cè)領(lǐng)域亟待解決的重要問題。為解決復(fù)雜場(chǎng)景密集小目標(biāo)檢測(cè)存在的缺陷,本文以YOLOv8為基礎(chǔ),提出了一種改進(jìn)YOLO目標(biāo)檢測(cè)模型。通過(guò)使用幽靈瓶頸網(wǎng)絡(luò)(GhostBottleneckNetwork,GhostBNet)、多尺度自由注意力模塊(Multiscalefreeattentionmodule,MSFAM)、改進(jìn)特征金字塔網(wǎng)絡(luò)(ImprovedFeaturePyramidNetwork,IFPN)、動(dòng)態(tài)Soft-NMS(DynamicSoftNMS,DSNMS)等優(yōu)化策略,可以緩解復(fù)雜場(chǎng)景下密集小目標(biāo)的漏檢問題,實(shí)現(xiàn)檢測(cè)速度與精度的平衡。2改進(jìn)YOLO檢測(cè)模型本研究以基礎(chǔ)YOLOv8模型結(jié)構(gòu)為基準(zhǔn),旨在優(yōu)化目標(biāo)檢測(cè)模型以適應(yīng)嵌入式設(shè)備的應(yīng)用需求,同時(shí)提升對(duì)小目標(biāo)的檢測(cè)能力。YOLOv8以其卓越的檢測(cè)精度著稱,但其高性能需求往往依賴于強(qiáng)大的GPU支持,這在資源受限的嵌入式環(huán)境中構(gòu)成挑戰(zhàn)。此外,基礎(chǔ)YOLOv8的核心在于采用跨階段部分Darknet(CrossStagePartialDarknet,CSPdarknet)作為特征提取框架,該框架通過(guò)深度網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展了感受野,但伴隨而來(lái)的是特征圖維度的縮減,進(jìn)而增強(qiáng)了特征的語(yǔ)義抽象,卻犧牲了精確的位置信息,這對(duì)小目標(biāo)的精確定位尤為不利。為克服上述局限,本研究提出了一種改進(jìn)YOLO檢測(cè)模型,該模型集成了幽靈瓶頸網(wǎng)絡(luò)(GhostBottleneckNetwork,GhostBNet)、多尺度自由注意力模塊(Multiscalefreeattentionmodule,MSFAM)、改進(jìn)特征金字塔網(wǎng)絡(luò)(ImprovedFeaturePyramidNetwork,IFPN)、動(dòng)態(tài)Soft-NMS(DynamicSoftNMS,DSNMS)等策略,以增強(qiáng)小目標(biāo)檢測(cè)能力。改進(jìn)YOLO檢測(cè)模型結(jié)構(gòu)圖如圖1所示。具體而言,改進(jìn)YOLO檢測(cè)模型中,跨階段部分模塊(CrossStagePartialModule,CSPModule)、快速空間金字塔池化(SpatialPyramidPoolingFast,SPPF)、檢測(cè)頭等模塊與基礎(chǔ)YOLOv8網(wǎng)絡(luò)功能相同,均用于減少信道數(shù)和卷積操作,可有效提升了計(jì)算效率與速度。通過(guò)引入Ghost模塊構(gòu)建GhostBNet和DSNMS,從而進(jìn)一步提升模型的計(jì)算效率與檢測(cè)性能。此外,在FPN層的基礎(chǔ)上,改進(jìn)YOLO檢測(cè)模型還增加了一個(gè)反向的特征金字塔,并在上采樣過(guò)程中嵌入了MSFAM模塊,通過(guò)Concat操作將各層特征圖進(jìn)行有效融合,從而實(shí)現(xiàn)了特征信息的深度整合與高效傳遞。2.1GhostBNet在基礎(chǔ)YOLOv8模型設(shè)計(jì)中,處理豐富且潛在冗余的特征映射以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的全面表征是一個(gè)核心挑戰(zhàn)。為了提升模型的效率與性能,本研究引入Ghost模塊作為傳統(tǒng)卷積層的替代方案,構(gòu)建了GhostBNet。GhostBNet由兩大核心組件構(gòu)成:主部分與殘余邊緣部分。主部分集成了Ghost模塊,負(fù)責(zé)生成主要的特征表示;而殘余邊緣部分則通過(guò)額外的卷積層(如2×2深度可分離卷積(Depthwiseseparableconvolution,DSC)與1×1標(biāo)準(zhǔn)卷積)進(jìn)一步增強(qiáng)特征信息的提取與傳遞能力。GhostBNet架構(gòu)如圖2所示。對(duì)于輸入的圖像,首先通過(guò)一個(gè)16通道的1×1標(biāo)準(zhǔn)卷積層(批量歸一化(Batchnormalization,BN)與修正線性單元(RectifiedLinearUnit,ReLu)激活函數(shù))進(jìn)行初步處理。隨后,通過(guò)疊加(Add)多個(gè)Ghost模塊,逐步提取并融合多層次的特征信息。為了調(diào)整特征通道數(shù),進(jìn)一步采用卷積層將特征層擴(kuò)展。接著,利用全局平均池化操作整合空間信息,并通過(guò)卷積層調(diào)整特征向量,為后續(xù)的分類任務(wù)做準(zhǔn)備。最后,采用平鋪操作將特征向量完全串聯(lián),以優(yōu)化分類過(guò)程中的信息利用效率。Ghost模塊的核心在于通過(guò)較少的參數(shù)來(lái)生成更多的特征圖。在GhostBNet中,第一個(gè)Ghost模塊用作擴(kuò)展層,增加了通道數(shù)。這個(gè)擴(kuò)展層通過(guò)1x1卷積降低通道數(shù),然后通過(guò)3x3深度卷積對(duì)每個(gè)通道特征圖提取特征,最后將兩次卷積的輸出特征圖在通道維度上堆疊,從而增加特征圖的通道數(shù)。這樣的設(shè)計(jì)允許網(wǎng)絡(luò)在保持參數(shù)數(shù)量較低的同時(shí),捕獲更豐富的特征信息,這對(duì)于小目標(biāo)檢測(cè)尤其重要,因?yàn)樾∧繕?biāo)可能在特征圖中占據(jù)的區(qū)域較小,需要更多的通道來(lái)捕捉細(xì)節(jié)信息。而第二個(gè)Ghost模塊用于進(jìn)一步提取和融合特征,增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的識(shí)別能力。2.2MSFAM在深度學(xué)習(xí)領(lǐng)域,空間注意[1](spatialattention,SA)機(jī)制通過(guò)映射原始圖像的空間信息至一個(gè)替代空間,不僅保留了圖像的核心特征,還增強(qiáng)了網(wǎng)絡(luò)對(duì)顯著區(qū)域的敏感度,使得網(wǎng)絡(luò)能夠自適應(yīng)地整合判別性強(qiáng)的全局與局部特征。另一方面,通道注意[2-13](ChannelAttention,CA)機(jī)制則通過(guò)為不同通道的特征圖分配不同權(quán)重,實(shí)現(xiàn)了對(duì)特征重要性的量化評(píng)估。這一機(jī)制借助包含兩個(gè)全連接層的瓶頸架構(gòu)設(shè)計(jì),既增強(qiáng)了通道注意模塊的非線性學(xué)習(xí)能力,又有效減少了模型參數(shù),提升了計(jì)算效率與模型泛化能力?;诳臻g與通道注意機(jī)制的探索,本文提出了MSFAM,旨在融合并擴(kuò)展空間與通道注意的優(yōu)勢(shì),并通過(guò)引入多尺度特征處理機(jī)制,使網(wǎng)絡(luò)能夠更靈活地捕捉圖像中跨尺度的復(fù)雜信息。MSFAM結(jié)構(gòu)如圖3所示。給定輸入特征映射向量,其中!h,w分別為特征映射向量的通道數(shù)、高、寬。MSFAM運(yùn)行時(shí),首先通過(guò)SA模塊處理,得到增強(qiáng)空間信息的特征映射S∈Rc×h×w。隨后,采用1×1卷積核(核數(shù)為c/4)對(duì)空間信息特征映射s進(jìn)行卷積,生成降維后的特征映射D∈Rw×h×c/4,從而減少后續(xù)處理的計(jì)算負(fù)擔(dān)。為了捕獲多尺度特征,對(duì)D應(yīng)用四個(gè)并行分支,每個(gè)分支執(zhí)行不同的操作(如不同尺度的池化或卷積),從而生成多尺度特征張量P1∈Rw×h×c/4、P2∈Rw×h×c/4、P3∈Rw×h×c/4、P4∈Rw×h×c/40接下來(lái),通過(guò)級(jí)聯(lián)(Concat)操作,這些多尺度特征張量被融合成單一的特征張量Q∈Rw×h×c,從而實(shí)現(xiàn)了跨尺度的特征集成。隨后,將輸入CA模塊,以評(píng)估并增強(qiáng)各通道特征的重要性,并輸出特征映射C∈Rw×h×c。最后,采用Add操作將原始空間增強(qiáng)特征s與通道增強(qiáng)特征c進(jìn)行融合,生成最終的特征映射H∈Rw×h×c,作為MSAM的輸出。2.3IFPN基礎(chǔ)YOLOv8架構(gòu)采用PANet結(jié)構(gòu)進(jìn)行多尺度特征融合,但這種融合方法不能充分利用不同尺度之間的特征,存在一定的檢測(cè)精度限制。具體而言,淺層網(wǎng)絡(luò)以其高分辨率特性,在定位準(zhǔn)確性上展現(xiàn)出優(yōu)勢(shì);而深層網(wǎng)絡(luò)則因具備更廣闊的感受野,富含更多高層次的語(yǔ)義信息。為了克服上述瓶頸,本文引入了雙向特征金字塔網(wǎng)絡(luò)[14](BidirectionalFeaturePyramidNetwork,Bi-FPN)作為特征融合的新范式,旨在深度優(yōu)化多尺度特征間的互補(bǔ)性與一致性。通過(guò)動(dòng)態(tài)調(diào)整各特征的權(quán)重,確保所有權(quán)重的有效性在[0,1]區(qū)間內(nèi),從而在保持模型復(fù)雜度可控的同時(shí),最大限度地提升融合效率與效果。動(dòng)態(tài)調(diào)整各特征的權(quán)重過(guò)程計(jì)算如下:式中:IFi為輸入特征向量;xFo為輸出特征向量;ωi和@j為可學(xué)習(xí)權(quán)值。需注意,該過(guò)程使用ReLU激活函數(shù)對(duì)[0,1]之間的可學(xué)習(xí)權(quán)值進(jìn)行縮放。此外,ε為一個(gè)較小的正數(shù),以保證輸出穩(wěn)定。為了增強(qiáng)輸出層特征融合信息的能力,IFPN中還增加了跳躍連接形成融合模塊以進(jìn)一步作為一個(gè)整體參與融合。該過(guò)程各層之間的關(guān)系定義為:式中:fConv為卷積運(yùn)算;fRes為下采樣運(yùn)算;p為輸入特征圖;U為輸出的特征圖。通過(guò)構(gòu)建雙向特征金字塔網(wǎng)絡(luò),可以提高檢測(cè)精度,減少模型的計(jì)算量。2.4改進(jìn)Soft-NMS在目標(biāo)檢測(cè)過(guò)程中,通常會(huì)有多個(gè)高置信度的邊界框圍繞在實(shí)際目標(biāo)周圍。為了解決這個(gè)問題,通常使用非極大抑制(Non-maximaSuppression,NMS)消除冗余的邊界框,確保每個(gè)對(duì)象只保留一個(gè)邊界框。NMS算法中抑制其他邊界框置信度而偏愛當(dāng)前置信度最高的邊界框的數(shù)學(xué)表達(dá)式為:式中:Si為檢測(cè)邊界框bi的置信度;Nm為預(yù)設(shè)的交并比(IntersectionoverUnion,IOU)閾值;M為置信度最高的邊界框。在密集物體檢測(cè)場(chǎng)景中,物體間的高度重疊常導(dǎo)致邊界框IOU超過(guò)預(yù)設(shè)閾值,進(jìn)而引發(fā)以低置信度錯(cuò)誤剔除邊界框的問題,增加了目標(biāo)漏檢的風(fēng)險(xiǎn),對(duì)整體檢測(cè)性能構(gòu)成挑戰(zhàn)。盡管提高IOU閾值能在一定程度上緩解漏檢問題,卻不可避免地加劇了冗余檢測(cè)現(xiàn)象,單獨(dú)調(diào)整此閾值難以在召回率與準(zhǔn)確性之間達(dá)成理想平衡。為解決上述問題,Soft-NMS[15]引入了一個(gè)衰減函數(shù)機(jī)制,有效保留了更多潛在的有效檢測(cè),同時(shí)避免了傳統(tǒng)NMS方法中的硬閾值截?cái)鄮?lái)的信息損失。Soft-NMS包含兩種不同形式的衰減,第一種衰減由以下數(shù)學(xué)表達(dá)式描述:式中:如果邊界框bi和置信度最高的邊界框M的IOU小于給定閾值Nm,則其置信水平保持不變;否則,當(dāng)其大于Nm時(shí),其置信度Si根據(jù)重疊程度線性衰減。Soft-NMS衰減的第二種形式是連續(xù)衰減函數(shù)。該值用數(shù)學(xué)表達(dá)式表示如下:式中:σ為衰減因子。Soft-NMS將置信度Si乘以與IOU相關(guān)的高斯加權(quán)函數(shù),當(dāng)IOU值較低時(shí)衰減較緩,當(dāng)IOU接近1時(shí)衰減程度較大。然而,受限于固定的比例因子,Soft-NMS難以全面適應(yīng)不同檢測(cè)對(duì)象特征的多樣性。具體而言,Soft-NMS在處理復(fù)雜場(chǎng)景時(shí),可能因無(wú)法動(dòng)態(tài)調(diào)整閾值而錯(cuò)失部分有效檢測(cè)或引入不必要的冗余,特別是在物體分布密集且重疊嚴(yán)重的挑戰(zhàn)性環(huán)境中。鑒于此,本文提出了一種DSNMS方法。該方法核心在于引入了一種動(dòng)態(tài)閾值調(diào)整機(jī)制,允許根據(jù)檢測(cè)目標(biāo)的特征(如大小、形狀、紋理等)動(dòng)態(tài)調(diào)整閾值。這一設(shè)計(jì)旨在更精準(zhǔn)地評(píng)估邊界框的有效性,從而在保持高召回率的同時(shí),減少誤檢和冗余,提升目標(biāo)檢測(cè)的準(zhǔn)確性和可靠性。DSNMS中,動(dòng)態(tài)閾值計(jì)算如下:式中:n為提取的邊界框個(gè)數(shù)。通過(guò)動(dòng)態(tài)閾值調(diào)整從而更靈活地調(diào)整不同的物體密度和分布來(lái)進(jìn)一步改善檢測(cè)性能。3實(shí)驗(yàn)結(jié)果分析為了驗(yàn)證改進(jìn)YOLO的效果,基于自制數(shù)據(jù)集進(jìn)行了訓(xùn)練和測(cè)試。3.1實(shí)驗(yàn)準(zhǔn)備自制數(shù)據(jù)集融合了開源數(shù)據(jù)、網(wǎng)絡(luò)攝像頭和旋翼無(wú)人機(jī)等現(xiàn)代成像設(shè)備采集的視頻數(shù)據(jù),涵蓋了街道、公園等多樣化的復(fù)雜環(huán)境,主要研究對(duì)象包括人、安全帽等多尺度類型目標(biāo)。部分原始圖像數(shù)據(jù)集由網(wǎng)絡(luò)爬蟲爬?。徊糠衷家曨l數(shù)據(jù)集且包含50多個(gè)采集的視頻文件,總時(shí)長(zhǎng)超過(guò)20小時(shí)。所有視頻文件經(jīng)過(guò)抽幀處理并剔除嚴(yán)重污染圖像后,共收集到約2萬(wàn)幅圖像。此外,將所有圖像均通過(guò)開源的labelimg軟件進(jìn)行標(biāo)注,遵循PASCALVOC格式,確保了標(biāo)注的準(zhǔn)確性和一致性。部分?jǐn)?shù)據(jù)展示效果圖如圖4所示。為評(píng)估模型性能,數(shù)據(jù)集被劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,比例分別為8:1:1。值得注意的是,數(shù)據(jù)集中目標(biāo)尺寸分布多樣且不平衡,小型目標(biāo)占比高達(dá)45%,中間尺寸目標(biāo)約占40%,而大型目標(biāo)僅占約15%。實(shí)驗(yàn)時(shí)硬件環(huán)境設(shè)置如下:檢測(cè)網(wǎng)絡(luò)在Ubuntu20.04系統(tǒng)上使用PyTorch深度學(xué)習(xí)框架構(gòu)建。使用的處理器是第11代英特爾(R)酷睿(TM)i7-11700KF,運(yùn)行頻率為3.60GHz。使用的顯卡是NVIDIAGeForceGTX3060Ti,64GARM。改進(jìn)YOLO的超參數(shù)設(shè)置如下:令初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量為0.98,權(quán)重衰減因子為0.001,批大小為16,最大迭代周期為300,輸入圖像像素為640×640。實(shí)驗(yàn)時(shí)通過(guò)以下三個(gè)性能指標(biāo)評(píng)估網(wǎng)絡(luò)性能:精度、召回率、mAP@0.5、浮點(diǎn)計(jì)算(FLOPs)和參數(shù)量。需注意mAP@0.5為IoU閾值設(shè)置為0.5時(shí)的平均值。精度、召回率、mAP指標(biāo)計(jì)算公式如下:式中:Pre為精度,表征預(yù)測(cè)標(biāo)簽為正類的樣本中,預(yù)測(cè)正確的比值;REC為召回率,表征真值標(biāo)簽為正類的樣本中,預(yù)測(cè)正確的比例;TN為預(yù)測(cè)值和實(shí)際值均為負(fù)樣本的數(shù)量;FP為預(yù)測(cè)值為正樣本,但實(shí)際為負(fù)樣本的數(shù)量;FN為預(yù)測(cè)為負(fù)樣本,實(shí)際為正樣本的數(shù)量;TP預(yù)測(cè)和實(shí)際均為正樣本的數(shù)量;CN為類別的數(shù)量;APi為第i個(gè)目標(biāo)類別的平均精度。3.2實(shí)驗(yàn)與分析3.2.1消融實(shí)驗(yàn)為了深入探究GhostBNet、MSFAM、IFPN、DSNMS等策略對(duì)YOLOv8_s模型性能的具體影響,本節(jié)設(shè)計(jì)并實(shí)施了一系列消融實(shí)驗(yàn)。這些實(shí)驗(yàn)旨在通過(guò)逐步添加不同策略至基礎(chǔ)YOLOv8_s模型。消融實(shí)驗(yàn)對(duì)比結(jié)果如表1所示,包括不同策略組合下的精度、召回率、mAP@0.5、浮點(diǎn)計(jì)算量及參數(shù)量等關(guān)鍵指標(biāo)。首先,單獨(dú)添加GhostBNet至YOLOv8s模型后,模型參數(shù)量與浮點(diǎn)計(jì)算量顯著降低,分別降低了77.66%和64.26%。這一結(jié)果表明,GhostBNet作為一種輕量級(jí)網(wǎng)絡(luò)結(jié)構(gòu),能夠有效減少模型復(fù)雜度,實(shí)現(xiàn)模型的輕量化。然而,精度指標(biāo)略有下降(約1.43%),召回率和mAP@0.5也略有降低,但幅度不大。這表明,雖然GhostBNet在降低模型復(fù)雜度方面表現(xiàn)出色,但也可能在一定程度上犧牲了部分檢測(cè)精度。隨后,在GhostBNet的基礎(chǔ)上添加MSFAM策略,模型參數(shù)量與浮點(diǎn)計(jì)算量進(jìn)一步降低,同時(shí)精度、召回率和mAP@0.5指標(biāo)值均顯著提升。具體而言,精度提升了6.25%,召回率提升了3.90%,mAP@0.5提升了3.46%。這一結(jié)果驗(yàn)證了MSFAM策略在提升模型檢測(cè)能力方面的有效性,特別是在處理密集或小目標(biāo)等復(fù)雜場(chǎng)景時(shí)表現(xiàn)出色。接下來(lái),嘗試在GhostBNet上添加IFPN策略。與單獨(dú)添加GhostBNet相比,模型參數(shù)量、浮點(diǎn)計(jì)算量、精度、召回率和mAP@0.5指標(biāo)值均有所提升,但提升幅度適中。這表明IFPN策略對(duì)于提升模型檢測(cè)能力具有積極作用,但可能不如MSFAM策略顯著。此外,還探索了在GhostBNet上添加DSNMS策略的效果。實(shí)驗(yàn)結(jié)果顯示,模型參數(shù)量與浮點(diǎn)計(jì)算量大幅度降低,同時(shí)精度、召回率和mAP@0.5指標(biāo)值均有所提升。這表明DSNMS策略在優(yōu)化模型結(jié)構(gòu)的同時(shí),也提升了模型的檢測(cè)能力。最后,將GhostBNet、MSFAM、IFPN、DSNMS等策略全部添加至YOLOv8_s模型,構(gòu)建出改進(jìn)后的YOLO模型。與原始YOLOv8_s模型相比,改進(jìn)后的模型在參數(shù)量和浮點(diǎn)計(jì)算量上分別降低了72.30%和52.06%,同時(shí)在精度、召回率和mAP@0.5指標(biāo)值上分別提升了8.90%、4.04%、4.32%。這一結(jié)果充分證明了所提策略的有效性和實(shí)用性,可實(shí)現(xiàn)高效輕量級(jí)部署。綜上所述,消融實(shí)驗(yàn)結(jié)果表明,GhostBNet、MSFAM、IFPN、DSNMS等策略在提升模型檢測(cè)能力、降低模型復(fù)雜度方面均表現(xiàn)出色。然而,不同策略對(duì)模型性能的影響存在差異,需根據(jù)具體應(yīng)用場(chǎng)景和需求進(jìn)行選擇和組合。3.2.2與主流實(shí)驗(yàn)對(duì)比本節(jié)系統(tǒng)評(píng)估了所提出的改進(jìn)YOLO模型在復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)能力,特別是在處理嚴(yán)重遮擋與密集小目標(biāo)挑戰(zhàn)時(shí)的表現(xiàn)?;鶞?zhǔn)對(duì)比模型包括:Faster-RCNN、YOLOv8_1、YOLOv8_s、YOLOv9_1、YOLOv9_s。對(duì)比指標(biāo)為mAP@0.5、參數(shù)量和浮點(diǎn)計(jì)算量。不同主流目標(biāo)檢測(cè)模型比較結(jié)果如表2所示??梢钥闯觯岣倪M(jìn)YOLO模型在具有嚴(yán)重遮擋和密集小自標(biāo)的場(chǎng)景中表現(xiàn)出增強(qiáng)的檢測(cè)性能,優(yōu)于其他模型。具體而言,改進(jìn)YOLO在mAP@0.5指標(biāo)上超越了其他主流模型,參數(shù)量和浮點(diǎn)計(jì)算量指標(biāo)處于中等水平,這一結(jié)果充分驗(yàn)證了模型在速度與準(zhǔn)確性之間實(shí)現(xiàn)了良好的平衡。分析原因:通過(guò)在YOLO框架中集成MSFAM與DSNMS,模型能夠更有效地聚焦于與小目標(biāo)檢測(cè)密切相關(guān)的特征信息,同時(shí)抑制不必要的細(xì)節(jié)干擾,從而顯著優(yōu)化了檢測(cè)精度。DSNMS策略特別針對(duì)密集場(chǎng)景中的重疊檢測(cè)盒問題,通過(guò)動(dòng)態(tài)調(diào)整重疊檢測(cè)盒的置信度分?jǐn)?shù),避免了不必要的重復(fù)檢測(cè),有效減少了漏檢情況。通過(guò)對(duì)比與分析,可以明確看出,所提出的方法在復(fù)雜場(chǎng)景中的檢測(cè)性能優(yōu)于現(xiàn)有主流方法,為實(shí)際應(yīng)用中的目標(biāo)檢測(cè)任務(wù)提供了更加高效且精準(zhǔn)的解決方案。3.2.3展示效果對(duì)比本節(jié)評(píng)估了多種目標(biāo)檢測(cè)模型在復(fù)雜場(chǎng)景下的性能表現(xiàn),特別是聚焦于處理具有挑戰(zhàn)性特征的目標(biāo),如小尺寸、模糊邊緣、以及高密度且存在遮擋的聚類對(duì)象。展示效果對(duì)比實(shí)驗(yàn)中,選取YOLOv8s和YOLOv9s作為當(dāng)前流行的輕量級(jí)檢測(cè)模型代表。不同主流模型檢測(cè)效果對(duì)比圖如圖5所示。對(duì)比結(jié)果中YOLOv8_s和YOLOv9_s中無(wú)法有效檢測(cè)區(qū)域采用黑色橢圓標(biāo)記。可以看出,在針對(duì)特定復(fù)雜場(chǎng)景(如含小而模糊目標(biāo)或密集遮擋對(duì)象的圖像)的測(cè)試中,YOLOv8_s和YOLOv9s兩種模型均表現(xiàn)出不同程度的性能下降,主要體現(xiàn)在漏檢率上升及誤檢率增加上。相比之下,所提改進(jìn)YOLO檢測(cè)模型在應(yīng)對(duì)上述挑戰(zhàn)時(shí)展現(xiàn)出了更為穩(wěn)健的性能。通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、引入更精細(xì)的特征融合機(jī)制以及采用增強(qiáng)的上下文信息建模策略,改進(jìn)YOLO模型在保持計(jì)算效率的同時(shí),顯著提升了在復(fù)雜場(chǎng)景下的檢測(cè)準(zhǔn)確率。特別是在檢測(cè)小而模糊的目標(biāo)時(shí),該模型能夠更有效地捕捉細(xì)微特征,減少漏檢;面對(duì)前景與背景嚴(yán)重遮擋的密集聚類對(duì)象,通過(guò)引入空間注意力機(jī)制與遮擋感知策略,有效提升了區(qū)分能力,降低了誤檢率。在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測(cè)技術(shù)因其在多種應(yīng)用場(chǎng)景中的重要作用而受到廣泛關(guān)注。盡管當(dāng)前的目標(biāo)檢測(cè)算法在處理常規(guī)尺寸目標(biāo)時(shí)表現(xiàn)出色,但在小目標(biāo)檢測(cè)方面仍存在挑戰(zhàn)。為了克服這一難題,本文提出了一種改進(jìn)的YOLO目標(biāo)檢測(cè)模型,有效地提升了小目標(biāo)的檢測(cè)性能,并在計(jì)算效率上實(shí)現(xiàn)了優(yōu)化。盡管本文提出的模型在小目標(biāo)檢測(cè)方面取得了顯著的成果,但仍存在一些不足之處。例如,模型在處理極端小目標(biāo)時(shí)的性能仍有提升空間,且在某些復(fù)雜背景下的魯棒性也需要進(jìn)一步增強(qiáng)。未來(lái)的工作將集中在以下幾個(gè)方面:首先,進(jìn)一步優(yōu)化模型結(jié)構(gòu),以提高對(duì)極端小目標(biāo)的檢測(cè)能力;其次,增強(qiáng)模型的泛化能力,使其在更多復(fù)雜場(chǎng)景下保持穩(wěn)定的性能;最后,探索更高效的特征融合和注意力機(jī)制,以實(shí)現(xiàn)更高的檢測(cè)精度和計(jì)算效率。[1]CHENGY,LAIX,XIAY,etal.InfraredDimSmallTargetDetectionNetworks:AReview.Sensors(Basel,Switzerland),2024,24(12):[2]BENGAMRAS,MZOUGHIO,BIGANDA,etal.AcomprehensivesurveyonobjectdetectioninVisualArt:taxonomyandchallenge.MultimediaToolsandApplications,2023,83(5):14637-14670.[3]張春節(jié),羅瑞林,盧琳,等.基于MobileNet和遷移學(xué)習(xí)的微帶青煙葉圖像識(shí)別.云南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,43(4):46-48.[4]LINGX,ZHANGC,YANZ,etal.InfraredDimandsmalltargetdetectionbasedonLocal-GlobalFeatureFusion.AppliedSciences,2024,14(17):7878.[5]WEIW,CHENY,HEJ,etal.Areviewofsmallobjectdetectionbasedondeeplearning.NeuralComputingandApplications,2024,36(12):6283-6303.[6]劉一江,樊福景,王通.基于改進(jìn)YOLOv5的安全帽小目標(biāo)檢測(cè)算法.信息技術(shù)與信息化,2024(5):115-119.[7]田春欣,陳緒君,鄭有凱.基于密集連接任務(wù)對(duì)齊的小目標(biāo)檢測(cè)算法.計(jì)算機(jī)工程與設(shè)計(jì),2024,45(4):1032-1038.[8]田鵬,毛力.改進(jìn)YOLOv8的道路交通標(biāo)志目標(biāo)檢測(cè)算法.計(jì)算機(jī)工程與應(yīng)用,2024,60(8):202-212.[9]吳錦達(dá),李強(qiáng).基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè).軟件工程,2024,27(10):7-11.[10]郭越,楊江濤,劉志.復(fù)雜場(chǎng)景下的無(wú)人機(jī)小目標(biāo)檢測(cè)算法.工業(yè)控制計(jì)算機(jī),2024,37(9):33-34+37.[11]敬輝,葛動(dòng)元,姚錫凡.基于改進(jìn)注意力與多尺度特征的車輛識(shí)別.計(jì)算機(jī)工程與設(shè)計(jì),2024,45(10):3120-3127.[12]臧珂.結(jié)合非對(duì)稱卷積組與通道注意力的遙感影像建筑檢測(cè)方法測(cè)繪與空間地理信息,2024,47(10):87-90.[13]WANGG,LIQ,WANGN,etal.SAFPN:afullsemanticfeaturepyramidnetworkforobjectdetection.PatternAnalysisandApplications,2023,26(4):1729-1739.[14]馮新偉,黃宇祥,王忠立.基于卷積塊注意力模塊和雙向特征金字塔網(wǎng)絡(luò)的接觸網(wǎng)支持裝置檢測(cè)方法研究.鐵道技術(shù)監(jiān)督,2023,51(4):16-24.[15]CHENY,WANGL,DINGB,etal.AutomatedAlzheimer'sdiseaseclassificationusingdeeplearningmodelswithSoft-NMSandimprovedResNet50integration.JournalofRadiationResearchandAppliedSciences,2024,17(1):100782.Abstract:Withtherapidd

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論