




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于YOLOv3的行人檢測算法分析案例概述目錄TOC\o"1-3"\h\u13346基于YOLOv3的行人檢測算法分析案例概述 1298111.1數據集 1156681.2YOLO算法 2142781.2.1YOLOv1算法 2132481.2.2YOLOv2算法 3323021.3YOLOv3算法 480661.1.1檢測原理 5180751.1.2Darknet-53網絡結構 7187541.4注意力機制 81.1數據集基于深度學習的目標檢測算法在進行訓練學習時對數據量存在很大的需求,即需要足夠充分的圖片數據集進行訓練。當數據量不足時,模型不能充分識別到目標的特征,會導致檢測精度不足,檢測時間較長,出現模型欠擬合的問題。為了訓練出檢測性能更為優(yōu)良的算法模型,需要輸入海量的數據圖片集合進行訓練。而在檢測過程中,訓練集、驗證集和測試集應該按照一定比例使用,保證數據的分布權重相對均衡。目前常用于目標檢測的數據及有ImageNet數據集、COCO數據集以及PASCALVOC數據集等。ImageNet[29]數據集是一個計算機視覺數據集,出現于2009年,是根據WordNet層次結構組織的圖像數據庫。目前,該數據集包合1400多萬張圖片和2萬個Synset索引。ImageNet數據集因其數據量龐大,種類包含范圍廣,因此在訓練時相對其他數據集也會占據更多的資源,檢測難度也相對提升。COCO[30]數據集是微軟公司針對目標檢測、目標識別、語義分割等建立的一個圖像數據集,包含了高達91類的目標,可以讓模型更好地模擬訓練不同種類在不同場景下的識別能力。但COCO數據集圖片收集年代較早,且包含種類高達80多種,而行人檢測屬于單目標檢測,過多的種類不適合于檢測行人。PASCALVOC[31]數據集主要用來圖像檢測和分類,目前目標檢測常用的是VOC2007和VOC2012數據集。其中,VOC07包含9900多張圖片,23000多物體,VOC2012數據集包含24000多張圖片,總共54000多物體。數據集數據量的比對數據如表1.1所示。表1.1VOC2007和VOC2012數據集數據量對比VOC2007VOC2012TotalTrain_Images250157178218Train_Objects63011360919910Val_Images251058238333Val_Objects63071384120148Trainval_Images50111154016551Trainval_Objects126082745040058Test_Images49521154016492Test_Objects120322745039482續(xù)表1.1VOC2007VOC2012TotalImages99632308033043Objects246405490079540VOC數據集包含人、動物、交通工具和常見物品等20類監(jiān)測目標,還引入了圖像分割,通常與其他數據集組合使用進行訓練。INRIA[32]該數據庫屬于靜態(tài)的行人檢測數據庫,目前使用較為廣泛,INRIA數據集不僅提供了原始圖片及相應的標注文件,而且圖片比較其他的數據集也更清晰。但INRIA數據集的部分標注不正確,圖像的原始數據與標注信息不清晰,圖片歸一化處理不完整,實驗結合公開數據集和網上的圖片,經過篩選剔除后人工標注自制訓練集進行訓練,可以提高網絡訓練的精準度。1.2YOLO算法1.2.1YOLOv1算法YOLO方法是Redmon等發(fā)表在CVPR6上基于回歸的經典目標識別方法,與傳統的檢測方法相比,YOLO改變了傳統分類的方式,利用邊界框和目標類別概率將檢測模型簡化為回歸問題,實現了端到端的訓練優(yōu)化,YOLOv1網絡架構的檢測原理相對來說較為簡單,YOLOv1目標檢測的原理圖如圖1.1所示。圖1.1YOLOv1網絡檢測原理示意圖從圖中可以看出,YOLOv1首先對輸入圖片分辨率歸一化為固定統一的尺寸并進行識別,然后利用卷積神經網絡來顯示輸入圖像的特征,并對邊界框及目標類別概率進行預測,最后通過非極大值抑制(Non-maxsuppression)對生成的預測結果進行篩選輸出[33]。YOLO由24個卷積層和2個全連接層組成,具體的網絡結構示意圖如圖1.2所示。主要通過建立一個CNN的網絡來預測張量。首先使用CNN網絡將空間維度降低;其次使用兩個全連接層執(zhí)行線性回歸;最終將具有高的框置信度得分(如大于0.25)的結果作為最終結構。圖1.2YOLOv1網絡結構示意圖YOLO算法不僅網絡計算復雜度低,而且檢測速度非???,實時性非常好,端到端訓練能夠實現模型的高準確性,但YOLOv1算法對于小目標以及鄰近目標的檢測效果仍舊較差,當單元框中出現小目標或多個目標時檢測效果不足。1.2.2YOLOv2算法Joseph等于2017年提出的YOLOv2算法相比于YOLOv1算法而言,在保持原有算法速度的同時也提高了檢測模型的準確性。YOLOv2是YOLO算法的第二個版本,在原有的算法基礎上進行了多處優(yōu)化,比如;第一,在每一個卷積層后添加了使用了批歸一化(BatchNormalization),改善了收斂速度,減少了對其他正則化方法的依賴,提高了準確度。第二,使用了高分辨率(High-resolution)分類器進行訓練,YOLOv1使用224×224的分辨率來訓練分類網絡,而YOLOv2以224×224圖片開始用于分類器訓練,提升了網絡適應高分辨率的能力[34]。使用高分辨率的分類網絡提升了將近4%的mAP。第三,使用錨定框(AnchorBoxes)的卷積,代替了原有的YOLOv1算法中使用全連接層來預測邊界框的方式,獲得了更多的空間信息。第四,使用維度聚類(DimensionClusters),借鑒了統計學習中的K-means聚類方法,使得生成的框更具有代表性,檢測任務更容易學習。在聚類分析時選用了box與聚類中心box之間的IOU值作為距離指標,有效地提高了召回率,減少了模型的漏檢;第五,引入了Sigmoid函數預測邊界框的偏移量,解決了錨定框的預測位置問題。計算錨定框中心點與相對網格單元之間的相對偏移量參數,Sigmoid函數處理偏移值,使得預測的偏移值固定在(0,1)這一區(qū)間內,一定程度上提高了5%的mAP;第六,對特征提取網絡進行了優(yōu)化,YOLOv2網絡架構采用了新的特征提取器Darknet-19,它使用了19個卷積層和5個最大值池化層,具體的Darknet-19特征提取模型結構如圖1.3所示。圖1.3Darknet-19特征提取模型圖由圖1.3可知,該網絡主要由1×1、3×3卷積以及最大池化層等組成。該網絡通過卷積層對特征進行提取,使用最大值池化來處理得到的特征圖,,最后采用全局平均池化輸出特征,網絡的計算量大大減少,使得檢測速度有了較大幅度的提升。雖然YOLOv2做出了很多改進,但許多改進仍舊依賴其他深度學習的算法,與此同時,隨著檢測速度的提高,檢測模型損失了一部分精度,仍然無法滿足目前對行人檢測需求的定位精度要求。1.3YOLOv3算法隨著CNN算法在目標檢測領域的廣泛運用以及各種網絡結構的優(yōu)化演變,現有的目標檢測算法仍然不能滿足行人檢測對實時性、準確性以及檢測多種類別的需求。2018年,Redmon[35]等對YOLO算法做出了更進一步的優(yōu)化,提出了新的網絡架構,即YOLOv3算法。它不僅繼承了之前YOLO算法的優(yōu)點,同時也對網絡結構進行了很大修改優(yōu)化,融合了特征金字塔網絡FPN、殘差網絡ResNet等方法,將目標檢測問題轉化為回歸問題,采用了三種不同的尺度對目標進行檢測識別。1.1.1檢測原理YOLOv3算法的網絡結構分為Darknet-53檢測網絡和yolo層兩部分。其中,Darknet-53網絡負責特征提取,yolo層用于多尺度預測。主干網絡Darknet-53結構借鑒了ResNet(殘差結構進行網絡搭建,全卷積網絡使用了大量的殘差結構,由53層卷積組成,使用步長為2的卷積操作取代了原有的池化層,網絡結構更深。張量尺寸通過改變卷積核的步長來實現,特征圖通過網絡最終縮小五次,特征圖的尺寸變換為原始輸入尺寸的,即,YOLOv3檢測網絡如圖1.4所示。圖1.4YOLOv3檢測網絡圖YOLO輸入圖像被分為S×S均勻網格,每個網格預測(x,y,w,h)和置信度C(Object)五個參數。其中坐標(x,y)表示檢測邊框中心相對網格的位置,(w,h)是檢測邊界框的寬度和高度[36]。預測框的具體參數如圖1.5所示。網格單元的寬度設定為,高度設定為,每個網格單元中預測B個邊界框,輸出參數為邊界框的中心點相對于網格單元左上角坐標的偏移量,通過偏移量參數可以計算出邊界框在特征圖中的實際位置以及大小。圖1.5預測框示意圖在圖1.5中,和表示距離圖像左上角的偏移量,黑色虛線矩形方框表示目標邊界框,和表示目標邊界框先驗維度的寬度和高度,藍色實線矩形方框表示預測結果,和表示最終預測結果邊界框中心點距離圖像左上角的位置,和表示預測邊界框的長度與寬度。預測值可用以下公式計算可得:(8)(9)(10)(11)而置信度Pr(Object)表示是否包含物體,置信度C(Object)包含物體情況下位置的準確性,定義為:(12)如果檢測網絡不包含目標對象,則。IOU是預測值與真實值的重疊率,即它們的交集與并集之比,如下式所示:(13)在前向傳播過程中,YOLOv3網絡結構使用改變卷積核步長的方式代替了池化層,每個尺度最終生成3個界限值(boundingbox),最后由與groudtruth的交并比(IOU)最大的界限值來預測物體。YOLOv3的具體網絡架構如圖1.6所示。具體來說,YOLOv3從主干網絡的8倍、16倍和32倍的下采樣處提取出三個不同尺度進行預測。對于8倍與16倍下采樣處提取的特征圖,最終進行預測的特征圖將與后一層特征圖的上采樣結果拼接融合后進行特征圖的預測。圖1.6YOLOv3網絡架構YOLOv3網絡的基本結構單元如圖1.7所示。其中,“DBL”是卷積層、批歸一化層和非線性激活層的疊加,conv表示卷積層,BN表示批歸一化層,Relu表示非線性激活層,共同構成了網絡結構中的最小組件。圖1.7YOLOv3網絡基本結構圖YOLOv3使用LeakyReLU作為激活函數。而YOLOv3網絡的殘差模塊結構如圖1.8所示。其中,“resN”中的N表示一個res_block中含有N個res_unit,這是YOLOv3中的大組件,使用這種結構可以讓網絡結構更深。而“res_unit”也是由基本組件“DBL”構成的。圖1.8殘差模塊基本結構示意圖1.1.2Darknet-53網絡結構YOLOv3網絡架采用一個新的53層Darknet-53取代了YOLOv2算法中使用的Darknet-19作為檢測網絡的特征提取器。Darknet-53主要由3×3和1×1濾波器組成,具有residual連接。Darknet-53特征提取模型如圖1.9所示。圖1.9Darknet-53特征提取模型Darknet-53特征提取模型相比于原始的YOLOv1和YOLOv2網絡架構雖然網絡層數增多,但檢測速度依舊高于其他網絡結構。Darknet-19與Darknet-53的特征提取模型的實驗[37]數據對比如表1.2所示。表1.2Darknet-19和Darknet-53特征提取模型的實驗對比數據模型TOP-1TOP-5FPSDarknet-1974.191.8171Darknet-5377.291.878由表1.2可知,Darknet-53特征提取模型在輸入相同分辨率大小的圖片情況下,檢測速度經GPU加速后仍高達每秒78幀,雖然檢測速度低于YOLOv2使用的Darknet-19特征提取模型每秒171幀的提取速度,但Darknet-53模型的浮點運算數相對Darknet-19較高,這意味著Darknet-53特征提取模型可以很好地利用GPU進行加速。1.4注意力機制注意力機制是一種資源分配的機制,可以理解為根據目標對象的重要程度重新分配資源原本平均分配的資源,類比到深度卷積神經網絡的結構中,注意力機制所要分配的資源就是權重。實際來說,注意力機制不算是一個完整的模型而是一種技術,可以將其融入于任何序列模型中進行權重再分配。圖1.10人類的視覺注意力深度學習中的注意力機制從本質上講與人類的選擇性視覺注意力機制類似,核心目標也是從繁雜的信息中篩選出我們所需要的關鍵信息。圖1.10展示了人類對于圖片的視覺注意力分布。CBAM[38](ConvolutionalBlockAttentionModule)是ECCV2018年提出的一種卷積神經網絡結構,由通道注意力和空間注意力模塊兩部分組成。通道注意力模塊可以提高包含較多信息的通道所占比權重,而空間注意力模塊可以定位關鍵信息,即優(yōu)先突出輸入特征中的顯著區(qū)域。CBAM模塊的整體結構如圖1.11所示。圖1.11CBAM模塊示意圖CBAM模塊的實現流程如下,對于一個中間層的特征圖,其中C為特征圖的通道,H為特征圖的高,W為特征圖的寬,CBAM依次推出一維的通道注意力特征圖,二維的空間注意力特征圖整個過程如下[39]:(14)式(14)中得在式子中表示逐個元素相乘,首先將通道注意力特征圖與輸入的特征圖相乘得到,再計算的空間注意力,并將二者相乘得到最終的。通道注意力模塊(ChannelAttentionModule)將輸入的特征圖F分別經過空間維度的全局最大池化和全局平均池化聯結后進入多層感知器;再將多層感知器輸出的兩個特征相加;經過sigmoid激活操作之后,生成最終的通道注意力特征圖。[40]通道注意力模塊如圖1.12所示。圖1.12通道注意力模塊示意圖通道注意力公式表示為:(15)經過通道維度的全局最大池化和平均池化之后,輸出一個單通道的特征圖,經過sigmoid激活函數后生成空間注意力特征圖QUOTEMSMS;權重矩陣和輸入特征圖進行運算后,得到最終的特征圖??臻g注意力模塊如圖1.13所示。圖1.13
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大班建構積木活動指南
- 兒童國畫雞課件
- 時間位移課件
- 時鐘變時間尺課件
- 2025版高端餐飲連鎖加盟合作協議
- 2025版體育賽事贊助擔保合同
- 二零二五版房屋代理買賣合同(含市場分析)
- 二零二五年度板材庫存管理與購銷合同
- 2025版餐飲企業(yè)承包合同標準模板下載
- 2025版第一部分智慧交通建設項目投標邀請合同
- 2023年臨滄市市級單位遴選(選調)考試真題
- 《口腔基礎醫(yī)學概要》課件-第二章2乳牙形態(tài)與應用
- 國網農電工考試題庫(精華版)
- 康復診療指南與規(guī)范
- 北京客運從業(yè)資格證考試
- 機械基礎 第三版 課件(郁志純) 模塊二 機械零件的材料
- 法律與合規(guī)培訓教程
- DB3705-T 11-2023 野大豆耐鹽性鑒定技術規(guī)程
- 城市社會學課件
- 精益生產中的6S管理
- 初中英語2022版新課程標準測試卷及答案
評論
0/150
提交評論