




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第4章
基于CNN的目標檢測1RetinaNet網(wǎng)絡(luò)原理介紹目錄目標檢測背景與算法概述2過程與步驟3小結(jié)4目標檢測是計算機視覺和人工智能研究領(lǐng)域的一個熱點問題,它不僅指出圖像中有無感興趣的目標,還需判斷目標所在的位置和大小。目標識別需要解決的問題主要有:分類問題,判斷圖像中是否有感興趣目標;定位問題,指出目標在圖像中的坐標;尺度問題,指出目標的大?。恍螤顔栴},判斷目標的形狀。1.背景介紹隨著目標檢測技術(shù)的發(fā)展,在各領(lǐng)域有著廣泛的應(yīng)用,如下圖所示。人臉檢測方面,使用目標檢測技術(shù)識別不同的人臉,判斷每個人的身份,在會議簽到、考勤打卡、支付、機場和車站的實名認證有廣泛的應(yīng)用。行人檢測方面,在人流統(tǒng)計和移動偵測應(yīng)用了目標檢測技術(shù)。車輛檢測方面,在自動駕駛、違章查詢、關(guān)鍵通道檢測、車流量檢測、交通控制等方面有廣泛的應(yīng)用。遙感檢測方面,在大地遙感、河流監(jiān)控、土地使用、農(nóng)作物監(jiān)控和軍事檢測等方面有廣泛的應(yīng)用。工業(yè)制造領(lǐng)域,在工件檢測、自動焊接、視覺伺服、自動噴涂、自動組裝和產(chǎn)品瑕疵檢測等方面有廣泛的應(yīng)用。在醫(yī)療領(lǐng)域,在細胞分析、腫瘤分析、超聲波圖像分析等方面有廣泛的應(yīng)用。1.背景介紹圖1-1目標檢測應(yīng)用領(lǐng)域由于存在拍攝角度的多樣性、光照條件變化、部分遮擋、運動模糊、多尺度、景深不統(tǒng)一、噪聲等問題,設(shè)計一個高效且魯棒的目標檢測算法有一定的難度。目標檢測還是一個具有挑戰(zhàn)且具有開放性的問題。目前,主流的深度學習目標檢測算法可以分類兩大類:雙步(Two-Stage)目標檢測算法和單步(One-Stage)目標檢測算法。雙步目標檢測算法主要有為兩個步驟,第一個步驟先對圖像進行掃描,找到可能有目標存在的候選區(qū)域(RegionProposals),包括目標大致的位置和尺度信息,第二個步驟對候選區(qū)域進行分類和精確定位,進而輸出檢測結(jié)果。這類檢測算法有著比較高的準確率,但訓(xùn)練和檢測速度相對較慢,典型的算法有R-CNN、SPP-Net、FastR-CNN、FasterR-CNN和R-FCN等。單步目標檢測算法只需要一步直接確定目標的類別和準確位置,與雙步目標檢測相比,少了個候選區(qū)域確定的階段,整體網(wǎng)絡(luò)結(jié)果較為簡單,處理速度相對較快。典型的單步目標檢測算法有CornerNet、OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。2.目標檢測算法概述1RetinaNet網(wǎng)絡(luò)原理介紹目錄目標檢測背景與算法概述2過程與步驟3小結(jié)4在對某個特征層進行目標檢測時,樸素的思想是采用滑動窗口的方式用不同的坐標、尺度和寬高比進行掃描,從而判斷每個掃描窗口是否有目標存在。錨點的作用就是在特征層預(yù)先設(shè)定好需要判斷的窗口用于判斷是否有目標存在進而判斷目標的準確位置。錨點示例如圖2-1所示,假設(shè)將一張圖片經(jīng)過特征提取后獲得一個的特征圖,以特征圖上坐標為(3,3)的點上的坐標為例,采集了2個不同尺度和3個不同長寬比共6個窗口,對整個特征圖進行掃描可以獲得個錨點。2.1相關(guān)理論介紹1.錨點圖2-1錨點示例由于錨點無法窮舉目標所有的狀態(tài),需在錨點的基礎(chǔ)上對目標的真實狀態(tài)進行修正。邊框回歸的原理如圖2-2所示,紅色框為目標真實的狀態(tài),為目標的中點坐標,為目標的寬和高,藍色框為錨點的狀態(tài),為錨點的中點坐標,為錨點的寬和高。錨點框與真實框的修正值可以由下列式(1-1)獲得,2.1相關(guān)理論介紹2.邊框回歸式(1-1)圖2-2邊框回歸交并比(IOU)是目標檢測中判斷預(yù)測框與真實目標框重合度的一種度量方法,指的是預(yù)測框與真實目標框相交面積與相并面積之比,即,如左圖所示。在訓(xùn)練過程中,通過交并比來計算錨點框?qū)儆谡鎸嵞繕丝虻母怕省T跍y試過程中,通過交并比來計算測試結(jié)果的準確率2.1相關(guān)理論介紹3.交并比(IOU)圖2-3交并比在目標檢測過程中,通常會設(shè)定一個分類閾值,當候選框的分類得分超過這個閾值時就會判定有目標存在。但在實際應(yīng)用中,同一個目標往往會有多個候選目標超過這個閾值,從而獲得多個分類結(jié)果。這種情況下算法往往會選擇分類得分最高的候選框作為最終結(jié)果。當圖片出現(xiàn)多個目標的時候,如果單純選擇分類得分最高的錨點作為結(jié)果,這樣會將其他目標丟失。非極大值抑制不僅考慮候選框的分類得分,還考慮到了候選框之間的交并比,從而刪除重疊較大的邊界框。非極大值抑制流程如圖2-4所示,2.1相關(guān)理論介紹4.非極大值抑制(NMS)圖2-4
非最大化抑制流程RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2-5所示,主要由ResNet網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)(FPN)構(gòu)成的主干網(wǎng)絡(luò)與分類回歸子網(wǎng)絡(luò)構(gòu)成。主干網(wǎng)絡(luò)負責提取圖像的特征,可以構(gòu)建不同尺度和語義深度的特征金字塔。分類回歸子網(wǎng)絡(luò)由分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)構(gòu)成,其中,分類子網(wǎng)絡(luò)負責判別目標所屬的種類,回歸子網(wǎng)絡(luò)負責確定目標框的準確坐標。2.2RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)圖2-5RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)RetinaNet主干網(wǎng)絡(luò)由ResNet網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)構(gòu)成。ResNet網(wǎng)絡(luò)是一款經(jīng)典的CNN特征提取網(wǎng)絡(luò),可以有效解決隨著網(wǎng)絡(luò)深度的增加而出現(xiàn)的網(wǎng)絡(luò)“退化”的問題,典型的網(wǎng)絡(luò)有Resnet50,Resnet101和Resnet152等。本章采用的是Resnet50網(wǎng)絡(luò),Resnet50網(wǎng)絡(luò)共有50個卷積層,有5個不同尺度的輸出層,分別是C1、C2、C3、C4和C5層,上一層輸出的邊長是下一層輸出邊長的2倍。RetinaNet網(wǎng)絡(luò)使用了ResNet網(wǎng)絡(luò)的C3、C4和C5層(如圖2-5(a)藍色部分所示),而C6和C7層則采用卷積核為,步長為2的卷積獲得(如圖2-5(a)紅色部分所示)。特征金字塔網(wǎng)絡(luò)是在ResNet網(wǎng)絡(luò)的基礎(chǔ)上,通過自頂向下和側(cè)向連接的方式構(gòu)成,它可以有效構(gòu)建5個語義信息豐富的且多尺度的輸出層,P3-P7層??傊ㄟ^主干網(wǎng)絡(luò),可以使單一的輸入圖像獲得不同尺度和不同語義深度的多層特征輸出,從而提高目標檢測的準確率。2.2RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)1.主干網(wǎng)絡(luò)
2.2RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)1.主干網(wǎng)絡(luò)在RetinaNet獲得P3-P7特征后,將P3-P7作為輸入,通過分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)獲得輸出。在特征經(jīng)過分類子網(wǎng)絡(luò)處理后,輸出的維度為,其中,為特征的寬度,為特征的高度,為每個特征點錨點的個數(shù),為目標種類的個數(shù)。中的每個值代表其對應(yīng)坐標點、尺度和寬高比錨點的屬于某分類的概率值。如圖2-6(a)所示,假設(shè)有目標有3個種類,分別是‘人’、‘貓’和‘狗’,特征的長和寬均為8,每個特征點有9個錨點,故的維度為(為了展示方面左圖將9個錨點分開)。以最下層的右上角特征點為例,屬于‘人’的概率為98%,屬于‘狗’的概率為1%,屬于‘貓’概率為2%。在特征通過回歸子網(wǎng)絡(luò)處理后,輸出的維度為。如圖2-6(b)所示,中的每個值代表其對應(yīng)坐標點、尺度和寬高比錨點對于真實目標框修正值。2.2RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)2.分類回歸子網(wǎng)絡(luò)圖2-6分類回歸子網(wǎng)絡(luò)輸出在目標檢測數(shù)據(jù)集中,會提供圖片數(shù)據(jù)(image)、目標框數(shù)據(jù)(bbox)和目標種類數(shù)據(jù)(label),在模型訓(xùn)練過程中,需要將數(shù)據(jù)集中的目標框數(shù)據(jù)和目標種類數(shù)據(jù)編碼成回歸子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò)對應(yīng)的輸出形式。在目標檢測過程中,需要將回歸子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò)的輸出解碼成目標框和目標種類。2.3數(shù)據(jù)處理在模型訓(xùn)練過程中,需要將數(shù)據(jù)集數(shù)據(jù)的image、bbox和label數(shù)據(jù)編碼成符合RetinaNet網(wǎng)絡(luò)輸出要求的數(shù)據(jù)格式。編碼過程中,將錨點框分為3個種類,分別是正樣本、負樣本和忽略樣本。正樣本為與目標交并比大于50%的樣本,負樣本為與目標交并比小于40%的樣本,忽略樣本為與目標交并比在40%到50%之間的樣本。1.數(shù)據(jù)編碼圖2-7演示了數(shù)據(jù)集數(shù)據(jù)到網(wǎng)絡(luò)輸出數(shù)據(jù)格式的編碼過程。紅色方框為數(shù)據(jù)集提供的真實目標、藍色框正樣本(與真實目標框的IOU大于50%的錨點)、橙色框為忽略樣本(與真實目標框的IOU在40%與50%之間的錨點)、黃色框為負樣本(與真實目標框的IOU在小于40%的錨點)。在編碼過程中,使用式(1-1)將每個錨點框編碼成一個5維向量。如果是正樣本,前4維為錨點框與真實框的修正值,第5維為目標所屬的種類(圖中,狗的種類為1);如果是負樣本,前4維為0,第5維為-1;如果是忽略樣本,前4維為0,第5維為-2。2-3數(shù)據(jù)處理1.數(shù)據(jù)編碼圖2-7數(shù)據(jù)編碼
2-3數(shù)據(jù)處理2.數(shù)據(jù)解碼損失函數(shù)的設(shè)計是深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中的關(guān)鍵環(huán)節(jié),合理的損失函數(shù)可以有效提高網(wǎng)絡(luò)的性能。在RetinaNet網(wǎng)絡(luò)的構(gòu)造過程中,需要設(shè)計分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)的損失函數(shù)。2.4
損失函數(shù)2.4
損失函數(shù)
1.分類子網(wǎng)絡(luò)損失函數(shù)2.4
損失函數(shù)
2.回歸子網(wǎng)絡(luò)損失函數(shù)1RetinaNet網(wǎng)絡(luò)原理介紹目錄目標檢測背景與算法概述2過程與步驟3小結(jié)43過程與步驟介紹RetinaNet網(wǎng)絡(luò)目標檢測的具體實現(xiàn)過程,包括數(shù)據(jù)集的下載和處理、網(wǎng)絡(luò)搭建、損失函數(shù)、測試過程和測試與結(jié)果。源代碼下載地址為:https://keras.io/examples/vision/retinanet/。數(shù)據(jù)集下載地址為:/srihari-humbarwadi/datasets/releases/download
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤礦支護考試題及答案
- 數(shù)學旋轉(zhuǎn)考試題及答案
- 康復(fù)治療面試題及答案
- 儲能系統(tǒng)運維安全手冊
- java自增自減面試題及答案
- 家電公司采購合同管理辦法
- 西藏環(huán)衛(wèi)工人考試試題及答案
- 海曙社工面試題及答案
- 咸寧叉車考試題及答案
- 物理磁學考試題及答案
- 2025汽車智能駕駛技術(shù)及產(chǎn)業(yè)發(fā)展白皮書
- 苯職業(yè)病防護課件
- 2025年鑄牢中華民族共同體意識基本知識測試題及答案
- 2025年湖北省中考道德與法治真題(解析版)
- 2025-2030年中國胃食管反流病行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030中國苯丙酮尿癥(PKU)行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025至2030年中國PA10T行業(yè)市場競爭態(tài)勢及未來前景分析報告
- 催收新人培訓(xùn)管理制度
- DZ/T 0089-1993地質(zhì)鉆探用鉆塔技術(shù)條件
- 2025-2030中國鐵路道岔行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 特種設(shè)備安全法培訓(xùn)課件
評論
0/150
提交評論