小樣本目標(biāo)檢測(cè)研究綜述_第1頁
小樣本目標(biāo)檢測(cè)研究綜述_第2頁
小樣本目標(biāo)檢測(cè)研究綜述_第3頁
小樣本目標(biāo)檢測(cè)研究綜述_第4頁
小樣本目標(biāo)檢測(cè)研究綜述_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputerScienceandTechnology167計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputerScienceandTechnology小樣本目標(biāo)檢測(cè)研究綜述開放科學(xué)(OSID)1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧5300042.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京1000973.國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京100097+通信作者E-mail:chend@摘要:目標(biāo)檢測(cè)是計(jì)算機(jī)視覺方向的熱點(diǎn)領(lǐng)域,其通常需要大量的標(biāo)注圖像用于模型訓(xùn)練,這將花費(fèi)大量的人力和物力來實(shí)現(xiàn)。同時(shí),由于真實(shí)世界中的數(shù)據(jù)存在固有的長(zhǎng)尾分布,大部分對(duì)象的樣本數(shù)量都比較稀少,比如眾多非常見疾病等,很難獲得大量的標(biāo)注圖像。小樣本目標(biāo)檢測(cè)只需要提供少量的標(biāo)注信息,就能夠檢測(cè)出感興趣的對(duì)象,對(duì)小樣本目標(biāo)檢測(cè)方法做了詳細(xì)綜述。首先回顧了通用目標(biāo)檢測(cè)的發(fā)展及其存在的問題,從而引出小樣本目標(biāo)檢測(cè)的概念,對(duì)同小樣本目標(biāo)檢測(cè)相關(guān)的其他任務(wù)做了區(qū)分闡述。之后介紹了現(xiàn)有小樣本目標(biāo)檢測(cè)基于遷移學(xué)習(xí)和基于元學(xué)習(xí)的兩種經(jīng)典范式。根據(jù)不同方法的改進(jìn)策略,將小樣本目標(biāo)檢測(cè)分為基于注意力機(jī)制、圖卷積神經(jīng)網(wǎng)絡(luò)、度量學(xué)習(xí)和數(shù)據(jù)增強(qiáng)四種類型,對(duì)這些方法中使用到的公開數(shù)據(jù)集和評(píng)估指標(biāo)進(jìn)行了說明,對(duì)比分析了不同方法的優(yōu)缺點(diǎn)、適用場(chǎng)景以及在不同數(shù)據(jù)集上的性能表現(xiàn)。最后討論了小樣本目標(biāo)檢測(cè)的實(shí)際應(yīng)用領(lǐng)域和未來的研究趨勢(shì)。TPSurveyofFew-ShotObjectDetection 1.SchoolofComputer,ElectronicsandInformation,GuangxiUniversity,Nanning530004,China2.ResearchCenterofInformationTechnology,BeijingAcademyofAgricultureandForestrySciences,Beijing100097,China3.NationalEngineeringResearchCenterforInformationTechnologyinAgriculture,Beijing100097,ChinaAbstract:Objectdetectionasahotfieldincomputervision,usuallyrequiresalargenumberoflabeledimagesformodeltraining,whichwillcostalotofmanpowerandmaterialresources.Atthesametime,duetotheinherentlong-taileddistributionofdataintherealworld,thenumberofsamplesofmostobjectsisrelativelysmall,suchasmanyuncommondiseases,etc.,anditisdifficulttoobtainalargenumberoflabeledimages.Inthisregard,few-shotobjectdetectiononlyneedstoprovideasmallamountofannotationinformationtodetectobjectsofinterest.Thispapermakesadetailedreviewoffew-shotobjectdetectionmethods.Firstly,thedevelopmentofgeneraltargetdetectionanditsexistingproblemsarereviewed,theconceptoffew-shotobjectdetectionisintroduced,andothertasksrelatedtofew-shotobjectdetectionaredifferentiatedandexplained.Then,twoclassicalparadigmsbasedontransferlearningandmeta-learningforexistingfew-shotobjectdetectionareintroduced.Accordingtotheimprovementstrategies基金項(xiàng)目:北京市科技計(jì)劃項(xiàng)目(Z191100004019007);云南省煙草公司科技計(jì)劃項(xiàng)目(2020530000241027)。ThisworkwassupportedbytheScienceandTechnologyProjectofBeijing(Z191100004019007),andtheTobaccoCompanyScienceandTechnologyProjectofYunnanProvince(2020530000241027).收稿日期:2022-06-06修回日期:2022-08-08劉春磊等:小樣本目標(biāo)檢測(cè)研究綜述55即Cb?Cn=?。小樣本目標(biāo)檢測(cè)方法的目標(biāo)是通過在基類和新類數(shù)據(jù)集上訓(xùn)練得到一個(gè)模型,期待該模型可以檢測(cè)出任意給定測(cè)試圖像中的新類和基類標(biāo)檢測(cè)定義如圖1所示。圖1小樣本目標(biāo)檢測(cè)示意圖Fig.1Schematicdiagramoffew-shotobjectdetection小樣本目標(biāo)檢測(cè)算法的訓(xùn)練過程一般分為兩個(gè)階段:第一階段使用大量的基類數(shù)據(jù)Dbase進(jìn)行模型se基訓(xùn)練階段;第二階段使用由少量的基類數(shù)據(jù)Dbase和新類數(shù)據(jù)Dnovel組成的平衡數(shù)據(jù)集Dfinetune對(duì)基模型Mbase進(jìn)行模型微調(diào),得到最終模型Mf,稱之為微調(diào)階段。整個(gè)訓(xùn)練過程如圖2所示。1.2小樣本目標(biāo)檢測(cè)的相關(guān)領(lǐng)域研究在通用目標(biāo)檢測(cè)的基礎(chǔ)上,有一些其他新穎的研究方向,這些研究方向與小樣本目標(biāo)檢測(cè)有相似之處,容易造成混淆,本節(jié)對(duì)這些研究方向進(jìn)行簡(jiǎn)易的區(qū)分解釋。零樣本目標(biāo)檢測(cè)[18]在算法模型的訓(xùn)練階段只使用可見類別,不可見類別的視覺信息不會(huì)被使用到,而用其語義等輔助信息參與訓(xùn)練,這些輔助信息正是零樣本目標(biāo)檢測(cè)的研究重點(diǎn)。小樣本目標(biāo)檢測(cè)可以使用少量的新類圖像作為視覺方面的信息,同時(shí)借鑒零樣本中不可見類別中輔助信息的使用;單例目標(biāo)檢測(cè)[19]是小樣本目標(biāo)檢測(cè)的一個(gè)特例,其中每個(gè)新類只有一個(gè)標(biāo)注對(duì)象信息;任意樣本目標(biāo)檢測(cè)[20]將零樣本或者小樣本的情況同時(shí)考慮,即一個(gè)算法模型既可以解決零樣本問題又可以處理小樣本問題。還有一些其他的研究在小樣本目標(biāo)檢測(cè)的基礎(chǔ)上,新增加一些新的領(lǐng)域限定條件。為了避免災(zāi)難性遺忘,同時(shí)可以持續(xù)檢測(cè)不斷增加的新類別,提出了類增量小樣本目標(biāo)檢測(cè)[21];半監(jiān)督小樣本目標(biāo)檢測(cè)[22]在不增加新類標(biāo)注的情況下,將基類數(shù)據(jù)的來源修改為有標(biāo)注的圖像和沒有標(biāo)注的圖像;弱監(jiān)督小樣本目標(biāo)檢測(cè)[23]相對(duì)于小樣本目標(biāo)檢測(cè)的區(qū)別在于其數(shù)據(jù)集中新類標(biāo)注不是實(shí)例級(jí)的,而是由圖像級(jí)標(biāo)注構(gòu)成的。圖2模型訓(xùn)練過程Fig.2Modeltrainingprocess圖2模型訓(xùn)練過程Fig.2Modeltrainingprocess圖3小樣本目標(biāo)檢測(cè)及其相似任務(wù)的區(qū)別與聯(lián)系Fig.3Differencesandconnectionsbetweenfew-shotobjectdetectionanditssimilartasks2023,17(1)計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計(jì)算機(jī)科學(xué)與探索圖圖5元學(xué)習(xí)基線方法FSRW算法架構(gòu)圖加明確本綜述的研究范圍,本文對(duì)這些相似概念做了簡(jiǎn)單的區(qū)分說明。同時(shí),可以從這些領(lǐng)域?qū)ふ覇栴}解靈感,將其應(yīng)用到小樣本目標(biāo)檢測(cè)方法。2小樣本目標(biāo)檢測(cè)的兩類經(jīng)典范式目前的小樣本目標(biāo)檢測(cè)方法可以概括為兩種范式,基于遷移學(xué)習(xí)的范式和基于元學(xué)習(xí)的范式?;谶w移學(xué)習(xí)的范式是將從已知類中學(xué)習(xí)到的知識(shí)遷移到未知類的檢測(cè)任務(wù)中?;谠獙W(xué)習(xí)的范式是利用元學(xué)習(xí)器從不同的任務(wù)中學(xué)習(xí)元知識(shí),然后對(duì)包含有新類的任務(wù)通過元知識(shí)的調(diào)整完成對(duì)新類的檢測(cè)。本章將對(duì)這兩種范式的典型方法進(jìn)行簡(jiǎn)述。2.1基于遷移學(xué)習(xí)的范式兩階段微調(diào)方法(two-stagefine-tuningapproach,TFA)[24]是遷移學(xué)習(xí)范式的基線方法,基于FasterR-CNN算法進(jìn)行改進(jìn)。TFA認(rèn)為FasterR-CNN主干網(wǎng)絡(luò)是類無關(guān)的,特征信息可以很自然地從基類遷移到新類上,僅僅只需要微調(diào)檢測(cè)器的最后一層(包含類別分類和邊界框回歸),就可以達(dá)到遠(yuǎn)遠(yuǎn)超過之前方法的性能表現(xiàn)。整個(gè)方法分為基訓(xùn)練和微調(diào)兩個(gè)階段,如圖4所示。在基訓(xùn)練階段,整個(gè)模型在有著大量標(biāo)注的基類上訓(xùn)練;在微調(diào)階段,凍結(jié)網(wǎng)絡(luò)前期的參數(shù)權(quán)重,由基類和新類組成的平衡子集對(duì)頂層的分類器和回歸器進(jìn)行微調(diào)。另外,TFA在微調(diào)階段的分類器上采用余弦相似性測(cè)量候選框和真實(shí)類別邊界框之間的相似性。由于小樣本中每個(gè)新類別的樣本量非常少,其高方差可能會(huì)導(dǎo)致檢測(cè)結(jié)果的不可靠,TFA通過抽樣多組訓(xùn)練樣本進(jìn)行評(píng)估,并且在不同組進(jìn)行多次實(shí)驗(yàn)得到平均值。由于統(tǒng)計(jì)上的偏差,之前的評(píng)估標(biāo)準(zhǔn)無法完成不同算法的統(tǒng)一比較,TFA修改了原先的上建立了新的基準(zhǔn),檢測(cè)基類、新類和全部數(shù)據(jù)集上的性能表現(xiàn),提出了廣義小樣本目標(biāo)檢測(cè)基準(zhǔn)。2.2基于元學(xué)習(xí)的范式一張圖像中可能存在多個(gè)感興趣對(duì)象,在小樣本模型訓(xùn)練中只需要標(biāo)注支持集中基類的邊界框即可,元學(xué)習(xí)范式有兩種標(biāo)注方法,一種是將支持集裁剪為只包含目標(biāo)實(shí)例的圖像,另一種是在表示圖像的RGB三通道外,再添加一個(gè)掩碼通道組成四通道,第四通道使用數(shù)字1標(biāo)注出感興趣對(duì)象的邊界框,其etectionviafeaturereweighting)[28]是小樣本目標(biāo)檢測(cè)基于元學(xué)習(xí)的基線方法,架構(gòu)圖如圖5,使用了上述第二種圖圖4遷移學(xué)習(xí)基線方法TFA算法架構(gòu)圖Fig.4ModelarchitecturediagramoftransferlearningbaselinemethodTFAFig.5Modelarchitecturediagramofmeta-learningbaselinemethodFSRW劉春磊等:小樣本目標(biāo)檢測(cè)研究綜述57③元學(xué)習(xí)范式除了通用目標(biāo)檢測(cè)模型外,還有一個(gè)需要獲得類別級(jí)元知識(shí)的元學(xué)習(xí)器,而遷移學(xué)習(xí)范式只需要在通用目標(biāo)檢測(cè)模型上改進(jìn)即可。③元學(xué)習(xí)范式除了通用目標(biāo)檢測(cè)模型外,還有一個(gè)需要獲得類別級(jí)元知識(shí)的元學(xué)習(xí)器,而遷移學(xué)習(xí)范式只需要在通用目標(biāo)檢測(cè)模型上改進(jìn)即可。3小樣本目標(biāo)檢測(cè)算法研究現(xiàn)狀上一章中,將小樣本目標(biāo)檢測(cè)分為基于元學(xué)習(xí)和基于遷移學(xué)習(xí)兩種范式,在這兩種范式中,存在著一些共性的解決方法,依據(jù)這些方法改進(jìn)策略的不同,將小樣本目標(biāo)檢測(cè)分類為基于注意力機(jī)制、基于圖卷積神經(jīng)網(wǎng)絡(luò)、基于度量學(xué)習(xí)和基于數(shù)據(jù)增強(qiáng)四種實(shí)現(xiàn)方式,分類概況如圖6所示。在本章中,將對(duì)這些分類方法進(jìn)行詳細(xì)分析和總結(jié)。jI像,Q表示查詢集圖像,I表示輸入圖像,M表示圖像的標(biāo)注信息,可見,一個(gè)任務(wù)應(yīng)當(dāng)包含N個(gè)屬于不同類別的支持圖像和帶注釋的查詢圖像,每個(gè)支持集的類別需要包含K個(gè)邊界框,即一個(gè)任務(wù)的支持集N×K個(gè)標(biāo)注對(duì)象,這也被稱為N-WayK-shot問題。RWYOLOv2[9]進(jìn)行改進(jìn)的,在一階段網(wǎng)絡(luò)中新增了元特征學(xué)習(xí)器和元學(xué)習(xí)器模塊,元特征學(xué)習(xí)器以查詢圖像為輸入,使用YOLOv2的骨干實(shí)現(xiàn),從有充足樣本的基類圖像中提取具有泛化性的元特征,用于之后檢測(cè)新類。元學(xué)習(xí)器模塊以支持集為輸入,將新類的某一類別實(shí)例轉(zhuǎn)換為一個(gè)全局向量,該向量用來檢測(cè)特定類別的對(duì)象實(shí)例。網(wǎng)絡(luò)的訓(xùn)練過程同樣分兩階段完成,首先使用基類數(shù)據(jù)訓(xùn)練連同元學(xué)習(xí)器模塊在內(nèi)的整個(gè)網(wǎng)絡(luò)模型,然后由少量標(biāo)注的新類和基類組成的平衡數(shù)據(jù)集微調(diào)模型以適應(yīng)新類。2.3兩種范式的對(duì)比分析 (1)遷移學(xué)習(xí)和元學(xué)習(xí)的相同點(diǎn):①兩種范式都是為了解決小樣本目標(biāo)檢測(cè)任務(wù)而提出的,都希望通過少量的新類圖像就可以完成對(duì)新類別的檢測(cè)。②兩種范式的數(shù)據(jù)集都分為有大量標(biāo)注的基類數(shù)據(jù)和只有少量標(biāo)注的新類數(shù)據(jù)。Fig.6Classificationgraph3.1基于注意力機(jī)制對(duì)于小樣本目標(biāo)檢測(cè)來說,難以從少量的新類樣本中準(zhǔn)確學(xué)習(xí)到感興趣對(duì)象的特征信息,而通過注意力機(jī)制可以較為準(zhǔn)確地找到圖像中的感興趣區(qū)域,目前已有一些關(guān)于注意力機(jī)制的研究[30],注意力機(jī)制可以看作一個(gè)動(dòng)態(tài)選擇的過程,通過輸入的重要性對(duì)特征進(jìn)行自適應(yīng)特征加權(quán)。本節(jié)將其分為通道注意力、空間注意力和Transformer自注意力方法。3.1.1通道注意力2018年Hu等[31]首次提出了使用SENet的通道注意力,如圖7所示,不同特征圖的不同通道可能代表著不同的對(duì)象,當(dāng)需要選擇什么對(duì)象時(shí),通道注意力使用自適應(yīng)的方法重新校準(zhǔn)每個(gè)通道的權(quán)重來關(guān)注該對(duì)象。別是基訓(xùn)練階段和微調(diào)階段,算法模型在基訓(xùn)練階段學(xué)習(xí)到基類數(shù)據(jù)具有泛化性的知識(shí),然后在新類數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),達(dá)到檢測(cè)新類的目的。④兩種范式的評(píng)價(jià)指標(biāo)相同,不論是VOC數(shù)據(jù)評(píng)價(jià)指標(biāo)都是相同的。 (2)遷移學(xué)習(xí)和元學(xué)習(xí)的不同點(diǎn):①數(shù)據(jù)的輸入方式不同,元學(xué)習(xí)范式是以任務(wù) (episode)為輸入單元,每個(gè)任務(wù)由支持集圖像和查詢集圖像組成,目的是找到查詢集圖像中屬于支持集類別的目標(biāo)對(duì)象,而遷移學(xué)習(xí)范式通常不需要分為支持集和查詢集兩部分。②元學(xué)習(xí)范式隨著支持集中類別數(shù)量的增加,內(nèi)存利用率會(huì)降低,而遷移學(xué)習(xí)范式不會(huì)隨著類別數(shù)量的增加而使內(nèi)存利用率降低。2023,17(1)計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計(jì)算機(jī)科學(xué)與探索Fig.7SEblock在遷移學(xué)習(xí)范式上,Zhang等[32]使用二階池化和冪正則化計(jì)算支持特征和查詢特征之間的互相關(guān)性,二階池化提取支持特征數(shù)據(jù)的二階統(tǒng)計(jì),形成注意力調(diào)制圖,通過添加冪正則化可以減少二階池化帶來的可變性。Wu等[33]提出了FSOD-UP(universal-prototypeaugmentationforfew-shotobjectdetection)方法,使用了通用原型的知識(shí),在條件性通用原型和候選框上施加通道注意力機(jī)制,提高了候選框的生成質(zhì)量,以此提高方法對(duì)新類的檢測(cè)性能。在元學(xué)習(xí)范式上,Yan等[34]針對(duì)一張圖像有多個(gè)目標(biāo)的問題提出了MetaR-CNN方法,該方法不是對(duì)MetaR-CNN新增加了預(yù)測(cè)頭重塑網(wǎng)絡(luò)分支,該分支用有標(biāo)注的支持圖像獲取每個(gè)類別的注意向量,對(duì)模型生成的感興趣區(qū)域特征應(yīng)用該向量進(jìn)行通道注意力關(guān)注,以檢測(cè)出查詢圖像中與這些向量表示的類別相同的對(duì)象。Wu等[35]在Meta-RCNN中將由支持集得到的類原型與查詢集的特征圖通過類別注意力結(jié)合起來,獲得每個(gè)特定類的特征圖,然后將這些特征圖結(jié)合起來使用隨后的區(qū)域候選網(wǎng)絡(luò)和檢測(cè)頭Attention-RPN方法前期階段使用深度互相關(guān)注意力區(qū)域候選網(wǎng)絡(luò),通過通道注意力機(jī)制利用支持集和查詢集之間的關(guān)系提高候選框的生成質(zhì)量。Liu等[36]認(rèn)為檢測(cè)中分類和定位子任務(wù)對(duì)特征嵌入的喜好不同,提出了AFD-Net(adaptivefully-dualnetwork)方法,分開處理分類和定位問題,對(duì)支持集分支使用注意力機(jī)制產(chǎn)生分類和回歸兩個(gè)通道注意力分支,之后將這兩個(gè)分支與查詢集的感興趣區(qū)域的分類和定位特征進(jìn)行聚合處理,最終得到增強(qiáng)的特征表示。3.1.2空間注意力當(dāng)人們看到一張圖像時(shí),他們總是會(huì)將視線聚焦于圖像中的某一區(qū)域,空間注意力受此啟發(fā),對(duì)特征圖上的每個(gè)位置進(jìn)行注意力調(diào)整,可以自適應(yīng)地關(guān)注圖像中的某重點(diǎn)區(qū)域,這些重點(diǎn)區(qū)域往往是人們所感興趣的對(duì)象。Chen等[37]基于遷移學(xué)習(xí)范式提出了AttFDNet方法,將自底向上的空間注意力和自頂向下的通道注意力結(jié)合起來,自底向上注意力由顯著性注意(sa-liencyattentivemodel,SAM)模塊實(shí)現(xiàn),由于其類別無關(guān)性,能夠自然檢測(cè)圖像中的顯著區(qū)域。Yang等[38]為解決訓(xùn)練集數(shù)據(jù)多樣性少的問題,提出了CTNet方法,使用親和矩陣在不同尺度、位置和空間關(guān)系三方面識(shí)別每個(gè)候選框上下文字段的重要性,再用上下文聚合將這些關(guān)系與候選框聚合起來,利于新類別分類的同時(shí),避免了大量的誤分類。Li等[39]提出了LSCN(low-shotclassificationcorrectionnetwork)方法,用從基類檢測(cè)器中得到的誤檢候選框作為方法校正網(wǎng)絡(luò)分支的輸入,使用空間注意力機(jī)制通過跨通道的任意兩個(gè)位置間的成對(duì)關(guān)系獲得全局感受野,通過捕捉整張圖像的信息,解決候選框復(fù)雜的對(duì)象外觀問題。Xu等[40]在FSSP(few-shotobjectdetec-tionviasampleprocessing)方法中使用了自我注意力模塊(self-attentionmodule,SAM),該空間注意力模塊可以突出顯示目標(biāo)對(duì)象的物理特征而忽略其他的噪聲信息,更好地提取復(fù)雜樣本的特征信息。Agar-wal等[41]提出了AGCM(attentionguidedcosinemar-gin)方法解決小樣本下的災(zāi)難性遺忘和類別混淆問題,構(gòu)建了注意力候選框融合模塊,通過空間注意力關(guān)注不同候選框之間的相似性,用于減少類內(nèi)的方差,從而在檢測(cè)器的分類頭中創(chuàng)建類內(nèi)更加緊密、類間良好分離的特征簇?;谠獙W(xué)習(xí)范式,Chen等[42]為解決小樣本任務(wù)中的空間錯(cuò)位和特征表示模糊問題,提出了包含跨圖像空間注意的DAnA(dual-awarenessattention)方法,通過跨圖像空間注意自適應(yīng)地將支持圖像轉(zhuǎn)化為查詢位置感知向量,通過測(cè)量該感知向量和查詢區(qū)域的相關(guān)性,確定查詢區(qū)域是否為想要的目標(biāo)對(duì)象。MetaFasterR-CNN[43]將檢測(cè)頭分為基類檢測(cè)和新類檢測(cè)兩種,基類檢測(cè)沿用原有的FasterR-CNN部分,新類檢測(cè)頭提出了Meta-Classifier模塊,使用注意力機(jī)制進(jìn)行特征對(duì)齊,解決空間錯(cuò)位問題,在查詢圖像的候選框特征和支持集類原型的每個(gè)空間位置通過親和矩陣計(jì)算對(duì)應(yīng)關(guān)系,基于對(duì)應(yīng)關(guān)系,獲得想要的前景對(duì)象。Quan等[44]認(rèn)為在支持集中使用互相關(guān)技術(shù)會(huì)給查詢特征引入噪聲,提出了CAReD(crossattentionredistribution)方法,專注挖掘有助于候選框生成的支持特征,去除有害的支持噪聲。不再對(duì)支持集特征作平均處理,而是通過空間注意力計(jì)算同劉春磊等:小樣本目標(biāo)檢測(cè)研究綜述59一類別不同實(shí)例之間的相關(guān)性,對(duì)每個(gè)支持特征重加權(quán),從而得到最終的支持特征。彭豪等[45]在由多尺度空間金字塔池算法生成的不同層次上產(chǎn)生注意力圖,強(qiáng)化了特定尺度物體的線索,可以提高小目標(biāo)的SODkernelizedfew-shotobjectdetector)方法,針對(duì)PNSD(powernor-malizingsecond-orderdetector)中核化仍然是線性相關(guān)的問題,使用核化自相關(guān)單元從支持圖像中提取特征形成線性、多項(xiàng)式和RBF(radialbasisfunction)核化表示。然后將這些特征表示與查詢圖像的特征進(jìn)行交叉相關(guān)以獲得注意力權(quán)重,并通過注意力區(qū)域提議網(wǎng)絡(luò)生成查詢提議區(qū)域。3.1.3Transformer自注意力機(jī)制Transformer注意力機(jī)制在自然語言處理已經(jīng)取得了巨大成功[47]。DETR成功地將其應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域,將檢測(cè)問題看作集合預(yù)測(cè)問題。其中的核心內(nèi)容是多頭注意力機(jī)制,其將模型分為多個(gè)頭,形成多個(gè)特征子空間,可以讓模型關(guān)注圖像不同方面的信息,通過圖像的內(nèi)在關(guān)系來獲取圖像中重要的中提取支持類原型,解碼分支將帶有支持類原型的查詢特征聚合為特定類的特征,然后應(yīng)用與類別無關(guān)的Transformer解碼器預(yù)測(cè)該支持類的檢測(cè)結(jié)果。Hu等[49]提出了DCNet方法,提出稠密關(guān)系蒸餾解決外觀改變和遮擋問題,稠密關(guān)系蒸餾模塊通過編碼器將支持集和查詢集提取出的特征信息編碼成原生Transformer注意力機(jī)制關(guān)注查詢集和支持集之間的像素級(jí)關(guān)系,用以增強(qiáng)查詢集的特征表示。APSPNet (attendingtoper-sample-prototypenetworks)[50]在經(jīng)典的元學(xué)習(xí)方法Attention-RPN和FsDetView(few-shot一類別不同實(shí)例之間的相關(guān)性,對(duì)每個(gè)支持特征重加權(quán),從而得到最終的支持特征。彭豪等[45]在由多尺度空間金字塔池算法生成的不同層次上產(chǎn)生注意力圖,強(qiáng)化了特定尺度物體的線索,可以提高小目標(biāo)的SODkernelizedfew-shotobjectdetector)方法,針對(duì)PNSD(powernor-malizingsecond-orderdetector)中核化仍然是線性相關(guān)的問題,使用核化自相關(guān)單元從支持圖像中提取特征形成線性、多項(xiàng)式和RBF(radialbasisfunction)核化表示。然后將這些特征表示與查詢圖像的特征進(jìn)行交叉相關(guān)以獲得注意力權(quán)重,并通過注意力區(qū)域提議網(wǎng)絡(luò)生成查詢提議區(qū)域。3.1.3Transformer自注意力機(jī)制Transformer注意力機(jī)制在自然語言處理已經(jīng)取得了巨大成功[47]。DETR成功地將其應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域,將檢測(cè)問題看作集合預(yù)測(cè)問題。其中的核心內(nèi)容是多頭注意力機(jī)制,其將模型分為多個(gè)頭,形成多個(gè)特征子空間,可以讓模型關(guān)注圖像不同方面的信息,通過圖像的內(nèi)在關(guān)系來獲取圖像中重要的用來聚合兩分支的關(guān)鍵信息,用聚合到的關(guān)鍵信息Cross-Transformer的感興趣區(qū)特征提取器,兩分支聯(lián)合提取查詢建議框和支持圖像感興趣區(qū),進(jìn)行多級(jí)交互處理。圖8多頭注意力模塊Fig.8Multi-headattentionblockZhang等[48]借鑒DETR的思想,提出了Meta-DETR方法,去除了在小樣本中表現(xiàn)不佳的候選框預(yù)測(cè),改為直接的端到端檢測(cè)。Meta-DETR由查詢編碼分支、支持編碼分支和解碼分支三部分組成。查詢編碼分圖8多頭注意力模塊Fig.8Multi-headattentionblockZhang等[48]借鑒DETR的思想,提出了Meta-DETR方法,去除了在小樣本中表現(xiàn)不佳的候選框預(yù)測(cè),改為直接的端到端檢測(cè)。Meta-DETR由查詢編碼分支、支持編碼分支和解碼分支三部分組成。查詢編碼分支以查詢圖像為輸入,通過特征提取器和Transformer編碼器生成其查詢特征,支持編碼分支從支持圖像3.2基于圖卷積神經(jīng)網(wǎng)絡(luò)小樣本條件下的新類樣本數(shù)量少,可以通過深入挖掘不同類別之間的內(nèi)在關(guān)系來實(shí)現(xiàn)對(duì)新類的檢測(cè),卷積神經(jīng)網(wǎng)絡(luò)存在平移不變性,即一張圖像可以2023,17(1)計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計(jì)算機(jī)科學(xué)與探索共享卷積算子的參數(shù),圖結(jié)構(gòu)則沒有這種平移不變性,每一個(gè)圖節(jié)點(diǎn)的周圍結(jié)構(gòu)都可能是不同的,因此,圖可以處理實(shí)體之間的復(fù)雜關(guān)系。圖由節(jié)點(diǎn)和邊組成,每個(gè)節(jié)點(diǎn)都有自己的特征,節(jié)點(diǎn)與節(jié)點(diǎn)之間通過邊進(jìn)行關(guān)聯(lián),圖卷積就是利用節(jié)點(diǎn)間的邊關(guān)系示。Kim等[53]認(rèn)為圖像中各種物體的存在有所關(guān)聯(lián),比如一張圖像中某個(gè)對(duì)象周圍有鍵盤和顯示器,那它更可能是鼠標(biāo)而不是球,基于此提出了基于遷移學(xué)習(xí)范式的FSOD-SR(spatialreasoningforfew-shotobjectdetection)方法,通過圖卷積技術(shù)考慮圖像中對(duì)象共享卷積算子的參數(shù),圖結(jié)構(gòu)則沒有這種平移不變性,每一個(gè)圖節(jié)點(diǎn)的周圍結(jié)構(gòu)都可能是不同的,因此,圖可以處理實(shí)體之間的復(fù)雜關(guān)系。圖由節(jié)點(diǎn)和邊組成,每個(gè)節(jié)點(diǎn)都有自己的特征,節(jié)點(diǎn)與節(jié)點(diǎn)之間通過邊進(jìn)行關(guān)聯(lián),圖卷積就是利用節(jié)點(diǎn)間的邊關(guān)系示。Kim等[53]認(rèn)為圖像中各種物體的存在有所關(guān)聯(lián),比如一張圖像中某個(gè)對(duì)象周圍有鍵盤和顯示器,那它更可能是鼠標(biāo)而不是球,基于此提出了基于遷移學(xué)習(xí)范式的FSOD-SR(spatialreasoningforfew-shotobjectdetection)方法,通過圖卷積技術(shù)考慮圖像中對(duì)象間的全局上下文關(guān)系,而不僅是通過單個(gè)感興趣區(qū)域特征預(yù)測(cè)新類,將感興趣區(qū)域特征作為圖節(jié)點(diǎn),邊的構(gòu)成由感興趣區(qū)域特征表示的視覺信息和幾何坐標(biāo)信息兩者結(jié)合得到,如圖9所示。Zhu等[54]提出SRR-FSD(semanticrelationreasoningforfew-shotobjectdetection)方法,利用基類與新類之間存在的恒定語義關(guān)系,由所有的詞嵌入特征組成嵌入語義空間,應(yīng)用圖卷積進(jìn)行顯式關(guān)系推理,將從大量文本中學(xué)習(xí)到的語義信息嵌入到每個(gè)類概念中,并與分類的視覺特征進(jìn)行結(jié)合。綜上所述,基于圖卷積神經(jīng)網(wǎng)絡(luò)的小樣本目標(biāo)檢測(cè)方法大多選擇將候選框作為圖的節(jié)點(diǎn),通過圖卷積來自動(dòng)推理不同候選框之間的關(guān)系,以此學(xué)習(xí)到新類同基類間的內(nèi)在聯(lián)系,達(dá)到對(duì)新類對(duì)象的檢測(cè)。但是當(dāng)圖節(jié)點(diǎn)過多時(shí),節(jié)點(diǎn)之間的邊關(guān)系也會(huì)變得異常復(fù)雜,可能會(huì)面臨模型過擬合的問題。同時(shí),新類的樣本量較少也可能導(dǎo)致模型在新類檢測(cè)上產(chǎn)生過擬合現(xiàn)象。3.3基于度量學(xué)習(xí)通過度量基類和小樣本的新類之間的相似性,使得不同類別彼此遠(yuǎn)離,相同類別之間靠近,可以很好地區(qū)分出新類數(shù)據(jù)。度量學(xué)習(xí)又可分為改進(jìn)度量損失函數(shù)、原型學(xué)習(xí)和對(duì)比學(xué)習(xí)。度量損失函數(shù)在不同類別之間設(shè)計(jì)距離公式;原型學(xué)習(xí)為每個(gè)類別生成線性分類器,衡量類別與原型之間的距離;對(duì)比學(xué)習(xí)是將目標(biāo)圖像與某幾個(gè)圖像對(duì)比進(jìn)行檢測(cè)。3.3.1改進(jìn)度量損失函數(shù)圖9FSOD-SR架構(gòu)圖Fig.9FSOD-SRarchitecturediagramKim了FSOD-KT(few- shotobjectdetectionviaknowledgetransfer)方法,其支持集分支使用圖卷積技術(shù)對(duì)查詢圖像感興趣區(qū)的特征向量進(jìn)行特征增強(qiáng)。圖的頂點(diǎn)為每個(gè)類的原型,圖的邊關(guān)系使用類別之間的文本相似性度量(由GloVe[56]計(jì)算),通過圖卷積神經(jīng)網(wǎng)絡(luò)使這些類原型間產(chǎn)生關(guān)聯(lián),然后通過增強(qiáng)后的原型對(duì)查詢圖像的感興趣區(qū)域特征進(jìn)行度量,檢測(cè)出與該原型一致的類圖9FSOD-SR架構(gòu)圖Fig.9FSOD-SRarchitecturediagramKim了FSOD-KT(few- shotobjectdetectionviaknowledgetransfer)方法,其支持集分支使用圖卷積技術(shù)對(duì)查詢圖像感興趣區(qū)的特征向量進(jìn)行特征增強(qiáng)。圖的頂點(diǎn)為每個(gè)類的原型,圖的邊關(guān)系使用類別之間的文本相似性度量(由GloVe[56]計(jì)算),通過圖卷積神經(jīng)網(wǎng)絡(luò)使這些類原型間產(chǎn)生關(guān)聯(lián),然后通過增強(qiáng)后的原型對(duì)查詢圖像的感興趣區(qū)域特征進(jìn)行度量,檢測(cè)出與該原型一致的類orFSOD (dynamicrelevancelearningforfew-shotobjectdetec- tion)方法,考慮到不同類之間存在著聯(lián)系,將支持集可能地區(qū)分開。劉春磊等:小樣本目標(biāo)檢測(cè)研究綜述61在元學(xué)習(xí)范式上,Karlinsky等[61]在RepMet(rep-resentative-basedmetriclearning)方法中提出一個(gè)距離度量學(xué)習(xí)(distancemetriclearning,DML)模塊,代替了FasterR-CNN中的檢測(cè)頭,假定特征嵌入空間中每個(gè)類有K個(gè)模型,DML計(jì)算感興趣區(qū)域在每個(gè)類別中每個(gè)模型的概率,新增加了嵌入損失函數(shù),減小嵌入向量E和最接近表征的距離,擴(kuò)大嵌入向量E和一個(gè)錯(cuò)誤類的最接近表征的距離。Li等[62]為了減輕新類的特征表示和分類之間存在的矛盾,提出了CME(classmarginequilibrium)方法。為了準(zhǔn)確實(shí)現(xiàn)新類的類別分類,任意兩個(gè)基類應(yīng)該彼此遠(yuǎn)離,為了準(zhǔn)確表示新類特征,基類的分布應(yīng)該彼此接近。CME首先通過解耦定位分支將檢測(cè)轉(zhuǎn)換為分類問題,在特征學(xué)習(xí)過程中,通過類邊際損失為新類保留充足的邊界距離,在追求類邊界平衡中保證新類的檢測(cè)性能。Zhang等[63]提出了PNPDet(plug-and-playdetector)方法,將基類和新類檢測(cè)分開,防止在學(xué)習(xí)新概念的時(shí)候影響基類的檢測(cè)性能,以CenterNet[64]為基礎(chǔ)架構(gòu),新增了一個(gè)用于新類別檢測(cè)的熱圖預(yù)測(cè)并行分支,將最后一層熱圖子網(wǎng)絡(luò)替換為余弦相似對(duì)比頭和自適應(yīng)余弦相似對(duì)比頭,將距離度量學(xué)習(xí)的損失函數(shù)引入類別預(yù)測(cè)中,極大提升了新類的檢測(cè)性能。彭豪等[45]在隱藏層的特征空間上應(yīng)用正交損失函數(shù),使得模型在分類過程中保持不同類別彼此分離,相同類別彼此聚合。3.3.2對(duì)比學(xué)習(xí)對(duì)比學(xué)習(xí)是將目標(biāo)圖像與某幾個(gè)圖像進(jìn)行對(duì)比檢測(cè),在最小化類內(nèi)距離的同時(shí)最大化類間距離,提高相同或相似類之間的緊湊性和加大不同類之間的差異性,可以有效提高邊界框的分類精度。在遷移學(xué)習(xí)范式上,Sun等[65]在原有分類和定位分支外,新增加一個(gè)對(duì)比分支,通過對(duì)比候選框編碼損失函數(shù),利用余弦相似性函數(shù)度量感興趣區(qū)域特征和特定類權(quán)重的語義相似性。在元學(xué)習(xí)范式上,F(xiàn)an等[29]在Attention-RPN方法中采用了三元組對(duì)比訓(xùn)練策略,即一張支持集圖像與查詢集相同類別的一個(gè)正例和不同類別的一個(gè)負(fù)InfoNCE[66]的啟發(fā)下,將無監(jiān)督的對(duì)比學(xué)習(xí)轉(zhuǎn)換為有監(jiān)督的對(duì)比學(xué)習(xí),對(duì)支持和查詢兩分支的最終特征施加對(duì)比學(xué)習(xí)策略。3.3.3原型學(xué)習(xí)框,Pc代表類別c的原型,原型代表每個(gè)類別的總體特征表示,可以通過衡量某個(gè)未知類別與原型間的距離對(duì)未知類進(jìn)行分類?;谶w移學(xué)習(xí)范式,Qiao等[67]提出了一個(gè)解耦的通過在分類分支中使用原型校準(zhǔn)模塊解決多任務(wù)的耦合。使用一個(gè)離線的原型與感興趣區(qū)特征計(jì)算相似度,然后用得到的相似度微調(diào)模型進(jìn)行類別預(yù)測(cè),可以分類出與原型相似的感興趣區(qū)域特征。Wu等[33]提出了通用原型的方法FSOD-UP,通用原型是在所有的對(duì)象類別中學(xué)習(xí)的,而不是某一個(gè)特定類。不同類別間存在著內(nèi)在不變的特征,可以利用這點(diǎn)來增強(qiáng)新類對(duì)象特征?;谠獙W(xué)習(xí)范式,Li等[68]提出了基于元學(xué)習(xí)和度量學(xué)習(xí)的MM-FSOD(metaandmetricintegratedfew-shotobjectdetection)方法,將元學(xué)習(xí)訓(xùn)練方法從分類轉(zhuǎn)移到特征重構(gòu)。新的元表示方法對(duì)類內(nèi)平均原型進(jìn)行分類,區(qū)分不同類別的聚類中心,然后重建低級(jí)特征。Han等[43]針對(duì)候選框生成提出了MetaFasterR-CNN方法,采用基于輕量化度量學(xué)習(xí)的原型匹配網(wǎng)絡(luò)。MetaFasterR-CNN中Meta-RPN是一個(gè)錨框級(jí)輕量化粗粒度原型匹配網(wǎng)絡(luò),Meta-Classifier是一個(gè)像素級(jí)細(xì)粒度原型匹配網(wǎng)絡(luò),整個(gè)檢測(cè)網(wǎng)絡(luò)是從粗粒度到細(xì)粒度優(yōu)化的過程,用來產(chǎn)生特定新類的候選框??紤]到FSRW[28]方法只是簡(jiǎn)單地平均支持樣本信息生成每個(gè)類別的原型,這樣的做法泛化性較差,APSPNet[50]將每個(gè)支持樣本看作一個(gè)原型,稱之為逐樣本原型,這樣可以更好地將不同的支持信息與查詢圖像結(jié)合。綜上所述,度量學(xué)習(xí)主要通過令相同類別之間彼此靠近、不同類別之間彼此遠(yuǎn)離來完成。其思路簡(jiǎn)單好用,被大量應(yīng)用到小樣本目標(biāo)檢測(cè)中,但度量學(xué)習(xí)過于依賴于采樣的策略,如果采集的樣本過于復(fù)雜,可能會(huì)發(fā)生不收斂、過擬合的問題;如果采集的樣本過于簡(jiǎn)單,又可能不會(huì)學(xué)習(xí)對(duì)類別檢測(cè)有用的信息。3.4基于數(shù)據(jù)增強(qiáng)小樣本的核心問題是其數(shù)據(jù)量少,最簡(jiǎn)單直接的想法就是擴(kuò)充數(shù)據(jù)樣本。郭永坤等[69]就圖像在空頻域上的圖像增強(qiáng)方法作了研究綜述,數(shù)據(jù)增強(qiáng)技術(shù)可以通過直接增加訓(xùn)練的圖像數(shù)量或者間接對(duì)特征進(jìn)2023,17(1)計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計(jì)算機(jī)科學(xué)與探索加模型能夠處理的圖像信息,減少模型的過擬合。3.4.1多特征融合在遷移學(xué)習(xí)范式上,Zhang等[32]提出了PNSD方法,使用多特征融合得到細(xì)節(jié)更豐富的特征圖,多特征融合采用雙線性插值上采樣和1×1卷積下采樣將所有特征映射到相同的尺度,將尺度信息顯式混合到特征圖中。另外,通過注意力候選區(qū)網(wǎng)絡(luò)生成候選框,經(jīng)過相似網(wǎng)絡(luò)的全局、局部和塊狀關(guān)系頭三種關(guān)系進(jìn)行分類和定位。Vu等[70]對(duì)通過主干網(wǎng)絡(luò)得到的特征圖使用了多感受野的嬰兒學(xué)習(xí),使用多感受野可以得到該對(duì)象的更多空間信息,通過微調(diào)多感受野模塊有效地將先驗(yàn)空間知識(shí)轉(zhuǎn)移到新域。法,將查詢圖像的候選框和支持集特征進(jìn)行三種方式特征融合,三種融合方式分別是通道連接、簡(jiǎn)單相減和查詢特征自身,這樣可以更好地利用特征之間的內(nèi)在關(guān)系。Fan等[29]在提出的Attention-RPN方法中使用了多關(guān)系檢測(cè)器,通過支持集的候選框和查詢集感興趣區(qū)域特征進(jìn)行全局、局部和塊狀的關(guān)系結(jié)合,避免了背景中的錯(cuò)檢。Hu等[49]認(rèn)為當(dāng)對(duì)象發(fā)生遮擋時(shí),局部的細(xì)節(jié)信息往往起絕對(duì)性作用,提出了DCNet方法,在感興趣區(qū)域上使用三種不同的池化層捕捉上下文信息要遠(yuǎn)好于單一池化的效果。彭豪等[45]對(duì)感興趣區(qū)域分別施加最大池化和平均池化技術(shù),進(jìn)行多種特征融合,可以提升模型對(duì)新類參數(shù)的敏感度。3.4.2增加樣本數(shù)量的方法在遷移學(xué)習(xí)范式上,Wu等[72]為解決小樣本中的尺度問題,提出了MPSR(multi-scalepositivesamplerefinement)方法,將對(duì)象金字塔作為一個(gè)輔助分支加加模型能夠處理的圖像信息,減少模型的過擬合。3.4.1多特征融合在遷移學(xué)習(xí)范式上,Zhang等[32]提出了PNSD方法,使用多特征融合得到細(xì)節(jié)更豐富的特征圖,多特征融合采用雙線性插值上采樣和1×1卷積下采樣將所有特征映射到相同的尺度,將尺度信息顯式混合到特征圖中。另外,通過注意力候選區(qū)網(wǎng)絡(luò)生成候選框,經(jīng)過相似網(wǎng)絡(luò)的全局、局部和塊狀關(guān)系頭三種關(guān)系進(jìn)行分類和定位。Vu等[70]對(duì)通過主干網(wǎng)絡(luò)得到的特征圖使用了多感受野的嬰兒學(xué)習(xí),使用多感受野可以得到該對(duì)象的更多空間信息,通過微調(diào)多感受野模塊有效地將先驗(yàn)空間知識(shí)轉(zhuǎn)移到新域。法,將查詢圖像的候選框和支持集特征進(jìn)行三種方式特征融合,三種融合方式分別是通道連接、簡(jiǎn)單相減和查詢特征自身,這樣可以更好地利用特征之間的內(nèi)在關(guān)系。Fan等[29]在提出的Attention-RPN方法中使用了多關(guān)系檢測(cè)器,通過支持集的候選框和查詢集感興趣區(qū)域特征進(jìn)行全局、局部和塊狀的關(guān)系結(jié)合,避免了背景中的錯(cuò)檢。Hu等[49]認(rèn)為當(dāng)對(duì)象發(fā)生遮擋時(shí),局部的細(xì)節(jié)信息往往起絕對(duì)性作用,提出了DCNet方法,在感興趣區(qū)域上使用三種不同的池化層捕捉上下文信息要遠(yuǎn)好于單一池化的效果。彭豪等[45]對(duì)感興趣區(qū)域分別施加最大池化和平均池化技術(shù),進(jìn)行多種特征融合,可以提升模型對(duì)新類參數(shù)的敏感度。3.4.2增加樣本數(shù)量的方法在遷移學(xué)習(xí)范式上,Wu等[72]為解決小樣本中的尺度問題,提出了MPSR(multi-scalepositivesamplerefinement)方法,將對(duì)象金字塔作為一個(gè)輔助分支加turepyramidnetworks,F(xiàn)PN),手動(dòng)地將處理過的不同尺度對(duì)象方形框與FPN的不同級(jí)別進(jìn)行對(duì)應(yīng),使模型捕捉到不同尺度的對(duì)象。為解決訓(xùn)練數(shù)據(jù)變化的缺乏,Zhang等[73]在感興趣區(qū)域特征空間上通過幻覺網(wǎng)絡(luò)(hallucination)產(chǎn)生額外的訓(xùn)練樣本,將從基類中學(xué)習(xí)到的類內(nèi)樣本變化轉(zhuǎn)移到新類上。Kim等[53]為了不破壞圖像中的空間關(guān)系,選擇在圖像中隨機(jī)調(diào)整每個(gè)對(duì)象的尺寸若干次,這樣既增加了感興趣認(rèn)為具有不同交并比(intersectionoverunion,IoU)分圖10多尺度正樣本特征提取Fig.10Multi-scalepositivesamplefeatureextraction在元學(xué)習(xí)范式上,Yang等[77]以RepMet為基礎(chǔ),提出了NP-RepMet方法,將其他方法丟棄的負(fù)樣本納入模型訓(xùn)練中,可以得到更加魯棒的嵌入空間。Li等[22]除了使用簡(jiǎn)單的數(shù)據(jù)增強(qiáng)技術(shù)外,還將變換不變性(transformationinvariantprinciple,TIP)引入到小樣本檢測(cè)中。具體地,在查詢分支上,用從查詢變換圖像中得到的候選框檢測(cè)原始查詢圖像對(duì)象邊界框,在支持分支上,在原始支持圖像和支持變換圖像理。Zhang等[78]認(rèn)為不應(yīng)該對(duì)支持樣本只進(jìn)行簡(jiǎn)單劉春磊等:小樣本目標(biāo)檢測(cè)研究綜述63的平均操作,提出了SQMG(support-querymutualguidance)方法。在基訓(xùn)練階段,支持引導(dǎo)的查詢?cè)鰪?qiáng)通過核生成器對(duì)查詢特征進(jìn)行增強(qiáng),通過支持查詢相互引導(dǎo)模塊生成更多與支持相關(guān)的候選框。另外,候選框和聚合支持特征之間進(jìn)行多種特征比較,得到更高質(zhì)量的候選框。3.4.3增加候選框數(shù)量的方法基于遷移學(xué)習(xí)范式,Zhang等[79]提出了同時(shí)使用多個(gè)區(qū)域候選網(wǎng)絡(luò)結(jié)構(gòu)的CoRPNs方法,用以解決因?yàn)闃颖旧俣a(chǎn)生較少的候選框的問題,如果某一個(gè)區(qū)域候選網(wǎng)絡(luò)遺漏了具有高IoU值的候選框,那么其他的區(qū)域候選網(wǎng)絡(luò)能夠檢出該候選框。在模型訓(xùn)練時(shí),只有最確定的那個(gè)區(qū)域候選網(wǎng)絡(luò)模塊才能獲得梯度,在測(cè)試時(shí),也只從最確定的那個(gè)區(qū)域候選網(wǎng)絡(luò)中獲取候選框。為了解決模型不遺忘的問題,F(xiàn)an等[80]提出了基于元學(xué)習(xí)范式的RetentiveR-CNN模型,新增了Bias-BalancedRPN和Re-Detector模塊。區(qū)域候選網(wǎng)絡(luò)不是完全的類無關(guān)的,而更偏向于可見類別的檢測(cè),因此,基類檢測(cè)器不能很好檢測(cè)出新類,產(chǎn)生了很多誤報(bào)。在Bias-BalancedRPN中引入了新的分支,同時(shí)檢測(cè)新類和基類對(duì)象,原有的檢測(cè)頭只用來檢測(cè)基同時(shí)檢測(cè)基類和新類,在兩個(gè)分支基類檢測(cè)上施加一致性損失可以更好地完成檢測(cè)。綜上所述,可以直接或間接的多種方式完成對(duì)新類別數(shù)據(jù)樣本的擴(kuò)充,增加新類別樣本數(shù)據(jù)的方法是最直接有效的解決類別樣本數(shù)量不足的方法,同時(shí)也能帶來更加豐富的樣本特征,減少模型過擬合的產(chǎn)生,但如果使用了過多的數(shù)據(jù)增強(qiáng)策略,可能4算法數(shù)據(jù)集、評(píng)估指標(biāo)和性能分析PascalVOCMSCOCO和FSOD[29]數(shù)據(jù)集,在個(gè)tImageNet-Loc[82]等。數(shù)據(jù)集的概況如表1所示。4.1小樣本目標(biāo)檢測(cè)公開數(shù)據(jù)集介紹4.1.1PascalVOC數(shù)據(jù)集小樣本目標(biāo)檢測(cè)實(shí)驗(yàn)使用的PascalVOC數(shù)據(jù)集由PascalVOC2007[25]和PascalVOC2012[83]共同組成,CVOC12的train和val集合數(shù)據(jù)用模型訓(xùn)練,VOC07的test集合數(shù)據(jù)用于模型測(cè)試。VOC數(shù)據(jù)集一共有類作為基類,為了盡量減少由隨機(jī)性帶來的影響,分成多組不同的數(shù)據(jù)進(jìn)行訓(xùn)練,常見的做法是分為3組類別均不同,關(guān)于3組劃分的具體細(xì)節(jié)如下:分組1類的對(duì)象都應(yīng)當(dāng)有K個(gè)標(biāo)注邊界框,VOC數(shù)據(jù)集中K少,其選擇會(huì)非常影響模型的性能表現(xiàn),采用多次實(shí)驗(yàn)來消除隨機(jī)性的影響,TFA提出通過30次重復(fù)實(shí)驗(yàn)并取平均值得到公平的實(shí)驗(yàn)結(jié)果,之后的一些論文提出只進(jìn)行10次實(shí)驗(yàn)也可以公平比較實(shí)驗(yàn)結(jié)果。4.1.2MicrosoftCOCO數(shù)據(jù)集COCO2014[26]數(shù)據(jù)集相比VOC數(shù)據(jù)集有更多的數(shù)據(jù)集的train和val集合中選取5000張圖像用作測(cè)試數(shù)據(jù)集,其余的圖像用于訓(xùn)練階段。選取COCO數(shù)據(jù)集中與VOC重疊的20個(gè)類別作為新類,剩余的一個(gè)類別選擇10個(gè)或者30個(gè)目標(biāo)樣本用來訓(xùn)練。4.1.3FSOD數(shù)據(jù)集FSOD數(shù)據(jù)集[29]是專門針對(duì)小樣本目標(biāo)檢測(cè)而設(shè)計(jì)的數(shù)據(jù)集,對(duì)于小樣本目標(biāo)檢測(cè)任務(wù)來說,類別數(shù)量越多檢測(cè)效果越好。FSOD數(shù)據(jù)集的類別數(shù)很90%類別的圖像數(shù)量在22~108張之間,即使最常見表1小樣本目標(biāo)檢測(cè)常用數(shù)據(jù)集及其劃分方式Table1Typicaldatasetsforfew-shotobjectdetectionandtheirdivisions數(shù)據(jù)集圖像數(shù)量類別劃分新類樣本數(shù)量K備注VOC07+VOC1221503基類15/新類5類別劃分隨機(jī)3組COCO14123287基類60/新類2020個(gè)新類類別與VOC重合FSOD660005—2023,17(1)計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計(jì)算機(jī)科學(xué)與探索式中,TP表示被正確檢測(cè)為正例的實(shí)例數(shù),F(xiàn)P表示被錯(cuò)誤檢測(cè)為負(fù)例的實(shí)例數(shù)。小樣本目標(biāo)檢測(cè)的評(píng)估指標(biāo)和通用目標(biāo)檢測(cè)有一些細(xì)微的差別,VOC數(shù)據(jù)集根據(jù)所選新類類別的不同分為3組實(shí)驗(yàn),在每組中,新類樣本數(shù)量K的取AP值(novelAP,nAP)即可,一些算法也會(huì)關(guān)注模型體現(xiàn)在基類上的不遺忘特性,測(cè)試所得模型在基類的性能,指標(biāo)為bAP(baseAP),這里所提到的AP值都是在交并比值為0.5的mAP值。在COCO數(shù)據(jù)集中,新類樣本數(shù)量K的取值為10和30,模型會(huì)檢測(cè)在新類數(shù)據(jù)集上的不同IoU閾值、不同對(duì)象尺度的AP值以及不同的AR值。采用COCO風(fēng)格的評(píng)價(jià)指標(biāo),具體指標(biāo)項(xiàng)有mAP、AP50、P APm和APl表示在不同的標(biāo)注邊界框面積的指標(biāo),APs是面積小于32像素×32像素,APm是面積在32像素×32像素到96像素×96像素之間,APl是面積大×96像素。AR有AR1、AR10和AR100 (AR1是指每張圖片中,在給定1個(gè)檢測(cè)結(jié)果中的指標(biāo),其他同理)。由于隨機(jī)性的影響,以上檢測(cè)值都會(huì)通過多次實(shí)驗(yàn)取平均值當(dāng)作最后的結(jié)果。一般地,VOC的重復(fù)實(shí)驗(yàn)次數(shù)為10次或者30次,COCO數(shù)據(jù)集的重復(fù)次數(shù)為10次。另外,F(xiàn)SOD數(shù)據(jù)集中K的取值常為跨數(shù)據(jù)集問題:從COCO到VOC,使用VOC和COCO重合的20個(gè)類別作為新類,使用COCO中剩余的60類作為基類數(shù)據(jù),K的取值為10,具體評(píng)估指標(biāo)項(xiàng)為mAP。4.3算法性能分析表2根據(jù)不同的改進(jìn)策略,對(duì)現(xiàn)有方法分類的機(jī)制、優(yōu)勢(shì)、局限性和適用場(chǎng)景這四方面進(jìn)行了詳細(xì)比VOC、COCO和FSOD數(shù)據(jù)集上對(duì)各個(gè)方法進(jìn)行性能評(píng)估,而像iNaturaList、ImageNet-LOC等數(shù)據(jù)集由于被使用次數(shù)較少,說服力差,不具有可比性,故不做性能對(duì)比分析,具體結(jié)果可見表3~表7,表中加粗為最優(yōu)性能結(jié)果,下劃線為次優(yōu)性能結(jié)果。多。FSOD數(shù)據(jù)集包含大約66000張圖像和1820001類來自ImageNet數(shù)據(jù)集,有469類來自O(shè)penImage數(shù)據(jù)集。此外,F(xiàn)SOD數(shù)據(jù)集還合并了有相同語義的類別,移除了標(biāo)注質(zhì)量差的數(shù)據(jù)。4.1.4其他數(shù)據(jù)集中使用,固定地使用500個(gè)隨機(jī)的任務(wù),每個(gè)類別的iNatureList數(shù)據(jù)集[81]是一個(gè)長(zhǎng)尾分布的物種數(shù)據(jù)集,包含2854個(gè)類別,可以檢測(cè)在所有類上的AP指標(biāo)(具體有AP、AP50和AP75)和AR指標(biāo)(AR1和AR10)。LVIS據(jù)集[27]在TFA中有被使用,其有著天然的長(zhǎng)尾分布,整個(gè)數(shù)據(jù)集的類別分布為類別圖像數(shù)量小于10個(gè)的稀有類、圖像數(shù)量為10~100的普通類和圖像數(shù)量大于100的頻繁類。將頻繁類和普通類看作基類,稀有類看作新類進(jìn)行訓(xùn)練。在模型的微調(diào)階段,手動(dòng)創(chuàng)建一個(gè)平衡的數(shù)據(jù)子集,其中每個(gè)類別擁有10個(gè)實(shí)例。Zhu等[54]提出了一個(gè)更加現(xiàn)實(shí)的FSOD數(shù)據(jù)集基準(zhǔn),即刪除預(yù)訓(xùn)練分類模型中有關(guān)的新類圖像的隱式樣本(implicitshot)。在CoRPNs[79]中,也提到了移除預(yù)訓(xùn)練數(shù)據(jù)集中有關(guān)的基類和新類數(shù)據(jù),包含275ng可能會(huì)使預(yù)訓(xùn)練模型得不到最優(yōu)解。因此,只刪除對(duì)應(yīng)VOC數(shù)據(jù)集中新類的數(shù)據(jù)即可,對(duì)于COCO數(shù)據(jù)集,它的新類類別是很常見的,應(yīng)該按照長(zhǎng)尾分布,選取樣本量少的作為新類。4.2評(píng)估指標(biāo)通用目標(biāo)檢測(cè)方法常用的評(píng)估指標(biāo)有平均準(zhǔn)確率(averageprecision,AP)[85]和平均召回率(averageAP表示檢測(cè)所得正樣本數(shù)占所有檢測(cè)樣本的比式中,TP表示被正確檢測(cè)為正例的實(shí)例數(shù),F(xiàn)P表示被錯(cuò)誤檢測(cè)為正例的實(shí)例數(shù)。AP表示類別的平均eanaverageprecisionAP值,是多個(gè)目標(biāo)類別的檢測(cè)精度,即將每個(gè)類別的AP值取平均得到mAP值。AR表示檢測(cè)所得正樣本數(shù)占所有正樣本的比劉春磊等:小樣本目標(biāo)檢測(cè)研究綜述65表2小樣本目標(biāo)檢測(cè)方法優(yōu)缺點(diǎn)對(duì)比Table2Comparisonofadvantagesanddisadvantagesoffew-shotobjectdetectionmethods分類機(jī)制代表方法優(yōu)勢(shì)局限性適用場(chǎng)景通道注意力注意力空間注意力機(jī)制意力Transformer顯著區(qū)域,可以將其的過程,通過輸入的自適應(yīng)特征加權(quán)MetaR-CNN可以關(guān)注到模型中更為重要的特征通道捉不到感興趣對(duì)象可以處理一些有著背景復(fù)雜的圖像CTNet可以有效地找到圖像中的顯著區(qū)域,提取其中的重要特征只可以定位到感興趣區(qū)的大致位置,不能精確地進(jìn)行特征提取FCT通過圖像中內(nèi)部的信息進(jìn)行注意力的交互,減少外部模塊的干涉模型結(jié)構(gòu)較為復(fù)雜,訓(xùn)練時(shí)圖卷積神經(jīng)網(wǎng)絡(luò)圖卷積利用節(jié)點(diǎn)間的邊關(guān)系對(duì)節(jié)點(diǎn)信息進(jìn)行推理更新,從而增強(qiáng)節(jié)點(diǎn)的特征表示FSOD-SR可以深入挖掘不同類別之間的復(fù)雜關(guān)系當(dāng)圖節(jié)點(diǎn)多時(shí),圖網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,不利于計(jì)算適用于處理檢測(cè)類別之間具有較強(qiáng)邏輯相關(guān)性的情況度量學(xué)習(xí)原型學(xué)習(xí)對(duì)比學(xué)習(xí)改進(jìn)損失函數(shù)類之間的相似性,使離,相同或相似類別之間靠近CME可以學(xué)習(xí)到類別的類信息,通過類信息檢測(cè)該類對(duì)像只采用原型學(xué)習(xí)的話,在樣本量少的情況下,容易發(fā)生類別混淆方便對(duì)圖像的不同目標(biāo)的情況進(jìn)行比較FSCE學(xué)習(xí)到的信息都是和當(dāng)前目標(biāo)對(duì)象相關(guān)的內(nèi)容,相當(dāng)于間接的數(shù)據(jù)增強(qiáng)在對(duì)比樣本的選取中,可能會(huì)引入一些噪音信息MM-FSOD損失計(jì)算簡(jiǎn)單,可操作性強(qiáng)不具備可學(xué)習(xí)性,泛化性差一些數(shù)據(jù)增強(qiáng)多特征融合增加樣本數(shù)量增加候選框數(shù)量擴(kuò)充,對(duì)模型改動(dòng)較小FsDetView可以聚合不同類型的特征信息,使得特征信息更豐富多特征融合會(huì)增加模型的復(fù)雜度數(shù)據(jù)量極少的情況MPSR最直接的增加樣本數(shù)據(jù)方法增加新的樣本數(shù)據(jù),可能會(huì)引入噪聲數(shù)據(jù)RetentiveR-CNN間接地通過增加候選框來達(dá)到增加樣本數(shù)量的目的可能會(huì)生成過多的候選框,容易引起混淆5小樣本目標(biāo)檢測(cè)在各領(lǐng)域的應(yīng)用研究小樣本目標(biāo)檢測(cè)算法由于只需要少量的新類標(biāo)5小樣本目標(biāo)檢測(cè)在各領(lǐng)域的應(yīng)用研究小樣本目標(biāo)檢測(cè)算法由于只需要少量的新類標(biāo)注就可以完成對(duì)目標(biāo)類別的檢測(cè),目前在自動(dòng)駕駛、遙感圖像檢測(cè)、農(nóng)業(yè)病蟲害檢測(cè)等領(lǐng)域都有應(yīng)用。自動(dòng)駕駛自動(dòng)駕駛是目前計(jì)算機(jī)視覺應(yīng)用較為成功的一個(gè)領(lǐng)域,車輛行駛會(huì)面臨非常多的場(chǎng)景,遇見各種各樣的類別,不可能對(duì)全部的類別收集到大量標(biāo)注的圖像,自動(dòng)駕駛需要確保駕駛的絕對(duì)安全,在很短的時(shí)間里做出反應(yīng),這些特性通用目標(biāo)檢測(cè)都無法滿TFA方法和FSRW方法在該數(shù)據(jù)集上的性能表現(xiàn);Agarwal等[41]提出了AGCM方法,有助于在檢測(cè)器的分類頭中創(chuàng)建更加緊密且良好分離的特征簇,在IDD自動(dòng)駕駛數(shù)據(jù)集上取得了當(dāng)時(shí)的最好效果。5.2遙感目標(biāo)檢測(cè)元學(xué)習(xí)范式在檢測(cè)性能上并沒有太大的差異,由前述對(duì)兩種范式的分析可選擇適合的范式進(jìn)行改進(jìn)增強(qiáng)。(2)隨著shot數(shù)的增多,檢測(cè)性能有較大的提升,說明圖像信息越多,學(xué)習(xí)到的特征信息越充分,樣本數(shù)據(jù)增強(qiáng)可能是小樣本問題解決的關(guān)鍵,最新的方法Pseudo-Labelling[74]和CFA-DeFRCN[76]都在探索數(shù)據(jù)增強(qiáng)的方法,也說明了數(shù)據(jù)增強(qiáng)的重要性。(3)在不同的數(shù)據(jù)集上檢測(cè)結(jié)果也不相同,VOC的檢測(cè)結(jié)果總體要大于COCO的檢測(cè)結(jié)果,在VOC和COCO數(shù)據(jù)集上表現(xiàn)最好的都是基于遷移學(xué)習(xí)范式的CFA-學(xué)習(xí)DeFRCN方法使用,得到了最優(yōu)秀的檢測(cè)結(jié)果??梢娛褂幂^為簡(jiǎn)單直接的技術(shù)方法可以成功減少模型過擬合的程度,從而達(dá)到較優(yōu)的效果。(4)其他的使用注意力機(jī)制方法的Meta-DETR和AFD-Net以及另外一個(gè)常見的應(yīng)用領(lǐng)域是遙感目標(biāo)檢測(cè),遙使用數(shù)據(jù)增強(qiáng)的另外一個(gè)常見的應(yīng)用領(lǐng)域是遙感目標(biāo)檢測(cè),遙2023,17(1)計(jì)算機(jī)科學(xué)與探索JournalofFrontiersofComputer2023,17(1)計(jì)算機(jī)科學(xué)與探索表3遷移學(xué)習(xí)方法在VOC數(shù)據(jù)集上的mAP對(duì)比Table3mAPcomparisonoftransferlearningmethodsonVOCdataset方法名稱骨干網(wǎng)絡(luò)NovelSet1123510NovelSet21235101NovelSet323510TFAw/cosFRCNR-10139.836.144.755.056.023.526.930.834.842.849.549.8AttFDNetSSDVGG-1629.634.935.1——16.020.722.1——22.629.132.0——MPSRFRCNR-10141.7—51.455.261.824.4—39.239.947.835.6—42.348.049.7CoRPNsFRCNR-10144.438.546.454.155.725.729.537.336.241.335.841.844.651.649.6Halluc.(CoRPN)FRCNR-10147.044.946.554.754.726.331.837.437.441.240.442.143.351.449.6RetentiveR-CNNFRCNR-10142.445.845.953.756.121.727.835.237.040.330.237.643.049.750.1FSSPYOLOv3-SPP41.6—49.154.256.530.5—39.541.445.136.7—45.349.451.3FSOD-UPFRCNR-10143.847.850.355.461.731.230.535.539.743.950.653.5SVD(FSCE)FRCNR-10146.143.548.960.061.725.629.944.847.548.239.545.448.953.956.9SRR-FSDFRCNR-10147.850.551.355.256.832.535.339.140.843.840.141.544.346.946.4FSCEFRCNR-10144.243.851.461.963.427.329.543.541.947.554.658.5FSOD-SRFRCNR-5050.154.456.260.062.429.539.943.544.648.143.646.653.453.459.5FADIDeFRCNFRCNR-10150.354.854.259.363.230.635.040.342.848.045.7FRCNR-10153.657.561.564.160.853.347.948.449.749.155.059.650.952.354.957.4AGCMFRCNR-10128.3——49.054.817.2——38.547.022.9——46.551.5LSCNFRCNR-5030.743.143.753.459.122.325.734.841.650.321.923.430.743.155.6Pseudo-LabellingCFA-DeFRCNFRCNR-10154.553.258.863.265.732.829.250.749.850.648.4FRCNR-10158.263.365.868.951.355.253.854.752.755.059.659.657.856.960.063.3表4元學(xué)習(xí)方法在VOC數(shù)據(jù)集上的mAP對(duì)比Table4mAPcomparisonofmeta-learningmethodsonVOCdataset方法名稱骨干網(wǎng)絡(luò)NovelSet1NovelSet2NovelSet3135135135FSRWYOLOv2RepMetFRCNR-101MetaR-CNNFRCNR-101FsDetViewFRCNR-101FSOD-KTFRCNR-101NP-RepMetFRCNR-101MM-FSODFRCNR-34AFD-NetFRCNR-101PNPDetCenterNetCME(MPSR)FRCNR-101TIPFRCNR-101DCNetFRCNR-101MetaFasterR-CNNFRCNR-101DRL-for-FSODFRCNR-101QA-FewDetFRCNR-101SQMGFRCNR-101Meta-DETRDef.DETRAPSPNetFRCNR-101FCTPVTv2-B2-Li彭豪等FRCNR-101KFSODEN14.89.924.227.837.850.031.741.527.733.941.828.042.448.640.624.338.536.244.615.532.925.535.341.440.3—41.4—47.536.537.446.740.551.951.436.549.647.2—26.734.435.055.949.527.350.443.343.752.749.455.752.058.044.953.552.454.433.938.645.755.247.357.954.6—58.250.259.649.962.653.759.252.059.855.660.947.241.351.557.456.849.460.960.341.060.959.659.662.359.463.454.363.659.264.362.865.85.721.619.841.637.323.216.627.222.723.222.925.941.637.020.525.928.437.815.324.627.943.0—31.3—30.224.833.633.437.845.436.627.534.234.2—22.723.429.631.938.743.445.738.426.541.433.830.643.836.446.645.843.736.528.334.837.038.947.446.541.9—42.540.936.747.848.946.349.140.944.940.535.845.445.741.548.246.936.446.846.946.652.748.054.647.452.750.421.327.514.321.229.533.335.627.48.934.321.732.335.628.035.246.14

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論