該論文發(fā)表于AAAI Conference on Artificial Intelligence 2025(CCF A),題目為《FBRT-YOLO:Faster and Better for Real-Time Aerial Image Detection》。
本文第一作者為北京理工大學(xué)的肖遙,通訊作者為北京理工大學(xué)的許廷發(fā)教授與李佳男副教授。。
論文鏈接為:https://arxiv.org/abs/2504.20670
1. 概要
在航拍圖像檢測任務(wù)中,盡管已有許多方法在一定程度上緩解了小目標(biāo)檢測問題,但在提升小目標(biāo)檢測性能的同時(shí),兼顧檢測精度與推理效率仍是艱巨的挑戰(zhàn),這也成為制約技術(shù)發(fā)展的關(guān)鍵瓶頸。。
針對上述問題,本文提出了一種面向航拍圖像檢測的全新實(shí)時(shí)檢測器系列,命名為 FBRT-YOLO,旨在解決檢測精度與效率之間的不平衡問題。該方法的核心在于兩個(gè)新穎的輕量化模塊:特征互補(bǔ)映射模塊(FCM)和多核感知單元(MKP),它們用于增強(qiáng)對航拍圖像中小目標(biāo)的感知能力;此外,本文還對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了針對性的冗余削減。
在VisDrone、UAVDT和AI-TOD三個(gè)主流航拍圖像數(shù)據(jù)集上的大量實(shí)驗(yàn)證明,F(xiàn)BRT-YOLO 在性能與速度方面均優(yōu)于多種現(xiàn)有的實(shí)時(shí)檢測器。FBRT-YOLO框架圖如圖 1所示。
圖1 FBRT-YOLO框架圖
2. 研究背景
近年來,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展顯著提升了對低分辨率自然圖像的目標(biāo)檢測性能。然而,當(dāng)這些方法應(yīng)用于高分辨率航拍圖像,并部署于資源受限的無人機(jī)等邊緣設(shè)備時(shí),其精度與效率的平衡點(diǎn)遠(yuǎn)未達(dá)到理想狀態(tài)。其主要挑戰(zhàn)包括:(1)檢測航拍圖像中尺寸較小或被背景遮擋的目標(biāo);(2)在計(jì)算資源有限的設(shè)備上,實(shí)現(xiàn)檢測精度與實(shí)時(shí)性的平衡。
為提升小目標(biāo)檢測性能,提高圖像分辨率是一種常見的做法,但這也顯著增加了計(jì)算負(fù)擔(dān),影響了實(shí)時(shí)性能的實(shí)現(xiàn)。同時(shí),深層網(wǎng)絡(luò)提供的低分辨率語義信息與淺層網(wǎng)絡(luò)提供的高分辨率空間信息之間存在不匹配問題。
為了解決這一問題,特征金字塔結(jié)構(gòu)(FPN)被廣泛采用,用于融合深淺層特征,增強(qiáng)小目標(biāo)定位與多尺度特征表達(dá),同時(shí)提升計(jì)算效率。然而,傳統(tǒng)主干網(wǎng)絡(luò)在向下傳遞特征時(shí)難以有效保留淺層的空間細(xì)節(jié),導(dǎo)致后續(xù)的特征融合存在信息錯配(information mismatch)問題。
3. 方法介紹
為應(yīng)對航拍圖像目標(biāo)檢測中的挑戰(zhàn),本文設(shè)計(jì)了一種能夠兼顧檢測精度與實(shí)時(shí)效率的有效網(wǎng)絡(luò)架構(gòu)。本文提出了一種新型檢測網(wǎng)絡(luò),包含兩個(gè)輕量級模塊:特征互補(bǔ)映射模塊(FCM)和多核感知單元(MKP)。
首先,為了緩解主干網(wǎng)絡(luò)中的信息不平衡問題,并促進(jìn)語義信息與空間位置信息的有效融合,設(shè)計(jì)了特征互補(bǔ)映射模塊(FCM)。
FCM先將輸入的特征圖在通道維度上一分為二。一路專門負(fù)責(zé)學(xué)習(xí)語義信息(X1),另一路專門負(fù)責(zé)保留空間信息(X2)。語義分支(X1)通過一個(gè)3×3卷積生成富含語義的特征XC;空間分支(X2)則通過一個(gè)1×1逐點(diǎn)卷積生成保留了精細(xì)空間信息的特征XS。XC首先經(jīng)過一個(gè)DWConv操作得到XD,然后XD經(jīng)過通道引導(dǎo)模塊和Sigmoid激活函數(shù)后得到一個(gè)通道注意力權(quán)重向量ω?;同樣的,經(jīng)過類似操作得到空間注意力向量ω?,最終,通過注意力加權(quán)的方式將二者融合(XS⊗ω?+XC⊗ω?)得到XFCM,這樣操作可以實(shí)現(xiàn)淺層空間位置信息向深層的有效傳遞,從而增強(qiáng)特征對齊能力,提高小目標(biāo)的定位效果,F(xiàn)CM模塊如圖 2 所示。
圖2 FCM模塊
其次,考慮到航拍圖像中的小目標(biāo)通常只占據(jù)極少像素,極易在卷積神經(jīng)網(wǎng)絡(luò)的特征提取過程中發(fā)生信息丟失,我們進(jìn)一步從網(wǎng)絡(luò)感受野角度出發(fā),提出了多核感知單元(MKP)。
該模塊使用k=3,5,7等多尺寸卷積核,串行地提取從局部到全局的多尺度特征。本文將MKP用于替換網(wǎng)絡(luò)的最終下采樣層,使網(wǎng)絡(luò)能夠感知多尺度目標(biāo),在提升特征捕獲能力的同時(shí)進(jìn)一步簡化網(wǎng)絡(luò)結(jié)構(gòu)。MKP單元如圖3所示。
圖3 MKP單元
最后,本文還對網(wǎng)絡(luò)進(jìn)行了冗余削減的優(yōu)化操作(Redundancy Reduction)。在需要將特征圖尺寸減半的下采樣過程中,傳統(tǒng)方法采用的步長為2的3×3標(biāo)準(zhǔn)卷積計(jì)算成本較高。本文采用了一種更高效的替代方案:先通過步長為2的3×3分組卷積進(jìn)行空間下采樣,再利用1×1的逐點(diǎn)卷積進(jìn)行通道信息整合。這種“先分組、后逐點(diǎn)”的策略極大地降低了計(jì)算開銷。
4. 實(shí)驗(yàn)結(jié)果
本文采用三個(gè)主流的航拍數(shù)據(jù)集,分別是VisDrone(26k+圖片,10個(gè)類別,中小型尺寸),UAVDT(100視頻,三個(gè)類別,小型),AI-TOD(28k圖片,三個(gè)類別,極小型目標(biāo)),評價(jià)指標(biāo)有:mAP、AP50、AP75、Params、FLOPs、FPS。
在VisDrone數(shù)據(jù)集上(表 1),F(xiàn)BRT-YOLO的N/S/M/L/X 全系列模型,相比于同等規(guī)模的YOLOv8,YOLOv9,YOLOv10,和RT-DETR等當(dāng)前最先進(jìn)的實(shí)時(shí)檢測器,實(shí)現(xiàn)了“參數(shù)更少、速度更快、精度更高”的全面領(lǐng)先。
表1
在UAVDT數(shù)據(jù)集(表 2):FBRT-YOLO的AP達(dá)到了18.4%,顯著優(yōu)于之前的多種方法如 GLSAN 17.0%)和CEASC(17.1%),這證明了該方法在不同場景的航拍圖像上同樣有效。
表2
在AI-TOD數(shù)據(jù)集 (表 3),F(xiàn)BRT-YOLO-S相比基線YOLOv8-S,在參數(shù)量和FLOPs大幅降低的同時(shí),AP提升了1.1%,AP50 提升了2.2%。直接證明了FCM和MKP模塊對于提升小目標(biāo)檢測性能的有效性。
表3
本文還對RR(冗余削減策略)、FCM(特征互補(bǔ)映射模塊)、MKP(多核感知單元)進(jìn)行了消融實(shí)驗(yàn)(表 4),
僅應(yīng)用RR策略,便可在AP幾乎無損的情況下,使模型的參數(shù)量和FLOPs降低超過10%,驗(yàn)證了其在效率提升上的顯著作用。在RR的基礎(chǔ)上加入FCM,模型的AP提升了約0.9%,AP50提升了1.4%,且計(jì)算量進(jìn)一步降低。這證明了FCM在不增加成本的情況下,有效改善了特征質(zhì)量,提升了精度。在RR+FCM的基礎(chǔ)上加入MKP,模型的AP和AP50再次獲得顯著提升(AP提升0.7%,AP50提升1.8%),最終達(dá)到了最佳性能。這證明了MKP對于增強(qiáng)多尺度感知能力的關(guān)鍵作用。
表4
5. 總結(jié)
本文提出了一種面向航拍圖像檢測的全新實(shí)時(shí)檢測器系列,命名為 FBRT-YOLO。該方法引入了兩個(gè)輕量級模塊:特征互補(bǔ)映射模塊(FCM),旨在增強(qiáng)豐富語義信息與精確空間位置信息的融合能力;以及多核感知單元(MKP),用于加強(qiáng)多尺度目標(biāo)的感知能力,提升網(wǎng)絡(luò)對不同尺度特征的捕捉效果。此外,為了更好地適應(yīng)航拍圖像檢測任務(wù),我們還對傳統(tǒng)檢測器中存在的冗余結(jié)構(gòu)進(jìn)行了精簡,從而進(jìn)一步提升網(wǎng)絡(luò)的運(yùn)行速度。在VisDrone、UAVDT和AI-TOD三個(gè)航拍圖像數(shù)據(jù)集上的大量實(shí)驗(yàn)證明,F(xiàn)BRT-YOLO 在檢測精度與效率之間實(shí)現(xiàn)了高度平衡的性能表現(xiàn)。
撰稿人:吳慶國
審稿人:梁瑾