Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning（ICCV2023）

原创

已于 2024-02-03 16:27:14 修改 · 2.5k 阅读

于 2024-01-17 07:00:00 首次发布

文章目录

-
Abstract
- 问题
- 方法
- 结果
Introduction
Method（details)
Training
Conclusion

hh
源代码

-

Abstract

问题

众所周知，先验和目标区域之间的低重叠导致优化的样本池受限，而判别信息的缺乏进一步加剧了识别难度
说白了就是低重叠导致样本不足且微小目标判别信息匮乏。

方法

为了缓解上述问题，作者提出了CFINet，一个基于粗到细管道和特征模仿学习的两阶段小目标检测框架。
首先，作者引入了由粗到精的区域提议网络（Coarse-to-fine RPN, CRPN）。通过动态锚点选择策略和级联回归技术，确保为小目标提供足够且高质量的提议框。这样可以有效解决因传统锚框设计导致的小目标检测不足的问题。
接着，在常规检测头结构中添加了一个特征模仿（Feature Imitation, FI）分支，该分支旨在以模仿的方式帮助模型更好地表征那些尺寸受限、容易困扰模型的目标实例。
此外，作者还设计了一种遵循监督对比学习范式的辅助模仿损失函数，用于优化这个FI分支，进一步提升模型对尺寸较小物体的识别能力和表示效果。

结果

当与Faster RCNN集成时，CFINet在大规模小目标检测基准(SODA- D和SODA- a)上实现了最先进的性能，突出了其优于基线检测器和其他主流检测方法的优势。

Introduction

小目标检测的两个固有挑战：训练样本不足和质量低，以及兴趣区域预测的不确定性。
对于小目标来说，其先验与真值的IoU比很低。换句话说，现有的正样本准则在应用于小/微小对象时过于严格，导致可用于优化的样本数量有限。当然很显然的一个解决方法就是把IoU阈值调低，但低质量的样本违背了RPN的初衷，会加大后续回归子网络的任务难度。

小目标通常缺乏判别信息和扭曲的结构，导致模型倾向于给出模糊甚至错误的预测。
high quality ̸= large size meanwhile small size ̸= low quality，即人类和模型对于好样本的评判标准是不同的。

综上所述，作者提出了一种基于粗到细管道和特征模仿学习的两阶段小目标检测器CFINet。
具体来说，受到级联区域提议网络（Cascade RPN）多阶段生成方案的启发，作者设计了一种名为“粗到精区域提议网络”（Coarse-to-fine Region Proposal Network, CRPN）的方法。主要工作如下：

动态锚点选择策略：首先，CRPN采用一种动态锚点选择策略来挖掘潜在的先验框。该策略旨在初步筛选并保留那些最有可能包含目标对象的锚框，以进行初步的粗略回归。
粗略回归与细化：基于所选锚点，网络进行初步的回归操作，以调整这些锚框的位置和大小，从而得到一组更接近实际目标边界框的改进锚点。
分类与精细回归：经过粗略回归后的锚点将被输入到区域提议网络中进一步进行分类和精细回归处理，确保输出高质量的目标候选框。
辅助特征模仿分支（FI Branch）：为了增强模型对不确定或错误预测对象的学习能力，我们在常规的分类和回归设置基础上增加了一个辅助的特征模仿分支。该分支利用高质量实例区域的特征来指导那些难以正确预测目标的特征学习过程。
基于监督对比学习的损失函数（SCL Loss）：设计了一个基于监督对比学习[20]的损失函数，用于整体优化过程。通过这个损失函数，网络