一、文章主要内容总结
该研究针对视觉Transformer(ViTs)对输入token顺序不敏感、位置感知能力不足的问题,提出了一种新型自监督预训练任务DropPos,核心是通过重建被丢弃的位置嵌入来增强ViTs的空间推理能力。
- 核心背景:现有自监督学习方法(对比学习CL、掩码图像建模MIM)未充分解决ViTs的位置感知缺陷,ViTs在缺乏位置嵌入时仍能完成部分任务,说明其未充分利用空间信息,需设计专门强化位置意识的预训练任务。
- 方法设计:
- 先对输入图像块进行随机掩码,再丢弃可见图像块的大部分位置嵌入(保留少量锚点块的位置嵌入);
- 模型需仅基于视觉外观和锚点块信息,对每个可见块的真实位置进行分类;
- 为避免 trivial 解和相似外观块的位置混淆,引入位置平滑(Position Smoothing)和注意力重建(Attentive Reconstruction)策略,放松分类任务的严格性。
- 实验结果:
- 在ImageNet-1K分类任务中,ViT-B/16模型经800轮预训练达到84.2%的Top-1准确率,优于1600轮预训练的MAE(+0.6%);
- 在COCO目标检测/分割、ADE20k语义分割等需强空间推理的任务中,持续超越MAE等主流方法;
- 消融实验验证了掩码比例、位置平滑、注意力重建等模块的有效性。

订阅专栏 解锁全文
317

被折叠的 条评论
为什么被折叠?



