2025_NIPS_DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

一、文章主要内容总结

该研究针对视觉Transformer(ViTs)对输入token顺序不敏感、位置感知能力不足的问题,提出了一种新型自监督预训练任务DropPos,核心是通过重建被丢弃的位置嵌入来增强ViTs的空间推理能力。

  1. 核心背景:现有自监督学习方法(对比学习CL、掩码图像建模MIM)未充分解决ViTs的位置感知缺陷,ViTs在缺乏位置嵌入时仍能完成部分任务,说明其未充分利用空间信息,需设计专门强化位置意识的预训练任务。
  2. 方法设计
    • 先对输入图像块进行随机掩码,再丢弃可见图像块的大部分位置嵌入(保留少量锚点块的位置嵌入);
    • 模型需仅基于视觉外观和锚点块信息,对每个可见块的真实位置进行分类;
    • 为避免 trivial 解和相似外观块的位置混淆,引入位置平滑(Position Smoothing)和注意力重建(Attentive Reconstruction)策略,放松分类任务的严格性。
  3. 实验结果
    • 在ImageNet-1K分类任务中,ViT-B/16模型经800轮预训练达到84.2%的Top-1准确率,优于1600轮预训练的MAE(+0.6%);
    • 在COCO目标检测/分割、ADE20k语义分割等需强空间推理的任务中,持续超越MAE等主流方法;
    • 消融实验验证了掩码比例、位置平滑、注意力重建等模块的有效性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值