2025_NIPS_DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

原创于 2026-06-15 11:30:00 发布 · 202 阅读

·

9

·

文章标签：

#人工智能 #语言模型

LLM Daily 同时被 2 个专栏收录

2800 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

880 篇文章

订阅专栏

一、文章主要内容总结

该研究针对视觉Transformer（ViTs）对输入token顺序不敏感、位置感知能力不足的问题，提出了一种新型自监督预训练任务DropPos，核心是通过重建被丢弃的位置嵌入来增强ViTs的空间推理能力。

核心背景：现有自监督学习方法（对比学习CL、掩码图像建模MIM）未充分解决ViTs的位置感知缺陷，ViTs在缺乏位置嵌入时仍能完成部分任务，说明其未充分利用空间信息，需设计专门强化位置意识的预训练任务。
方法设计：
- 先对输入图像块进行随机掩码，再丢弃可见图像块的大部分位置嵌入（保留少量锚点块的位置嵌入）；
- 模型需仅基于视觉外观和锚点块信息，对每个可见块的真实位置进行分类；
- 为避免 trivial 解和相似外观块的位置混淆，引入位置平滑（Position Smoothing）和注意力重建（Attentive Reconstruction）策略，放松分类任务的严格性。
实验结果：
- 在ImageNet-1K分类任务中，ViT-B/16模型经800轮预训练达到84.2%的Top-1准确率，优于1600轮预训练的MAE（+0.6%）；
- 在COCO目标检测/分割、ADE20k语义分割等需强空间推理的任务中，持续超越MAE等主流方法；
- 消融实验验证了掩码比例、位置平滑、注意力重建等模块的有效性。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。