MAE(Masked Autoencoders) 详解

原创已于 2023-06-06 11:41:47 修改 · 9.6k 阅读

收录于

机器视觉

当前文章被收录于：

机器视觉

57 篇文章 11 人学习

目标检测算法Pytorch实现

订阅专栏查看详情

当前文章被以下社区和专栏收录：

于 2023-06-01 17:05:48 首次发布

深度学习专栏收录该内容

110 篇文章 ¥199.90 ¥299.90

订阅专栏

超级会员免费看

MAE（Masked Autoencoders）是一种用于计算机视觉的预训练方法，通过随机mask图像部分并重构来学习表示。该模型采用非对称的编码器-解码器结构，其中编码器仅处理未被mask的patches，解码器负责重建被mask的部分。在ImageNet-1K上，MAE取得了87.8%的准确性，且其简单设计和高效性使其在大规模视觉学习中表现出色。

MAE详解

0. 引言
1. 网络结构
2. 关键问题解答
3. 总结

0. 引言

masked autoencoders (MAE) 是用于CV的自监督学习方法，优点是扩展性强的（scalable），方法简单。在MAE方法中会随机mask输入图片的部分patches，然后重构这些缺失的像素。MAE基于两个核心设计：（1）不对称的（asymmetric）编码解码结构，编码器仅仅对可见的patches进行编码，不对mask tokens进行任何处理，解码器将编码器的输出（latent representation）和mask tokens作为输入，重构image；（2）使用较高的mask比例（如75%）。MAE展现了很强的迁移性能，在ImageNet-1K上取得了best accuracy（87.8%），且因为方法简单，可扩展性极强（scalable）。
下图展示了MAE在ImageNet验证集上的重建结果。对于每个三元组，左边的图像是被遮挡的，中间的图像是MAE重建的，右边的图像是实际的。其中掩蔽率为80%，即在196个patch中只剩下39个对模型可见。可以看出，经过MAE还原后的图像可以大致将原始图像还原出来。