VLM系列文章4-Prismatic VLMs

最新推荐文章于 2026-06-15 16:00:27 发布

原创

最新推荐文章于 2026-06-15 16:00:27 发布 · 1k 阅读

·

13

·

标签

#Prismatic VLMs

论文：https://arxiv.org/pdf/2402.07865.pdf

TL&DL

这篇文章基于 LLaVA 1.5 的框架，对于视觉大语言模型 (Vison Language Model) 的训练、架构等设计方案进行了消融实验。通过在一系列视觉语言的测试集上综合比较，作者得出了在这一框架下的最优的训练策略。其探索了以下几个维度。

1. 优化策略（Optimization Procedure）

1、是否要多阶段训练？

LLaVA v1.5 采用了两阶段的训练策略，第一阶段利用 captioning 数据训练视觉对齐模块，第二阶段则是在 intruction tuning 数据上训练对齐模块以及语言模型。
作者发现：直接进行第二阶段能够提升效率并且提升下游各个任务上的性能。后续所有实验都只进行第二阶段的训练。
在这里插入图片描述

2、是否要优化视觉编码器？

作者尝试在实验中对视觉编码器进行训练，发现模型在下游任务上的性能普遍下降，特别在针对物体定位的任务性能退化的尤为明显。作者推测原因是因为训练数据的多样性不足导致的。
在这里插入图片描述

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。