论文:https://arxiv.org/pdf/2402.07865.pdf
TL&DL
这篇文章基于 LLaVA 1.5 的框架,对于视觉大语言模型 (Vison Language Model) 的训练、架构等设计方案进行了消融实验。通过在一系列视觉语言的测试集上综合比较,作者得出了在这一框架下的最优的训练策略。其探索了以下几个维度。
1. 优化策略(Optimization Procedure)
1、是否要多阶段训练?
LLaVA v1.5 采用了两阶段的训练策略,第一阶段利用 captioning 数据训练视觉对齐模块,第二阶段则是在 intruction tuning 数据上训练对齐模块以及语言模型。
作者发现:直接进行第二阶段能够提升效率并且提升下游各个任务上的性能。后续所有实验都只进行第二阶段的训练。

2、是否要优化视觉编码器?
作者尝试在实验中对视觉编码器进行训练,发现模型在下游任务上的性能普遍下降,特别在针对物体定位的任务性能退化的尤为明显。作者推测原因是因为训练数据的多样性不足导致的。



1717

被折叠的 条评论
为什么被折叠?



