文章主要内容总结
本文聚焦多模态大语言模型(MLLMs)的分辨率鲁棒性问题,即模型在不同输入分辨率下的性能稳定性。现有评估范式多关注语义层面表现,忽略了分辨率变化对模型性能的影响。为此,作者提出了Res-Bench基准测试集,包含14400个样本、12个分辨率等级和6个核心能力维度,搭配准确率、斯皮尔曼相关系数、绝对连续误差(ACE)、相对连续误差(RCE)四种评估指标。通过对主流专有模型(如GPT-4o、Gemini-1.5 Pro)和开源模型(如Qwen2.5-VL、InternVL2.5)的大规模评估,发现现有MLLMs普遍缺乏分辨率鲁棒性,且存在架构权衡(原生处理法峰值性能高但鲁棒性弱,补丁法鲁棒性强但整体性能低)、任务依赖性鲁棒性等关键特征。同时验证了超分辨率预处理、混合分辨率微调等提升鲁棒性的有效策略。
创新点总结
- 首个专注分辨率鲁棒性的基准测试集:Res-Bench覆盖6大核心能力、15个细分任务和12个分辨率等级,样本量达14400个,填补了现有评估对分辨率影响的研究空白。
- 多维度鲁棒性评估指标:除传统准确率外,首次引入斯皮尔曼相关系数(衡量分辨率-性能趋势)、ACE和RCE(量化性能波动),全面刻画模型稳定性。
- 系统性实验与关键发现:揭示了MLLMs在分辨率鲁棒性上的架构权衡、任务依赖性等特征,为模型设计提供新视角。
- 有效提升策略验证:证实超分辨率预处理(优于简单填充)和混合分辨率微调(可增强鲁棒性并泛化到分布外数据)的有效性。<

订阅专栏 解锁全文
3227

被折叠的 条评论
为什么被折叠?



