Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution ...

文章主要内容总结

本文聚焦多模态大语言模型(MLLMs)的分辨率鲁棒性问题,即模型在不同输入分辨率下的性能稳定性。现有评估范式多关注语义层面表现,忽略了分辨率变化对模型性能的影响。为此,作者提出了Res-Bench基准测试集,包含14400个样本、12个分辨率等级和6个核心能力维度,搭配准确率、斯皮尔曼相关系数、绝对连续误差(ACE)、相对连续误差(RCE)四种评估指标。通过对主流专有模型(如GPT-4o、Gemini-1.5 Pro)和开源模型(如Qwen2.5-VL、InternVL2.5)的大规模评估,发现现有MLLMs普遍缺乏分辨率鲁棒性,且存在架构权衡(原生处理法峰值性能高但鲁棒性弱,补丁法鲁棒性强但整体性能低)、任务依赖性鲁棒性等关键特征。同时验证了超分辨率预处理、混合分辨率微调等提升鲁棒性的有效策略。

创新点总结

  1. 首个专注分辨率鲁棒性的基准测试集:Res-Bench覆盖6大核心能力、15个细分任务和12个分辨率等级,样本量达14400个,填补了现有评估对分辨率影响的研究空白。
  2. 多维度鲁棒性评估指标:除传统准确率外,首次引入斯皮尔曼相关系数(衡量分辨率-性能趋势)、ACE和RCE(量化性能波动),全面刻画模型稳定性。
  3. 系统性实验与关键发现:揭示了MLLMs在分辨率鲁棒性上的架构权衡、任务依赖性等特征,为模型设计提供新视角。
  4. 有效提升策略验证:证实超分辨率预处理(优于简单填充)和混合分辨率微调(可增强鲁棒性并泛化到分布外数据)的有效性。<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值