文章核心总结与翻译
一、主要内容
该研究聚焦多模态大型语言模型(MLLMs)的安全对齐问题,针对现有方法在处理含恶意图像的多模态查询时存在的缺陷,提出了一种名为风险自适应激活引导(RAS) 的推理时防御机制。
核心背景与问题
- 现有方法局限:
- 训练基方法(如监督微调、强化学习)需大量高质量安全数据,训练成本高,且可能影响模型通用任务性能;
- 推理时方法(如添加安全提示、迭代响应优化)存在过度拒绝良性查询或推理速度慢的问题。
- 关键发现:MLLMs对多模态查询中安全关键图像区域的跨模态注意力不足,导致无法准确区分安全与恶意查询(如图像中嵌入恶意信息时,模型难以关注到危险视觉特征,而纯文本恶意查询则能正常拒绝)。
RAS核心框架(三阶段)
- 视觉感知查询重构:在原始查询中添加简洁的视觉上下文(图像关键信息摘要)和安全提示,强化模型对安全关键图像区域的跨模态注意力;
- 指数加权风险评估:通过计算重构查询输出分布与恶意原型分布的相似度,生成连续风险分数(而非二元判断),避免安全提示导致的分布偏移问题;
- 风险自适应激活引导:根据风险分数动态调整模型激活值,对高风险查询施加

订阅专栏 解锁全文
1159

被折叠的 条评论
为什么被折叠?



