Risk-adaptive Activation Steering for Safe Multimodal Large Language Models

文章核心总结与翻译

一、主要内容

该研究聚焦多模态大型语言模型(MLLMs)的安全对齐问题,针对现有方法在处理含恶意图像的多模态查询时存在的缺陷,提出了一种名为风险自适应激活引导(RAS) 的推理时防御机制。

核心背景与问题

  1. 现有方法局限
    • 训练基方法(如监督微调、强化学习)需大量高质量安全数据,训练成本高,且可能影响模型通用任务性能;
    • 推理时方法(如添加安全提示、迭代响应优化)存在过度拒绝良性查询或推理速度慢的问题。
  2. 关键发现:MLLMs对多模态查询中安全关键图像区域的跨模态注意力不足,导致无法准确区分安全与恶意查询(如图像中嵌入恶意信息时,模型难以关注到危险视觉特征,而纯文本恶意查询则能正常拒绝)。

RAS核心框架(三阶段)

  1. 视觉感知查询重构:在原始查询中添加简洁的视觉上下文(图像关键信息摘要)和安全提示,强化模型对安全关键图像区域的跨模态注意力;
  2. 指数加权风险评估:通过计算重构查询输出分布与恶意原型分布的相似度,生成连续风险分数(而非二元判断),避免安全提示导致的分布偏移问题;
  3. 风险自适应激活引导:根据风险分数动态调整模型激活值,对高风险查询施加
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值