VLM (2):多模态的诅咒(模态对齐税)

最新推荐文章于 2026-06-12 20:58:56 发布

原创最新推荐文章于 2026-06-12 20:58:56 发布 · 671 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#多模态 #诅咒 #瓶颈

LLM+VLM 专栏收录该内容

17 篇文章

订阅专栏

多模态的诅咒内容我发现越写越多, 新开一章

文章目录

多模态的诅咒(模态对齐税)
1 多模态诅咒的原因有4:
2 行业是怎么解决这个问题的

多模态的诅咒(模态对齐税)

几乎所有从纯文本升级到, 多模态的 VLM 的模型在数学, 代码, 逻辑上都下滑
到了 2025年中这个诅咒正在被打破:
千问3 omni 技术报告首次实现了想对于单模态模型不退化, gemini2.5 pro 原生多模态+推理

1 多模态诅咒的原因有4:

1.1 信息密度不对等

文本(高密度)	图像(低密度)
几千年压缩的`符系统`	几百万像素
一句话包含时间+人物+因果	大量`对逻辑推理无用`的低级特征(纹理/光线/褶皱)
推理有用的信息密集	当这些低级无用的特征project进文本空间就是`噪声`, 用信息论的说法: 视觉信号里大量不能在文本对齐方向上的信息对文本解码器来说就是`干扰`

1.2 参数容量的零和博弈

也就是说总量不变, 模型将一部分参数分给其他模态,那么性能就下降尤其小模型最严重

文本	图像
只理解逻辑	需要通过纹理/色彩/边界/光线等等细节去推理, 小模型因为参数量小还要分这么多功能去做事情性能会严重下降

1.3 跨模态对齐的权重污染(我训练vla 也遇到过)

UC Berkeley 的马毅教授团队、沈向洋教授等学者合作的经典成果，题为《Investigating the Catastrophic Forgetting in Multimodal Large Language Models》（其开源评测框架称为 EMT，即 Evaluating MulTimodality）。随后该成果也被收录在 UC Berkeley 的博士论文及相关顶级会议中。这篇论文通过严谨的实验，定量验证了 “跨模态对齐带来的权重污染与灾难性遗忘” 现象。

为什么会发生“权重污染”？
早期（如 LLaVA 的早期版本或类似架构）为了让大模型看懂图片，做法非常直接：

用一个线性层或两层 MLP（投影矩阵）把预训练好的 Vision Transformer (ViT) 抽出的特征，强行映射到 LLM 的文本词向量空间。
开启全参数微调（Full Fine-Tuning）或者大范围的 LoRA 微调，用图文对数据训练整个系统。

这个做法没有考虑到:

空间的异构性（Heterogeneity）
文本空间：是离散的、高语义密度的符号序列。
视觉空间：是连续的、高冗余度的像素及空间特征。

扭曲的代价：权重污染当强行在 LLM 中引入视觉特征并做端到端微调时，为了“迎合”和“消化”这些异构的视觉信号，LLM 内部原本已经对齐得非常完美的语言模型权重（Language Prior）被迫做出剧烈调整。

论文中的实验表明：这种调整并没有让模型真正融合两种模态，反而像一种“毒素”污染了原有的纯文本空间。结果导致：

文本理解能力倒退：原本逻辑严密、长文本推理很好的 LLM，在对齐视觉后，纯文本的考试成绩、逻辑推理和常识能力大幅下降。
任务特异性过拟合与幻觉：模型在微调的图文数据集上表现变好，但一旦遇到没见过的图片分布（Out-of-Distribution），就会疯狂生成幻觉（Hallucination）。它其实没有真正“看懂”，只是把微调数据集里的文本模式死记硬背了下来，原本强大的泛化能力被“扭曲”了。

1.4 视觉token 会稀释注意力

大量冗余token 涌入, 模型对关键文本提示的注意力被摊薄, 尤其高分辨率和动态分辨率让这个问题更严重,尤其到了长视频场景里特别突出.

2 行业是怎么解决这个问题的

2.1 第一阶段:(2023-2024)

数据配比:(deepseek-VL 明确写了比例)
(1) 保持70%+纯文本数据
(2)图文只做增量
(3)持续用文本/代码/数学/ 来拉住基本面

冻结测策略:(LLaVa系列这么做)
第一阶段完全冻结 LLM, 只训练投影层, 视觉特征在不动llm权重的情况下适配文本空间(这样最小化权重污染, 但锁死融合深度上限)

其中 Berkeley 等团队揭示了全参数对齐会导致“两败俱伤”（视觉没学好，文本还忘光了），后来的多模态模型在架构和训练策略上做出了重大演进：

1. 冻结（Freeze）双塔，只训连接器
既然改 LLM 权重会污染文本能力，改 ViT 权重会破坏视觉常识，那干脆把 ViT 和 LLM 全都冻结（Freeze）。
比如 BLIP-2、InstructBLIP 引入了 Q-Former；后来的大模型引入了更复杂的感知器架构（Perceiver Resampler）。
做法：只训练中间这个高维的连接器，让它拼命把视觉特征翻译成 LLM 听得懂的“外语”，绝不允许视觉信号去污染 LLM 本身的记忆。

2. 多阶段混合训练（Data-Hybrid Strategy）
在最新的多模态微调（SFT）阶段，绝对不能只喂图文数据。
做法：在微调图文对的同时，必须在训练集里按比例混入高质的纯文本对话数据（纯文本 SFT 数据及预训练数据）。通过这种“回放（Rehearsal）”机制，死死拽住 LLM 的文本锚点，防止其权重向异构空间过度偏移。

3. 高效参数微调（PEFT）的克制使用
后续研究（包括 2026 年针对 Qwen2-VL 等最新模型的研究）表明，如果必须微调 LLM，必须采用极其克制的学习率（Low Learning Rate），或者使用更严格的正则化手段限制参数更新的幅度（Spectral Trust Region），像外科手术一样精准调整，避免大面积污染。

这一阶段只能说是缓解了找到了问题,并缓解了问题,没有本质解决问题

2.2 第二阶段(2024-2025)(gpt-4o, gemini, deepseek-vl2)

联合预训练:from scretch 开始就是文本+视觉一起从0开始训练(ernie5.0的报告指出这样可以缓解后融合时遇到能力翘翘板问题),这样的做法是参数空间还没被文本"占满"时就让视觉进来,这样模型就会自然学会分配空间.

moe解偶: 让不同专家架构解决不同模态走不同计算路径, 比如视觉token激活视觉模块, 文本token激活文本专家

这一阶段大幅缓解了诅咒不再是零和博弈,但是在极致的数学推理和代码生成上跟同规模纯文本还有差距, 视觉token 对注意力稀释的问题还是存在, 信息密度的根本矛盾也没有解决

1. 闭源天花板：Google Gemini 1.5 系列 (Pro / Flash)
Gemini 1.5 是第二阶段“原生多模态 + MoE”最极致的代表。
原生联合预训练：谷歌从一开始就没有用现成的纯文本 LLM，Gemini 是直接将文本、图像、音频、视频作为同等的“基本符号（Tokens）”，放在一个统一的 Transformer 中从头联合预训练（Early-fusion 思想）。
稀疏 MoE 架构：它是极大规模的 MoE 架构。当视觉 Token 进来时，它能自动路由到更擅长处理视觉语义的专家参数块中。
里程碑意义： 首次在原生多模态下干到了 100万到1000万（10M）的超长上下文（Long-Context）。由于是在预训练阶段就学会了空间分配，Gemini 1.5 在吃下长视频和长音频时，展现出了恐怖的“大海捞针（Needle In A Haystack）”能力，纯文本的智商（如长代码库理解）也没有被冲垮。

2. 开源 MoE 标杆：DeepSeek-VL2
DeepSeek-VL2是开源界把“第二阶段 MoE 解耦”玩到极致的典范。
基于 DeepSeekMoE 架构：它的底层激活参数非常克制（例如用 27B 的总参数，每次只激活 4.5B）。它通过精妙的专家设计，将一部分专家专门用于处理高频的视觉特征（如 OCR 识别、图表解析），另一部分专家专注于逻辑文本。
全参数打通：训练时所有参数全部解锁，进行图文和文本的联合微调。
解决的痛点：用极低的推理算力成本，硬生生把视觉问答、文档/表格理解的性能拉到了第一梯队，同时利用 MoE 成功隔离了模态间的“能力翘翘板”，保护了文本基本面。

2.3 第三个阶段: 推理型多模态(2025-2026)Qwen3.5-Omni, Gemini 3.1 Pro

这一阶段让模型在多模态输入上投入更多的计算量来深度理解.因此这一阶段直接解决了信息密度低的问题: 视觉信息多噪声多不代表没有价值, 问题在于模型花了多少计算量去提取其中的高阶语义.对比如下图
在这里插入图片描述
Qwen3.5-Omni 的 Thinker–Talker 架构实现了“解耦思维与表达”，其核心逻辑如下：

Thinker（思考者）：重计算、深吞吐

职责：专门负责多模态（文本、图像、长音频、长视频）的输入流深度理解、慢思考与推理。

额外算力：到了 Qwen3.5-Omni，Thinker 内部升级为了 Hybrid-Attention MoE（混合注意力专家模型），并支持高达 256K 的超长上下文。

解决密度问题：它可以一口气吃下 10 小时以上的音频或 400 秒以上的 720P 高清视频（1 FPS）。它不急着说话，而是调动内部的 MoE 专家网络，把海量的视觉/音频像素 Token 放在超长的上下文窗口里进行充分的交叉注意力（Cross-Attention）计算。这极大地提升了“提取低密度信息中高阶语义”的能力。