多模态的诅咒内容我发现越写越多, 新开一章
文章目录
多模态的诅咒(模态对齐税)
几乎所有从纯文本升级到, 多模态的 VLM 的模型 在数学, 代码, 逻辑上都下滑
到了 2025年中 这个诅咒正在被打破:
千问3 omni 技术报告首次实现了想对于单模态模型不退化, gemini2.5 pro 原生多模态+推理
1 多模态诅咒的原因有4:
1.1 信息密度不对等
| 文本(高密度) | 图像(低密度) |
|---|---|
几千年压缩的符系统 | 几百万像素 |
| 一句话包含时间+人物+因果 | 大量对逻辑推理无用的低级特征(纹理/光线/褶皱) |
| 推理有用的信息密集 | 当这些低级无用的特征project进文本空间就是噪声, 用信息论的说法: 视觉信号里大量不能在文本对齐方向上的信息 对文本解码器来说就是干扰 |
1.2 参数容量的零和博弈
也就是说 总量不变, 模型将一部分参数分给其他模态,那么性能就下降尤其小模型最严重
| 文本 | 图像 |
|---|---|
| 只理解逻辑 | 需要通过纹理/色彩/边界/光线等等细节去推理, 小模型因为参数量小还要分这么多功能去做事情性能会严重下降 |
1.3 跨模态对齐的权重污染(我训练vla 也遇到过)
UC Berkeley 的马毅教授团队、沈向洋教授等学者合作的经典成果,题为 《Investigating the Catastrophic Forgetting in Multimodal Large Language Models》(其开源评测框架称为 EMT,即 Evaluating MulTimodality)。随后该成果也被收录在 UC Berkeley 的博士论文及相关顶级会议中。这篇论文通过严谨的实验,定量验证了 “跨模态对齐带来的权重污染与灾难性遗忘” 现象。
为什么会发生“权重污染”?
早期(如 LLaVA 的早期版本或类似架构)为了让大模型看懂图片,做法非常直接:
- 用一个线性层或两层 MLP(投影矩阵)把预训练好的 Vision Transformer (ViT) 抽出的特征,强行映射到 LLM 的文本词向量空间。
- 开启全参数微调(Full Fine-Tuning)或者大范围的 LoRA 微调,用图文对数据训练整个系统。
这个做法没有考虑到:
- 空间的异构性(Heterogeneity)
文本空间: 是离散的、高语义密度的符号序列。
视觉空间: 是连续的、高冗余度的像素及空间特征。
- 扭曲的代价:权重污染当强行在 LLM 中引入视觉特征并做端到端微调时,为了“迎合”和“消化”这些异构的视觉信号,LLM 内部原本已经对齐得非常完美的语言模型权重(Language Prior)被迫做出剧烈调整。
论文中的实验表明:这种调整并没有让模型真正融合两种模态,反而像一种“毒素”污染了原有的纯文本空间。结果导致:
- 文本理解能力倒退: 原本逻辑严密、长文本推理很好的 LLM,在对齐视觉后,纯文本的考试成绩、逻辑推理和常识能力大幅下降。
- 任务特异性过拟合与幻觉: 模型在微调的图文数据集上表现变好,但一旦遇到没见过的图片分布(Out-of-Distribution),就会疯狂生成幻觉(Hallucination)。它其实没有真正“看懂”,只是把微调数据集里的文本模式死记硬背了下来,原本强大的泛化能力被“扭曲”了。
1.4 视觉token 会稀释注意力
大量冗余token 涌入, 模型对关键文本提示的注意力被摊薄, 尤其高分辨率和动态分辨率让这个问题更严重,尤其到了长视频场景里特别突出.
2 行业是怎么解决这个问题的
2.1 第一阶段:(2023-2024)
数据配比:(deepseek-VL 明确写了比例)
(1) 保持70%+纯文本数据
(2)图文只做增量
(3)持续用文本/代码/数学/ 来拉住基本面
冻结测策略:(LLaVa系列这么做)
第一阶段完全冻结 LLM, 只训练投影层, 视觉特征在不动llm权重的情况下适配文本空间(这样最小化权重污染, 但锁死融合深度上限)
其中 Berkeley 等团队揭示了全参数对齐会导致“两败俱伤”(视觉没学好,文本还忘光了),后来的多模态模型在架构和训练策略上做出了重大演进:
1. 冻结(Freeze)双塔,只训连接器
既然改 LLM 权重会污染文本能力,改 ViT 权重会破坏视觉常识,那干脆把 ViT 和 LLM 全都冻结(Freeze)。
比如 BLIP-2、InstructBLIP 引入了 Q-Former;后来的大模型引入了更复杂的感知器架构(Perceiver Resampler)。
做法: 只训练中间这个高维的连接器,让它拼命把视觉特征翻译成 LLM 听得懂的“外语”,绝不允许视觉信号去污染 LLM 本身的记忆。
2. 多阶段混合训练(Data-Hybrid Strategy)
在最新的多模态微调(SFT)阶段,绝对不能只喂图文数据。
做法: 在微调图文对的同时,必须在训练集里按比例混入高质的纯文本对话数据(纯文本 SFT 数据及预训练数据)。通过这种“回放(Rehearsal)”机制,死死拽住 LLM 的文本锚点,防止其权重向异构空间过度偏移。
3. 高效参数微调(PEFT)的克制使用
后续研究(包括 2026 年针对 Qwen2-VL 等最新模型的研究)表明,如果必须微调 LLM,必须采用极其克制的学习率(Low Learning Rate),或者使用更严格的正则化手段限制参数更新的幅度(Spectral Trust Region),像外科手术一样精准调整,避免大面积污染。
这一阶段只能说是缓解了找到了问题,并缓解了问题,没有本质解决问题
2.2 第二阶段(2024-2025)(gpt-4o, gemini, deepseek-vl2)
联合预训练:from scretch 开始 就是 文本+视觉一起从0开始训练(ernie5.0的报告指出这样可以缓解后融合时遇到能力翘翘板问题),这样的做法是参数空间还没被文本"占满"时就让视觉进来,这样模型就会自然学会分配空间.
moe解偶: 让不同专家架构解决不同模态走不同计算路径, 比如视觉token激活视觉模块, 文本token激活文本专家
这一阶段大幅缓解了诅咒不再是零和博弈,但是 在极致的数学推理和代码生成上跟同规模纯文本还有差距, 视觉token 对注意力稀释的问题还是存在, 信息密度的根本矛盾也没有解决
1. 闭源天花板:Google Gemini 1.5 系列 (Pro / Flash)
Gemini 1.5 是第二阶段“原生多模态 + MoE”最极致的代表。
原生联合预训练: 谷歌从一开始就没有用现成的纯文本 LLM,Gemini 是直接将文本、图像、音频、视频作为同等的“基本符号(Tokens)”,放在一个统一的 Transformer 中从头联合预训练(Early-fusion 思想)。
稀疏 MoE 架构: 它是极大规模的 MoE 架构。当视觉 Token 进来时,它能自动路由到更擅长处理视觉语义的专家参数块中。
里程碑意义: 首次在原生多模态下干到了 100万到1000万(10M)的超长上下文(Long-Context)。由于是在预训练阶段就学会了空间分配,Gemini 1.5 在吃下长视频和长音频时,展现出了恐怖的“大海捞针(Needle In A Haystack)”能力,纯文本的智商(如长代码库理解)也没有被冲垮。
2. 开源 MoE 标杆:DeepSeek-VL2
DeepSeek-VL2是开源界把“第二阶段 MoE 解耦”玩到极致的典范。
基于 DeepSeekMoE 架构: 它的底层激活参数非常克制(例如用 27B 的总参数,每次只激活 4.5B)。它通过精妙的专家设计,将一部分专家专门用于处理高频的视觉特征(如 OCR 识别、图表解析),另一部分专家专注于逻辑文本。
全参数打通: 训练时所有参数全部解锁,进行图文和文本的联合微调。
解决的痛点: 用极低的推理算力成本,硬生生把视觉问答、文档/表格理解的性能拉到了第一梯队,同时利用 MoE 成功隔离了模态间的“能力翘翘板”,保护了文本基本面。
2.3 第三个阶段: 推理型多模态(2025-2026)Qwen3.5-Omni, Gemini 3.1 Pro
这一阶段让模型在多模态输入上投入更多的计算量来深度理解.因此这一阶段直接解决了信息密度低的问题: 视觉信息多噪声多不代表没有价值, 问题在于模型花了多少计算量去提取其中的高阶语义.对比如下图

Qwen3.5-Omni 的 Thinker–Talker 架构 实现了“解耦思维与表达”,其核心逻辑如下:
- Thinker(思考者):重计算、深吞吐
职责: 专门负责多模态(文本、图像、长音频、长视频)的输入流深度理解、慢思考与推理。
额外算力: 到了 Qwen3.5-Omni,Thinker 内部升级为了 Hybrid-Attention MoE(混合注意力专家模型),并支持高达 256K 的超长上下文。
解决密度问题: 它可以一口气吃下 10 小时以上的音频 或 400 秒以上的 720P 高清视频(1 FPS)。它不急着说话,而是调动内部的 MoE 专家网络,把海量的视觉/音频像素 Token 放在超长的上下文窗口里进行充分的交叉注意力(Cross-Attention)计算。这极大地提升了“提取低密度信息中高阶语义”的能力。
CoT(思维链)注入: 针对复杂的视觉或语音任务,Thinker 可以在内部进行隐式的或者显式的 Chain-of-Thought(思维链)推理,把看似无序的视频画面,梳理成严密的因果逻辑链条。
- Talker(表达者):轻量级、高实时
职责: 专门负责将 Thinker 产生的深度语义表征,转化成高表现力的流式语音 Token 输出。
特点: 它不需要再回头去理解那些繁杂的视频和音频噪声,它只接收 Thinker 提炼出来的“高阶思想结晶”。因此,它可以做得非常轻量、非常快(首包延迟能低至 200ms+),并且支持包含情绪、语气、呼吸声的自然表达。
190

被折叠的 条评论
为什么被折叠?



