一、视听信号的分流与抑制:多模态LLM中的信息流解剖学
《From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs》并非一次性能优化报告,而是一次对多模态模型内部信息通路的显微级测绘。研究团队通过跨层梯度归因、模态掩码扰动与注意力头聚类分析,在Kwai Keye-VL-2.0与Qwen-VL-2架构上定位出三类关键行为:编码器阶段的模态内自抑制(audio encoder中高频段token对低频语义token的梯度压制达37%)、融合器阶段的跨模态对齐稀疏性(仅12.8%的cross-attention head在video-audio pair上激活强度>0.6)、解码器阶段的模态退耦响应(text generation时,视觉token贡献度在生成后半段下降至<5%,而听觉token在指令含“节奏”“停顿”等关键词时维持23%以上权重)。该工作未提出新架构,却首次将“模态间不是平等协作,而是动态竞合”这一经验直觉,转化为可量化、可复现的信号流拓扑图谱。其方法论框架已开源为ModalityFlow,支持任意ViT+LLM组合的即插即用分析。
二、环境建模优先:从任务规划到世界接口定义
EurekAgent与Agentic Environment Engineering for Large Language Models两份工作形成互文。前者以蛋白质折叠预测为切口,将代理能力锚定于环境建模精度——其核心不是改进推理链长度,而是构建一个可微分、可交互、带物理约束的分子动力学仿真沙盒;后者则完成概念解耦:将“环境”划分为Observation Space(传感器输入抽象)、Action Interface(可执行操作契约)、State Dynamics(状态转移函数族)与Evaluation Grounding(真实世界反馈映射)四维结构。二者共同指向一个转向:当工具调用

741

被折叠的 条评论
为什么被折叠?



