NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考：简单任务快处理，复杂任务深分析-阿里云开发者社区

NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考：简单任务快处理，复杂任务深分析

2025-12-02 127

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 浙大、阿里云等提出首个LRM快慢思维控制方法，发现特定词可触发思维模式，结合PCA导向与自适应策略，实现无需训练的推理速度调控，在多模型上显著提升准确率并减少耗材。

论文标题：Controlling Thinking Speed in Reasoning Models

作者团队：浙江大学、阿里巴巴云、浙江工业大学

发布时间：2025年10月30日

✅Lab4AI平台提供AI导读和AI翻译等工具，辅助论文阅读。您还可以投稿复现这篇论文~

⭐核心亮点

本研究的核心亮点集中在三大突破性贡献：

其一，首次揭示LRMs存在快慢思维模式的内在切换机制，发现“To”“Okay”等特定开头词可分别触发快速、慢速思维，为思维控制提供了天然切入点；
其二，基于表示工程技术首创思维速度控制方法，通过读取快慢思维样本的PCA导向向量，并向模型隐藏状态注入该向量，实现推理时的缩放效应；
其三，设计自适应动态推理策略，借助Jensen-Shannon散度量化推理难度、滑动窗口检测高难度片段，再通过动态阈值机制自动在简单段加速、复杂段减速，且方法无需训练即可嵌入现有部署系统，兼顾创新性与实用性。

研究在多模型、多基准上验证了方法有效性。

实验以DeepSeek-R1-Distill-Qwen-7B/32B、QwQ-32B等为测试模型，在AIME24、MATH-500等基准上对比预算强制法等基线；
思维速度控制方面，所有LRMs加速（α>0）时准确率较基线平均提升8.2-11.4%，减速（α<0）时平均提升0.51-1.46%；自适应控制表现更优，相比原始LRMs，在将准确率提升1.26%的同时，减少8.56%的token使用量；
此外，模型呈现明显测试时缩放效应，随响应长度增加（思维变慢），性能持续提升，验证了思维速度调控的有效性与稳定性。