让AI真正读懂长文本的秘密武器

简介: 通义实验室推出QwenLong-L1.5,基于Qwen3-30B-A3B打造的长文本推理专家。通过高质量多跳数据合成、稳定强化学习算法与突破窗口限制的记忆框架,系统性解决长文本“学不好、用不了”难题,在多跳推理、超长上下文等任务中媲美GPT-5与Gemini。

作为大模型从业者或研究人员,你是否曾为一个模型的“长文本能力”感到兴奋,却在真实场景中发现它的表现不如预期?
你可能遇到过以下问题之一:
测试高分≠实际好用
模型在“大海捞针”(Needle-in-a-Haystack)测试中表现优异,容易让人以为长文本问题已解决。然而,一旦任务需要串联多处信息、进行多跳推理(multi-hop reasoning)时,模型往往难以构建完整逻辑链,显示出深度理解上的不足。
训练过程难以稳定
长文本、多任务的数据来源多样,分布复杂,导致常规强化学习算法难以适应。精心设计的奖励函数可能因数据分布变化而产生偏差,反而使模型性能下降。训练过程中奖励值与熵剧烈波动,甚至导致训练失控。
上下文窗口始终有限
即使上下文长度扩展到256K、1M或更长,它仍然是有限的“物理内存”。现实任务——如分析整个代码库、解读长篇财报或专业著作——所需的信息量很容易超出该限制。模型不得不依赖分块处理等折中方法,从而导致全局信息丢失与端到端推理能力下降。
如果这些场景让你感到熟悉,那么问题可能并不在于你的努力不够,而是目前行业仍缺乏一套完整、端到端的长文本推理后训练方案。
针对这些挑战,通义实验室正式推出 QwenLong-L1.5——一个基于 Qwen3-30B-A3B 打造的长文本推理专家,以仅30B(激活参数3B)的规模,通过系统化后训练方案,实现了与GPT-5和Gemini-2.5-Pro相媲美的长文本推理能力。
这项工作的核心系统性地统一了:
• 可扩展的高质量数据合成管线
• 为长文本定制的强化学习方法
• 突破物理窗口的智能体架构
而这套组合拳,旨在一次性解决从“学不好”到“用不了”的全链路难题。
技术报告:https://www.modelscope.cn/papers/2512.12967
GitHub:https://github.com/Tongyi-Zhiwen/Qwen-Doc
模型:https://www.modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
深入拆解 QwenLong-L1.5 三大“法宝”
要让模型真正掌握长文本推理,零敲碎打的优化是远远不够的。研究团队提出了一套系统性的“组合拳”,包含三大核心法宝,从根本上重塑模型的学习与思考方式。
法宝一:高质量“精神食粮”——多跳推理数据合成流水线
模型的“食粮”决定了它的“智商”。如果只给模型投喂简单的“大海捞针”式任务,就如同只让学生做单选题,却期望他能写出长篇论述文。
为了教会模型真正的“思考”,QwenLong-L1.5 打造了一条新颖的数据合成流水线。其核心思想是“先拆解,后组合”,专造需要“多跳溯源 (multi-hop grounding) 和全局推理”的难题。这就像用乐高积木拼城堡:先把一本巨著拆解成一个个知识“积木”(原子事实),再根据复杂的“图纸”(如知识图谱、多文档表格),把这些分布在不同章节的积木拼成一个宏伟的“建筑”(复杂问题)。
这条流水线由三大“出题引擎”驱动,能程序化地生成无穷无尽的高质量挑战:
知识图谱引导 (KG-Guided): 自动挖掘文档间的深层逻辑链,生成环环相扣的多跳推理题,强制模型进行跨段落、跨文档的关联思考。
跨文档表格引擎 (Cross-document Table Engine): 从多个非结构化文档中自动抽取出数据,整合成统一的结构化表格,据此生成需要聚合、统计与复杂计算的数值推理题。
多智能体自我进化 (MASE): 设计一个由“出题者”、“解题者”、“检验者”组成的多智能体框架,基于无标签文档自动合成通用长文本任务,通过“出题-解题-检验”的循环,结合历史合成任务提升任务难度和广度。
法宝二:稳定高效的RL优化策略
强化学习(RL)是提升模型推理能力的关键,但在长文本、多任务场景下,标准的RL方法会面临两大严峻挑战,极易导致训练崩溃。
第一个挑战源于数据分布的异构性。长文本训练的数据来自代码、学术文献、财报等多个领域,任务类型也涵盖了问答、计算、分析等。这种复杂性导致在训练的每个批次(mini-batch)内,数据分布都会发生剧烈偏移(distributional drift)。
这种偏移会严重干扰奖励信号(reward)的稳定性,并对优势函数(advantage function)的估计引入巨大噪声,使得梯度更新方向变得极不可靠。
为解决此问题,QwenLong-L1.5 采取了双重策略:
• 任务均衡采样(Task-balanced Sampling): 在构建每个训练批次时,强制从不同的任务类型(如多跳推理、数值计算、对话记忆等)中均匀抽取样本,从源头上保证了批次内数据分布的相对均衡。
• 任务专属优势估计(Task-specific Advantage Estimation): 在计算优势函数时,不再对整个批次的奖励进行标准化,而是在每个任务类型内部独立进行。这能有效隔离不同任务间迥异的奖励分布(如0/1的稀疏奖励与0-1的密集奖励),从而为每个任务提供更准确、更稳定的优势信号。
第二个挑战是长文本推理中的信用分配难题(Credit Assignment Problem)。在生成式任务中,一个最终错误的答案(negative response)往往包含了大量完全正确的中间推理步骤。传统的RL算法通过一个单一的负向奖励来惩罚整个序列,这种“一刀切”的做法会错误地惩罚那些正确的、具有探索价值的步骤,不仅压制了模型的探索能力,甚至可能导致“熵坍塌”(entropy collapse)和训练早停。
为此,QwenLong-L1.5 提出了 自适应熵控制策略优化(Adaptive Entropy-Controlled Policy Optimization, AEPO) 算法。AEPO的核心是一种基于模型自身不确定性(以策略熵衡量)的动态梯度屏蔽机制:
当模型在高不确定性(高熵)状态下生成了错误答案时,AEPO会主动屏蔽(mask)其负向梯度。这保护了模型的探索性行为,避免因惩罚不成熟的尝试而丧失学习潜力。 反之,当模型在 高置信度(低熵)状态下依然犯错时,负向梯度会被正常施加,以坚决纠正这些高置信度的错误。 通过这种动态的、智能的梯度控制,AEPO将模型策略的熵稳定在一个健康的区间,完美平衡了探索与利用,从根本上解决了长文本RL中的不稳定性问题。
法宝三:突破极限的“外置大脑”——记忆管理框架
256K的上下文窗口,本质上是一种有限的“短期记忆”。当面对浩如烟海的真实世界知识流时,我们需要的不是一个更大的窗口,而是一个全新的工作模式。为此,研究团队为模型设计了一套记忆管理框架 (Memory Management Framework),这相当于给了它一个可无限扩展的“智能笔记本”。在阅读超长文档时,模型不再试图将所有内容硬塞进“短期记忆”,而是学会了边读边记要点(迭代式记忆更新),形成结构化的记忆,并在需要时高效检索和利用这些“笔记”。
但这并非一个孤立的工具。通过巧妙的多阶段融合RL训练 (multi-stage fusion RL training),将这种“笔记能力”与模型与生俱来的“过目不忘”(窗口内推理)能力无缝地融合在了一起。最终得到的,是一个统一的模型——一个既能“深思”又能“博览”的全能选手,真正突破了物理窗口的束缚。
效果评测
30B MoE 模型实现媲美顶级旗舰效果
QwenLong-L1.5 在多个权威长文本推理基准上取得了不俗的成绩
从以上 benchmarks 表现中 可以总结为:
整体性能增强:相比基线模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分提升 9.9 分,这表明所采用的全套后训练方法具有出色效果;
比肩顶级旗舰:在多个权威长文本榜单上,QwenLong-L1.5-30B-A3B 模型取得了与 GPT-5、Gemini-2.5-Pro 等业界顶尖闭源模型相媲美的性能;
复杂任务上精准提升:性能提升精准地体现在了最能考验深度推理能力的复杂任务上,在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基准上,QwenLong-L1.5分别取得了 +31.72、+9.69 和 +6.16 的性能增长!
这也精准地验证了研究团队可编程数据合成的有效性——专门为模型打造了什么样的难题,它就在解决这些难题上获得了出色的能力!
通用能力不降反升
训练“专才”是否会牺牲“通才”能力?这是大模型微调中常见的“跷跷板”难题。QwenLong-L1.5 的答案是:不仅不会,反而会相互促进!
实验结果显示,经过长文本强化训练后,QwenLong-L1.5不仅没有出现“偏科”或“遗忘”,反而在一系列通用能力上也获得了显著提升:
• 在数学推理 (AIME25) 任务上表现更优;
• 在智能体记忆 (BFCL) 任务中展现出更强的状态追踪能力;
• 在长对话 (LongMemEval) 场景下,记忆和理解能力大幅增强。
这有力地证明了,提升长程信息整合能力,是一种基础性的“认知升级”,其收益会辐射到模型的各项核心能力之中。
征服 1M~4M Token 超长文本
当任务长度远超物理上下文窗口时,模型真正的扩展能力才得以体现。
借助“外置大脑”——记忆管理框架,QwenLong-L1.5 在处理1M、甚至4M级别的超长任务时,展现出了卓越的性能。
结果显示,QwenLong-L1.5 在这些极限挑战中,性能远超同类智能体方法,充分验证了框架强大的可扩展性。这表明,QwenLong-L1.5 不仅提升了模型在窗口内的能力,更赋予了它突破物理窗口限制、处理无限信息流的巨大潜力。
点击直达模型:https://www.modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B

相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
QwenLong-L1.5:让AI真正读懂长文本的秘密武器
通义实验室推出QwenLong-L1.5,基于Qwen3-30B-A3B打造的长文本推理专家,仅30B参数即实现媲美GPT-5和Gemini-2.5-Pro的能力。系统性解决“学不好、用不了”难题,三大核心技术:多跳推理数据合成、稳定强化学习算法、突破上下文限制的记忆框架,全面提升复杂任务与超长文本处理性能。
198 3
|
12天前
|
人工智能 安全 数据可视化
面向业务落地的AI产品评测体系设计与平台实现
在AI技术驱动下,淘宝闪购推进AI应用落地,覆盖数字人、数据分析、多模态创作与搜推AI化四大场景。面对研发模式变革与Agent链路复杂性,构建“评什么、怎么评、如何度量”的评测体系,打造端到端质量保障平台,并规划多模态评测、可视化标注与插件市场,支撑业务持续创新。
251 36
|
12天前
|
机器学习/深度学习 缓存 物联网
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目基于通义万相AIGC模型,为社交APP打造“真人变身跳舞动漫仙女”特效视频生成功能。通过LoRA微调与全量训练结合,并引入Sage Attention、TeaCache、xDIT并行等优化技术,实现高质量、高效率的动漫风格视频生成,兼顾视觉效果与落地成本,最终优选性价比最高的wan2.1 lora模型用于生产部署。(239字)
345 44
|
7天前
|
设计模式 缓存 监控
Python装饰器:优雅的代码增强术
Python装饰器:优雅的代码增强术
234 111
|
3天前
|
缓存 监控 大数据
PHP性能优化小贴士:让你的网站飞起来
PHP性能优化小贴士:让你的网站飞起来
159 128
|
1月前
|
JSON 安全 JavaScript
深入浅出解析 HTTPS 原理
HTTPS是HTTP与SSL/TLS结合的安全协议,通过数字证书验证身份,利用非对称加密安全交换会话密钥,再以对称加密高效传输数据,确保通信的机密性、完整性和真实性。整个过程如同建立一条加密隧道,保障网络交互安全。
814 16
|
8天前
|
人工智能 数据库 开发者
Minion Skills:Claude Skills的开源实现
Minion Skills 是 Claude Skills 的开源实现,旨在让 AI Agent 按需动态加载专业能力(如处理 PDF、Excel 等),避免冗长上下文。通过声明式 Markdown 定义技能,支持项目级与用户级分层管理,实现高效、低延迟的精准任务执行,兼容多 LLM 平台,推动开放的智能体生态发展。
|
7月前
|
传感器 人工智能 算法
场景入选|TsingtaoAI基于DeepSeek的具身智能实训入选河北省垂直大模型应用场景名单
河北省网络社会组织联合会正式公布《垂直大模型应用场景征集结果名单》,TsingtaoAI自主研发的“基于DeepSeek的具身智能高校实训解决方案——从DeepSeek+机器人到通用具身智能”成功入选河北省15个标杆应用场景。这一成果标志着TsingtaoAI在具身智能与大模型融合领域的技术创新与落地能力获得政府及行业权威认可,同时也为人工智能技术与实体产业深度融合提供了可复制的示范案例。
237 0
|
6月前
|
网络虚拟化
配置灵活QinQ示例
本文介绍了通过配置QinQ实现两个企业网络的独立组网需求。网络中企业1和企业2各有两个分支,分别连接到运营商网络的LSW1和LSW2。需求包括:各企业内部分支间流量透明传输、相同业务互通、不同业务隔离,以及两企业间互不影响。配置思路为在LSW1和LSW2上创建VLAN100和VLAN200,设置QinQ接口类型,并确保公网接口允许相应VLAN报文通过。通过具体步骤(如创建VLAN、配置QinQ接口及验证配置)实现需求,并通过抓包验证企业内通信正常及企业间隔离效果。
配置灵活QinQ示例
|
5月前
|
供应链 小程序 API
微信小程序API集成京东库存,移动端销量暴涨!
在数字化时代,微信小程序与京东库存系统集成成为提升移动端销量的关键策略。本文详解如何通过API实现库存实时同步、优化用户体验,推动销量增长50%以上,并结合实际案例与代码示例,为企业提供可落地的解决方案。
192 0