小模型驱动大智能:NVIDIA新研究实现2.5倍效率提升,成本直降70%

简介: NVIDIA联合港大提出ToolOrchestra,用小模型动态编排工具链,通过强化学习优化推理路径,在保证智能水平的同时提升2.5倍效率、降低70%成本,实现“以小控大”的高效AI新范式。

小模型驱动大智能:NVIDIA新研究实现2.5倍效率提升,成本直降70%

论文标题:ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

作者团队:英伟达、香港大学

发布时间:2025年11月27日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

⭐论文简介

大语言模型在解决深度复杂问题时面临计算成本高、推理能力不足的挑战;现有工具代理多依赖单一强大模型,缺乏对“工具编排”的系统性优化,导致效率与成本难以平衡。

这篇论文解决的是,训练一个小型语言模型(Orchestrator) 作为编排器,动态协调多种工具(基础工具、专业LLMs、通用LLMs),通过强化学习优化任务完成效果。

⭐核心创新

论文核心是训练一个小型语言模型作为“编排器”,通过强化学习让小模型学会 “何时调用、调用什么、如何组合” 工具,实现 “以小控大、降本增效”。

该方法将多工具任务建模为马尔可夫决策过程,编排器通过“多轮滚动”交替执行“推理”和“工具调用”,逐步完成任务。

奖励设计包含三重目标:结果正确性(任务是否解决)、效率(成本与延迟)、用户偏好(工具选择倾向),引导模型平衡性能与成本,适配用户需求。

为支持训练,论文还提出了ToolScale数据集,通过模拟工具环境与生成多样化任务,解决端到端RL训练的数据稀缺问题。

⭐论文的贡献

  • 提出“编排范式”,用小型模型协调工具实现“性能 - 成本”最优;
  • 发布ToolScale数据集,推动工具代理研究;
  • 证明小型编排模型在复杂任务上可超越大模型,为低成本、可扩展的AI系统提供新思路。
相关文章
|
3天前
|
人工智能 自然语言处理 语音技术
使用阿里云轻量应用服务器部署MaxKB教程,大语言模型和RAG的开源知识库问答系统
MaxKB是基于大语言模型与RAG的开源知识库问答系统,支持阿里云轻量应用服务器一键部署。本文详解从创建实例、登录配置到添加模型、构建知识库、创建应用及集成嵌入的全流程,助力快速搭建企业专属AI问答助手,实现智能服务零代码接入。
|
1月前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
369 116
|
25天前
|
机器学习/深度学习 人工智能 监控
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
东北大学等提出MDReID,获NeurIPS 2025 Spotlight!该方法实现跨模态行人重识别,创新性地将图像特征解耦为通用与专用特征,支持RGB、NIR、TIR等任意模态自由匹配,显著提升异源图像检索精度,推动安防、监控等领域智能化发展。
130 1
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
|
8月前
|
安全 API UED
A2A(Agent2Agent) 简介
本文主要介绍Google于2025年4月9日发布的Agent2Agent Protocol(简称“A2A”),这是一个旨在促进不同类型智能体(Agent)之间高效沟通与协作的开放协议。
4616 74
A2A(Agent2Agent) 简介
|
3月前
|
传感器 算法 数据可视化
【卡尔曼滤波跟踪】跟踪目标的轨迹,并将滤波器输出与原始轨迹进行比较(Matlab实现)
【卡尔曼滤波跟踪】跟踪目标的轨迹,并将滤波器输出与原始轨迹进行比较(Matlab实现)
270 4
|
1月前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
239 0
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
26天前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析
浙大、阿里云等提出首个LRM快慢思维控制方法,发现特定词可触发思维模式,结合PCA导向与自适应策略,实现无需训练的推理速度调控,在多模型上显著提升准确率并减少耗材。
126 1
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析
|
27天前
|
人工智能 数据可视化 API
看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布
看完《疯狂动物城》意犹未尽?用ComfyUI+Flux文生图模型,让朱迪和尼克跃然纸上!通过节点式工作流精准控制生成细节,还原动画级质感。毛发、表情、服饰皆栩栩如生,支持风格定制与角色一致性强的图像创作。无需高配硬件,Lab4AI平台一键部署,轻松实现你的创意构想。Anyone can create anything!
345 1
看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布
|
1月前
|
机器学习/深度学习 人工智能 程序员
StackOverflow已经死亡了吗
StackOverflow曾是程序员的“圣地”,但AI崛起正改变这一格局。ChatGPT等工具以高效即时的优势分流用户,使其面临流量下滑与社区文化挑战。而新兴的大模型实验室Lab4AI则融合算力、实践与协作,构建AI时代下的开发者新生态。从问答到实践,开发者社区正在进化。
199 2
StackOverflow已经死亡了吗
|
27天前
|
存储 人工智能 算法
多模态融合 AI 视频识别技术:高精度合规
基于亚裔优化算法,融合多模态识别与本地加密部署,实现99.5%高精度识别与0.5%低误识率,支持复杂环境稳定运行。构建端到端安全防护,满足GDPR合规,集成生物识别与RFID双因子验证,实现毫秒级响应、10秒内预警处置,打造“识别-预警-追溯-整改”闭环管理,全面提升智能管控效率与安全性。
159 14