NatureBench评估AI Agent:Claude Opus 4.7部分任务超SOTA,但稳定超越能力仍有限

NatureBench评估AI Agent

目前的AI Agent,能在顶级学术期刊Nature论文的核心实验中超过人类研究者吗?过去的评测体系,要么侧重论文复现能力,衡量是否能够还原已有方法,要么关注Kaggle竞赛或模型后训练任务的工程优化能力,但仍缺乏对一个更关键问题的系统评估:AI Agent是否能够在真实科学论文设定下独立改进方法,并超越原论文SOTA。

跨学科基准NatureBench

针对这一问题,清华大学教授、上海人工智能实验室主任周伯文团队及其合作者提出了跨学科基准NatureBench,用于评估AI coding Agent在Nature系列论文核心实验中的复现与改进能力。论文链接:https://arxiv.org/pdf/2606.24530。结果显示,即使是实验中表现最强的Claude Opus 4.7 + Claude Code,也只在17.8%的任务上实现Surpass - SOTA、在47.8%的任务上达到或超过论文SOTA。这些结果表明,当前AI Agent已经能在部分真实科学任务中接近甚至超过原论文结果,但稳定超越能力仍然有限。

NatureBench的设计

NatureBench包含90个真实科学任务、覆盖6大领域的基准,其核心是把真实科学论文做成能运行、能评分、也能复现的容器化任务。为此,研究团队设计了自动化流程NatureGym,一套将Nature系列已发表论文转化为可直接运行的Agent任务的流水线。NatureGym将格式、工具链和数据模态各异的论文统一标准化为同一可复现的任务格式,同时设置了一个信息防火墙(information firewall),对原始方法保密,要求Agent自主发现解决方案而非直接复现。评估器、真实标签与SOTA目标均驻留于宿主侧评估服务中,Agent无法直接访问。

具体流程

具体流程分为以下三步:第一步是筛选论文。他们从10本Nature系列期刊中收集2022到2025年约5500篇论文,去掉新闻、社论、综述等非研究文章,再筛出能转成机器学习任务、评估可自动化、数据公开完整且不超过50GB的论文。第二步是获取代码和数据,并划定任务起点,保证Agent只能从核心算法的输入端开始,不能看到中间结果或最终结果。第三步是把论文封装成标准任务包,并通过36项自动化检查,最后约160个任务包进入后续校准。

质量校准

任务包构建完成后,他们进行了质量校准,分两轮检查任务。Base模式用于排查任务定义、评测和环境是否有问题;Reproduce模式则让Agent额外看到源论文,用来验证任务包是否支持复现原方法。最终,NatureBench定稿为90个任务、333个评估实例,覆盖6本Nature系列期刊的多个研究方向,共涉及81种主要指标。

实验结果

为统一比较不同任务的结果,他们定义了归一化相对差距g。g ≥ 0,表示达到或超过论文SOTA,g > 0.1,则算作明确超越。每个任务给Agent留出4小时完成,并允许通过评估多次提交查看反馈。任务结束后,他们使用Claude Sonnet 4.6做事后检查,排除伪造输出、反查答案,以及利用反馈机制取巧等行为。研究团队共评测了10款Agent配置,覆盖Claude Code、Codex CLI和Gemini CLI三种harness。所有Agent均禁用Web搜索,以避免直接检索源论文或数据集内容。整体结果如下:在10款配置中,Claude Opus 4.7 + Claude Code按整体Surpass - SOTA排名第一,Surpass - SOTA为17.8%,Match - SOTA为47.8%。在提交质量上,Claude Opus的两种配置最稳定,Completion Rate和Score Rate均为100%,没有无效提交;GPT - 5.5的Score Rate为98.9%,Completion Rate为84.4%,还有13次提交被事后judge判定为无效捷径。从任务分布看,关系推理的Match - SOTA率最高,达到60.0%;蛋白质生物学和细胞组学分别为37.5%和35.5%;物理建模、分子设计和生物医学建模则分别为26.9%、18.2%和17.9%。此外,相比单学科任务,跨学科任务的Match - SOTA率和中位g都更低。75个单学科任务的Match - SOTA率为33.1%,15个跨学科任务为28.0%;中位g分别为 - 0.13和 - 0.21。

路径标注与具体案例

研究团队还对900次运行进行了路径标注。在达到Match - SOTA的运行中,监督代理预测、搜索/调参、工程流水线和预训练/扩展共计占82.7%。在未达到Match - SOTA或没有有效分数的运行中,失败更多出现在方法层和执行层,分别占61.1%和28.7%;其中,错误方法选择占45.1%,预算或时间不足占24.4%。研究团队还给出了几个具体案例。例如,在癌症基因识别任务中,Claude Opus 4.7采用ChebNet/GNN集成方法,将g值从 - 0.017提升至 + 0.177,达到Match - SOTA水平;在基因组序列预测任务中,GPT - 5.5共进行了258次提交,最佳g值为 - 0.141,仍低于SOTA;在有机反应产物预测任务中,DeepSeek - V4 - Pro使用Seq2Seq反应建模方法,Top - 1准确率为58.5%,距离原任务90.8%的SOTA水平仍有明显差距。

不足与未来方向

尽管NatureBench让科学任务评测变得更可执行、更标准化,但研究团队也指出,这套基准也存在以下不足:首先,它只覆盖能够被抽象为机器学习任务且可以自动评分的核心定量问题。湿实验验证、纯理论推导、硬件或物理交互类研究,以及依赖人工判断或外部服务评分的贡献,NatureBench都未涉及。其次,研究团队指出,部分任务并非完整复现整篇论文,而是抽取其中一个核心实验进行评测。这些任务仍对应论文中的关键定量问题,但只覆盖部分实验实例和指标。因此,NatureBench衡量的是Agent在具体任务上的表现,而不是对原论文全部贡献的完整评价。此外,统一的4小时墙钟预算和单卡设置,也可能影响部分任务的完成度。研究团队观察到,失败案例主要源于方法选择不当和执行深度不足,其中一部分与计算资源或时间预算受限有关。部分失败并不完全反映Agent对任务理解不足,也可能源于既定资源约束下的方法探索和执行不足。NatureBench基于公开论文和公开数据构建,尽管研究团队通过禁用Web搜索、设置隐藏评测服务,并使用post - hoc judge过滤投机式提交,但仍然存在数据泄露方面的隐患。最后,g值本身也有解释边界。当论文SOTA已经接近指标上限时,普通性能差距可能被放大为较大的负值;而单一主指标也可能只覆盖原论文多目标评估的一部分。因此,未来需更强调Surpass - SOTA、Match - SOTA和中位数表现,而不是只看平均分。当然,研究团队也指出了几个可能的未来研究方向。例如:扩大任务覆盖范围,从单个核心实验进一步走向更完整的论文复现;设计更细分的资源预算,区分短时、长时、单卡和多卡设置;改进评测判定方式,更清楚地区分理解错误、方法选择错误、执行不足和资源受限带来的失败;引入更丰富的实验实例和指标,让评测结果更接近真实科研复现中的复杂度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值