Illusions of reflection: open-ended task reveals systematic failures in Large Language Models‘ re...

文章核心总结与翻译

一、主要内容

本文聚焦大型语言模型(LLMs)的“反思推理”能力,通过设计开放式且规则约束明确的认知反射测试(CRT)题目生成任务,对8个前沿LLM(包括GPT-4.1、Gemini 2.5 Pro等)进行评估。研究核心是检验模型在生成符合要求的CRT题目(需具备直观错误答案、单一正确答案、非抄袭特性)后,能否通过自我反思修正初始错误。

主要发现包括:

  1. 初始表现极差:平均仅生成约1个有效题目,多数情况下甚至为0;
  2. 反思效果有限:反思后表现虽有提升,但增益主要源于随机生成有效题目,而非系统性错误检测与修正;
  3. 错误重复率高:80.8%的反思尝试会重复初始错误类别(如抄袭、缺乏直观错误答案),远高于随机基准;
  4. 任务结构影响显著:“搜索-识别”(检索适配题目并改编)任务的反思增益(+0.313)显著高于“全新生成”任务(+0.109),且错误重复率更低;
  5. 推理模型无优势:主打“推理能力”的模型与其他模型相比,反思增益无显著差异,甚至存在小幅劣势。

二、创新点

  1. 任务设计创新:提出开放式且可审计的评估任务,突破传统封闭式任务(如数学题)的局限,更贴近真实世界中“弱外部信号、强约束”的场景,避免模型依赖明确反馈掩盖反思缺陷;
  2. 评估维度创新:聚焦“错误重复性”与“约束一致性”,而非仅关注最终正确率,揭示了LLM反思“流于表面”的核心问题——能生成流畅的自我批判文本,却无法激活深层约束检查机制;
  3. 实验设计严谨:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值