Doing Things with Words: Rethinking Theory of Mind Simulation in Large Language Models

最新推荐文章于 2026-06-15 21:37:58 发布

原创最新推荐文章于 2026-06-15 21:37:58 发布 · 142 阅读

·

2

·

文章标签：

#语言模型 #数据库 #人工智能

LLM Daily 专栏收录该内容

2807 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章核心总结与创新点

一、主要内容

本文聚焦大型语言模型（LLMs）的心理理论（ToM）能力，通过生成式智能体模型（GABM）Concordia构建模拟现实世界的社交场景，探究GPT-4o-mini是否能基于社交语境进行真实推理而非依赖语言记忆完成任务。研究设计了5类包含一阶和二阶信念的虚假信念任务，涉及间接言语行为（如间接请求、建议等）和言语反讽（如讽刺、夸张等）两类语言现象，要求模型通过多选任务选择符合语境的智能体行为，并评估行为与情境、信念的连贯性。结果表明：GPT-4o-mini在信念归因相关的行为选择上表现不佳，难以生成与智能体行为一致的因果效应，其看似具备的类心理理论能力实则可能源于表面统计关联而非真实推理，挑战了现有关于LLMs涌现ToM能力的结论。

二、创新点

评估框架创新：首次将生成式智能体模型（GABM）应用于LLMs心理理论评估，通过构建包含情境背景、智能体记忆（人格特质、信念、目标）的复杂社交模拟，将语言理解与行为选择绑定，避免传统评估中依赖语言记忆的局限。
任务设计创新：改编虚假信念任务，引入一阶和二阶信念分层设计，涵盖7种具体语言现象（4类间接言语行为+3类言语反讽），通过系统操纵智能体对"障碍信息"的知晓状态，区分字面意义与非字面意义的解读对行为选择的影响。
双阶段评估创新：结合多选任务（评估行为选择的准确性）与连贯性格式化评估（通过LLM自评+人工校验，量化行为与情境/信念的一致性），同时满足"非融合"（区分自身与他人心

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。