2025_NIPS_MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants

最新推荐文章于 2026-07-03 17:05:11 发布

原创最新推荐文章于 2026-07-03 17:05:11 发布 · 41 阅读

·

0

·

收录于

顶会论文

LLM Agent

LLM Daily 专栏收录该内容

1242 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

在这里插入图片描述

一、文章主要内容总结

本文针对LLM-based个人助手的记忆能力缺乏客观自动评估方法的问题，提出了贝叶斯模拟器MemSim。该模拟器通过贝叶斯关系网络（BRNet）生成多样化、合理的分层用户画像，并基于因果生成机制构建可靠的用户消息与问答对（QAs），有效缓解LLM幻觉带来的数据集不可靠问题。基于MemSim，作者构建了日常生活场景数据集MemDaily，包含2954条轨迹、26003条消息和2954个问答，涵盖单跳、多跳、比较型等6类任务。同时，利用MemDaily建立基准测试，评估了全记忆、近期记忆等6种常见记忆机制的有效性（准确率、召回率）和效率（响应时间、适配时间），为LLM个人助手的记忆能力评估提供了标准化工具。

二、文章创新点

提出MemSim模拟器，首次实现LLM个人助手记忆能力的客观自动评估，兼顾数据集的可靠性、多样性和可扩展性。
设计贝叶斯关系网络（BRNet），通过实体-属性层级结构和祖先采样，生成符合现实逻辑且多样化的用户画像。
构建因果生成机制，基于共享提示（hint）同步生成用户消息和问答对，避免LLM幻觉导致的事实错误和消息矛盾。
创建MemDaily数据集和基准测试，覆盖多类型记忆任务和难度层级，为不同记忆机制的对比提供统一标准。

三、核心部分翻译（M

标签

#语言模型 #人工智能

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。