CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE

原创已于 2024-03-08 11:35:45 修改 · 752 阅读

0 GEO检测

标签

#语言模型 #人工智能

于 2023-08-28 11:35:17 首次发布

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Agent

146 篇文章

订阅专栏

本文研究如何通过多智能体辩论框架ChatEval改善基于大型语言模型（LLM）的文本评估，以实现更接近人类评估质量的效果。ChatEval让多个LLM协同工作，通过角色扮演和沟通策略，提高了处理复杂评估任务的效率和准确性。实验证明，ChatEval在两个基准任务上表现出与人类评估一致的高准确性和相关性，且角色多样性和不同的沟通策略对其性能至关重要。

本文是LLM系列文章，针对《CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE》的翻译。

摘要

文本评估在历史上提出了重大挑战，通常需要大量的人力和时间成本。随着大型语言模型（LLM）的出现，研究人员探索了LLM作为人类评估替代品的潜力。虽然这些基于单智能体的方法显示出了前景，但实验结果表明，还需要进一步的进步来弥补其目前的有效性和人类水平的评估质量之间的差距。认识到人类评估过程的最佳实践通常涉及多个人类注释器在评估中的协作，我们求助于多智能体辩论框架，超越了单一智能体的提示策略。基于多代理的方法使一组LLM能够与一系列智能同行协同工作，利用他们独特的能力和专业知识来提高处理复杂任务的效率和有效性。在本文中，我们构建了一个名为ChatEval的多智能体裁判团队，以自主讨论和评估不同模型对开放式问题和传统自然语言生成（NLG）任务生成的回答的质量。我们从实际场景中获得见解和教训，在这些场景中，人类发起小组讨论进行头脑风暴，并在ChatEval中提出不同的沟通策略。我们在两个基准任务上的实验表明，ChatEval提供了与人类评估一致的卓越准确性和相关性。此外，我们发现不同的角色提示（不同的人物角色）在多智能体辩论过程中是必不可少的；也就是说，在提示中使用相同的角色描述可能会导致性能下降。我们的定性分析还表明，ChatEval超越了单纯的文本评分，为可靠的评估提供了一个模仿人类的评估过程。我们的代码可在https://github.com/chanchimin/ChatEval.