论文阅读 - SELF-REFINE: Iterative Refinement with Self-Feedback

最新推荐文章于 2026-07-01 19:51:18 发布

原创

最新推荐文章于 2026-07-01 19:51:18 发布 · 2.6k 阅读

·

30

·

https://arxiv.org/pdf/2303.17651

目录

2 Iterative Refinement with SELF-REFINE

3.1 Instantiating SELF-REFINE

Abstract

与人类一样，大型语言模型（LLMs）并非总能在首次尝试时产生最佳输出结果。受人类如何完善书面文本的启发，作者引入了 SELF-REFINE，这是一种通过迭代反馈和完善来改进 LLM 初始输出的方法。

其主要思路是使用 LLM 生成初始输出；然后，同一 LLM 为其输出提供反馈，并利用反馈反复改进自身。

SELF-REFINE 不需要任何有监督的训练数据、额外的训练或强化学习，而是使用单个 LLM 作为生成器、改进器和反馈提供者。

作者使用最先进的 LLM（GPT-3.5 和 GPT-4）对 SELF-REFINE 在 7 个不同任务中的表现进行了评估，这些任务包括对话响应生成和数学推理。

在所有评估的任务中，与使用传统的一步生成法通过相同的 LLM 生成的结果相比，使用 SELF-REFINE 生成的输出结果都受到人类和自动度量的青睐，任务性能的绝对值平均提高了 20%。

作者的工作表明，即使是最先进的 LLM（如 GPT-4），也能在测试时利用我们简单的独立方法得到进一步改进。

Introduction

尽管大型语言模型（LLM）可以生成连贯的输出结果，但它们往往无法满足复杂的要求。

这主要包括具有多方面目标的任务，如对话响应生成，或具有难以定义的目标的任务，如增强程序的可读性。

在这些情况下，现代 LLM 可能会产生可理解的初始输出，但可能会受益于进一步的迭代改进--即迭代地将候选输出映射到改进输出，以确保达到所需的质量。

迭代改进通常包括训练一个依赖于特定领域数据的改进模型（如 Reid 和 Neubig (2022)；Schick 等人 (2022a)；Welleck 等人 (2022)）。其他依赖外部监督或奖励模型的方法需要大量的训练集或昂贵的人工注释（Madaan 等人，2021 年；欧阳等人，2022 年），而这可能并不总是可行的。这些局限性突出表明，作者需要一种有效的提炼方法，这种方法可以应用于各种任务，而不需要大量的监督。

迭代式自我完善是人类解决问题的基本特征（Simon，1962；Flower 和 Hayes，1981；Amabile，1983）。迭代自我完善是一个涉及创建初始草案并随后根据自我提供的反馈对其进行完善的过程。

在起草向同事索取文件的电子邮件时，一个人最初可能会写一

标签

#论文阅读

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。