
https://arxiv.org/pdf/2303.17651
目录
2 Iterative Refinement with SELF-REFINE
Abstract
与人类一样,大型语言模型(LLMs)并非总能在首次尝试时产生最佳输出结果。受人类如何完善书面文本的启发,作者引入了 SELF-REFINE,这是一种通过迭代反馈和完善来改进 LLM 初始输出的方法。
其主要思路是使用 LLM 生成初始输出;然后,同一 LLM 为其输出提供反馈,并利用反馈反复改进自身。
SELF-REFINE 不需要任何有监督的训练数据、额外的训练或强化学习,而是使用单个 LLM 作为生成器、改进器和反馈提供者。
作者使用最先进的 LLM(GPT-3.5 和 GPT-4)对 SELF-REFINE 在 7 个不同任务中的表现进行了评估,这些任务包括对话响应生成和数学推理。
在所有评估的任务中,与使用传统的一步生成法通过相同的 LLM 生成的结果相比,使用 SELF-REFINE 生成的输出结果都受到人类和自动度量的青睐,任务性能的绝对值平均提高了 20%。
作者的工作表明,即使是最先进的 LLM(如 GPT-4),也能在测试时利用我们简单的独立方法得到进一步改进。
Introduction
尽管大型语言模型(LLM)可以生成连贯的输出结果,但它们往往无法满足复杂的要求。
这主要包括具有多方面目标的任务,如对话响应生成,或具有难以定义的目标的任务,如增强程序的可读性。
在这些情况下,现代 LLM 可能会产生可理解的初始输出,但可能会受益于进一步的迭代改进--即迭代地将候选输出映射到改进输出,以确保达到所需的质量。
迭代改进通常包括训练一个依赖于特定领域数据的改进模型(如 Reid 和 Neubig (2022);Schick 等人 (2022a);Welleck 等人 (2022))。其他依赖外部监督或奖励模型的方法需要大量的训练集或昂贵的人工注释(Madaan 等人,2021 年;欧阳等人,2022 年),而这可能并不总是可行的。这些局限性突出表明,作者需要一种有效的提炼方法,这种方法可以应用于各种任务,而不需要大量的监督。
迭代式自我完善是人类解决问题的基本特征(Simon,1962;Flower 和 Hayes,1981;Amabile,1983)。迭代自我完善是一个涉及创建初始草案并随后根据自我提供的反馈对其进行完善的过程。
在起草向同事索取文件的电子邮件时,一个人最初可能会写一

2131

被折叠的 条评论
为什么被折叠?



