
Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration
前言
一篇来自COLM的多智能体协作研究,定义了三种解推理问题的模式(Discuss、Review 和 Retrieve),有效提升了推理的准确性、事实性(Factuality)和忠实性(Faithfulness)。该研究为多智能体协作在解决下游任务中的应用提供了一个全新的范式。| Paper | https://openreview.net/forum?id=7BCmIWVT0V |
|---|---|
| Github | https://github.com/QiushiSun/Corex |
1 引言
大语言模型(LLMs)通过超大规模的训练数据展示了强大的语言理解能力,并成功推动了许多NLP任务的性能飞跃。然而,尽管这些大模型在执行典型任务时表现卓越,但它们在复杂推理任务中的表现仍受到诸多限制,如推理链(思维链)的累积错误以及缺乏灵活性。
本文提出了一种名为 Corex 的框架,利用Multi-Model Collaboration(多模型协作),突破单一模型的推理瓶颈,通过三种解推理问题的模式(Discuss、Review 和 Retrieve)有效提高了推理的准确性,事实性(Factuality)和忠实性(Faithfulness)。实验结果表明,Corex 在多个基准数据集上显著优于现有的baselines的方法。
2 背景与动机
单模型解推理任务的局限性。在Chain-of-Thought (CoT) prompting出现后,通过生成一系列中间步骤引导模型得出最终答案成为了解推理任务的主流,相比仅生成“答案”的提示策略表现更好。此后,研究者又提出了多种改进方法,如采样更多推理链或加入code来辅助推理(详见baselines)。

尽管这些方法在一定程度上都改进了推理性能,但仍然局限于LLMs是一个静态的"Black Box",即模型完全依赖其Internal Representation(内部表征)生成答案,这种方式容易导致不可靠的结果。此外,单纯依赖解码策略和curated prompting也无法完全解决复杂推理任务。
其中典型的错误可以被总结为以下几类,即(1)模型计算错误(2)模型理解错误(3)代码生成错误

因此,本文提出了Corex,一个受人类启发的模型协作策略集合,通过多模型协作激发复杂任务的推理能力。为促进模型之间的协同作用,我们首先为不同的LLM Agents在推理过程中分配角色,随后设计了多种协作范式来解决问题。这种基于集体智能的方法旨在克服当前推理领域的主要挑战,如下图所示。

具体而言,Corex将若干个LLM配置为一组reasoning agents,并拥有如下多模型协作范式:
- Discuss 模式:通过模型间的群组讨论,有效提高推理链的事实性(factuality)和多样性(Diversity),减少累计错误和幻觉。
- Review 模式:模型间对推理链或生成的代码进行review,以确保生成内容的正确性,同时支持潜在的改进。
- Retrieve 模式:通过对多个推理链进行评分和排序,帮助模型从中选择最可信(faithful)的答案,提高最终结果的可靠性。
3 Corex:多模型协作推理
3-1 基本设定
假设有一组基于LLM agents A 1 , A 2 , … , A n A_1,A_2,…,A_n A1,A2,…,An 参与多模型协作。在面对一个问题 q q q 时,每个agent A i A_i Ai 会生成相应的推理链 c i c_i ci 和预测结果 p i p_i pi。这些推理链和预测结果将作为协作过程的基础,分别用于不同模式的任务分工和协作优化。以下为Corex中的三种协作模式解读:
3-2 Discuss
模型间的信息交换能够显著提升推理的准确性。在 Discuss 模式中,Corex 将基于LLM的智能体随机分为两组并指定一个Judge模型 $A_j
$ 负责最终评估。讨论过程由多个轮次组成,最多进行 T 轮交互。
在每轮交互 t ( t = 1 , 2 , … , T ) t (t=1, 2, \dots, T) t(t=1,2,…,T) 中,各组agents通过迭代讨论不断优化推理链 c i t c_i^t cit 和预测结果 p i t p_i^t pit。这种动态交互机制允许模型针对问题 q q q 持续调整和改进观点。

Discuss mode的工作流程如下:
- 组内优化:每轮结束时,蓝队和绿队分别提交优化后的预测结果 p blue t p_{\text{blue}}^t pbluet 和 p green t p_{\text{green}}^t p<

349

被折叠的 条评论
为什么被折叠?



