LMArena 排行榜策略（25年12月更新）

原创已于 2025-12-29 17:22:34 修改 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-12-29 16:10:57 首次发布

今年二月份写过一个关于LMArena（https://lmarena.ai/zh/leaderboard）的排行介绍。当时还有很多其他比较权威的排行榜如Holistic Evaluation of Language Models (HELM)、huggingface的open_llm_leaderboard等。LMArena以实际用户对大模型输出结果偏好的方式对大模型做评测，贴近实际且有比较完整的评分机制说明，因此参考其博客做了一个介绍。

当前LMArena已经成为一个极为权威的大模型评测参考（普遍可用），在各种大模型的对比介绍中出现。而且其评测方式也发生了变化，更加细致，评测范围也更广，且贴合当前大模型主流的方向。参考其12月的官方博客再次做一个简短介绍。

由直播和社区驱动的 LLM 评估

透明度

模型评估和排名流程已在 FastChat 仓库中开源。我们还发布了一部分从平台上收集的数据。这意味着任何人都可以使用公开发布的数据审核我们的排行榜。LMArena 背后的方法和技术细节已发表在一系列学术论文中（1、2、3）。截至 2025 年 7 月，所有排行榜方法的更新也已记录在我们的排行榜变更日志中。我们评估流程中的许多变更和改进都是由社区反馈驱动的。

在排行榜上列出模型

排行榜将仅包含对公众普遍可用的模型。具体而言，模型必须至少符合以下一项标准才能被视为公开可用：

开源权重：模型的权重是公开可访问的。
公共 API：模型可通过 API 访问（例如，OpenAI 的 GPT-4o，Anthropic 的 Claude），具有透明的定价和文档。
公共服务：模型可通过广泛可访问的公共服务获取（例如Gemini App，ChatGPT）。
LMArena 公开早期发布：在发布时，如果满足以下条件，模型将在 LMArena 的 Direct Chat 中提供。
1. 模型提供者在 LMArena 上创建关于早期访问的公开承诺（例如博客文章或 X 帖子），注明该模型将在稍后日期向公众开放。
2. 模型提供者必须以书面形式确认，早期发布模型与计划公开发布的模型完全相同。
  1. 如果确定公开发布的模型与在 LMArena 上测试的早期版本不同，Arena 将暂时从排行榜中移除该模型，直到该模型能够根据本政策的条件重新评估。
3. 分数将在发布时作为初步分数加入排行榜，直到正式公开发布（参见“评估未发布模型”部分）。
4. 模型提供者必须至少为 LMArena 提供 30 天的模型访问权限。
  1. 如果模型访问权限在 30 天之前被撤销，Arena 将把该模型从排行榜中移除，直到该模型可以根据本政策的条件重新评估。

评估公开发布的模型

评估一个公开模型包括以下步骤：

将模型添加到 Arena 进行测试，并通知社区已添加。模型提供者可以根据系统提示进行配置。
积累足够的票数，直到模型的评分稳定（至少 1000 票，通常会更多）。
评分稳定后，将模型列入排行榜。如果票数是在模型未发布时收集的（见“评估未发布模型”部分），我们将将模型分数标记为初步，直到模型公开发布后收集到足够的最新票数。
已发布模型的 API 必须在发布后至少 30 天内可访问，否则将被从排行榜中移除。

注意：一旦公共模型的测试开始，我们无法暂停或终止该过程。测试将不间断地继续，并在完成后发布分数。

评估未发布模型

我们与模型提供方合作，将他们未发布的模型带到我们的社区进行预览测试。

模型提供方可以用匿名化的模型名称测试未发布的模型。如果模型的权重既不公开也不通过公共 API 或服务可用，则该模型被视为“未发布”。评估未发布模型包括以下步骤：

使用匿名标签将模型添加到 Arena。每个匿名模型都有自己独特的标签。
持续测试该模型，直到我们积累足够的票数使其评分稳定（至少 1000 票，通常会更多）或直到模型提供者撤回该模型。
一旦我们积累足够的票数，就私下将结果分享给模型提供者。
将模型从 Arena 中移除。

如果模型是匿名测试的，之后公开发布，我们将其分数标记为初步，直到模型公开发布后收集到足够的最新票数（参见“评估公开发布的模型”）。模型提供者可以在我们的系统约束下，在公开发布前测试其模型的多个变体。

采样策略

我们在对抗中采样模型对的政策基于几个原则：

在每一场对抗中，至少有一个模型是公开可用的模型。至少有 20%的对抗将只涉及公开可用的模型。
我们保留对模型进行淘汰的权利。这种情况有可能出现，例如，因为某个模型不再公开可用，同一系列中有更新的模型（例如，gpt-4o-0513 vs gpt-4o-0806），或者多个模型提供者提供了根据整体 Arena 评分更便宜且严格更好的模型。为确保透明度，所有已从对抗模式中退役的模型都会被记录在一个公开列表中。
一个公开可用的模型的采样概率会随着其整体 Arena 得分以及得分的不确定性（由置信区间大小体现）而增加。这是为了确保最佳社区体验以及所有公开模型的准确评估。用于计算 Arena 得分的回归分析采用重加权方法，确保无论采样概率如何设置，Arena 得分都保持无偏。