今年二月份写过一个关于LMArena(https://lmarena.ai/zh/leaderboard)的排行介绍。当时还有很多其他比较权威的排行榜如Holistic Evaluation of Language Models (HELM)、huggingface的open_llm_leaderboard等。LMArena以实际用户对大模型输出结果偏好的方式对大模型做评测,贴近实际且有比较完整的评分机制说明,因此参考其博客做了一个介绍。
当前LMArena已经成为一个极为权威的大模型评测参考(普遍可用),在各种大模型的对比介绍中出现。而且其评测方式也发生了变化,更加细致,评测范围也更广,且贴合当前大模型主流的方向。参考其12月的官方博客再次做一个简短介绍。
由直播和社区驱动的 LLM 评估
透明度
模型评估和排名流程已在 FastChat 仓库中开源。我们还发布了一部分从平台上收集的数据。这意味着任何人都可以使用公开发布的数据审核我们的排行榜。LMArena 背后的方法和技术细节已发表在一系列学术论文中(1、2、3)。截至 2025 年 7 月,所有排行榜方法的更新也已记录在我们的排行榜变更日志中。我们评估流程中的许多变更和改进都是由社区反馈驱动的。
在排行榜上列出模型
排行榜将仅包含对公众普遍可用的模型。具体而言,模型必须至少符合以下一项标准才能被视为公开可用:
- 开源权重:模型的权重是公开可访问的。
- 公共 API:模型可通过 API 访问(例如,OpenAI 的 GPT-4o,Anthropic 的 Claude),具有透明的定价和文档。
- 公共服务:模型可通过广泛可访问的公共服务获取(例如Gemini App,ChatGPT)。
- LMArena 公开早期发布:在发布时,如果满足以下条件,模型将在 LMArena 的 Direct Chat 中提供。
- 模型提供者在 LMArena 上创建关于早期访问的公开承诺(例如博客文章或 X 帖子),注明该模型将在稍后日期向公众开放。
- 模型提供者必须以书面形式确认,早期发布模型与计划公开发布的模型完全相同。
- 如果确定公开发布的模型与在 LMArena 上测试的早期版本不同,Arena 将暂时从排行榜中移除该模型,直到该模型能够根据本政策的条件重新评估。
- 分数将在发布时作为初步分数加入排行榜,直到正式公开发布(参见“评估未发布模型”部分)。
- 模型提供者必须至少为 LMArena 提供 30 天的模型访问权限。
- 如果模型访问权限在 30 天之前被撤销,Arena 将把该模型从排行榜中移除,直到该模型可以根据本政策的条件重新评估。
评估公开发布的模型
评估一个公开模型包括以下步骤:
- 将模型添加到 Arena 进行测试,并通知社区已添加。模型提供者可以根据系统提示进行配置。
- 积累足够的票数,直到模型的评分稳定(至少 1000 票,通常会更多)。
- 评分稳定后,将模型列入排行榜。如果票数是在模型未发布时收集的(见“评估未发布模型”部分),我们将将模型分数标记为初步,直到模型公开发布后收集到足够的最新票数。
- 已发布模型的 API 必须在发布后至少 30 天内可访问,否则将被从排行榜中移除。
注意:一旦公共模型的测试开始,我们无法暂停或终止该过程。测试将不间断地继续,并在完成后发布分数。
评估未发布模型
我们与模型提供方合作,将他们未发布的模型带到我们的社区进行预览测试。
模型提供方可以用匿名化的模型名称测试未发布的模型。如果模型的权重既不公开也不通过公共 API 或服务可用,则该模型被视为“未发布”。评估未发布模型包括以下步骤:
- 使用匿名标签将模型添加到 Arena。每个匿名模型都有自己独特的标签。
- 持续测试该模型,直到我们积累足够的票数使其评分稳定(至少 1000 票,通常会更多)或直到模型提供者撤回该模型。
- 一旦我们积累足够的票数,就私下将结果分享给模型提供者。
- 将模型从 Arena 中移除。
如果模型是匿名测试的,之后公开发布,我们将其分数标记为初步,直到模型公开发布后收集到足够的最新票数(参见“评估公开发布的模型”)。模型提供者可以在我们的系统约束下,在公开发布前测试其模型的多个变体。
采样策略
我们在对抗中采样模型对的政策基于几个原则:
- 在每一场对抗中,至少有一个模型是公开可用的模型。至少有 20%的对抗将只涉及公开可用的模型。
- 我们保留对模型进行淘汰的权利。这种情况有可能出现,例如,因为某个模型不再公开可用,同一系列中有更新的模型(例如,gpt-4o-0513 vs gpt-4o-0806),或者多个模型提供者提供了根据整体 Arena 评分更便宜且严格更好的模型。为确保透明度,所有已从对抗模式中退役的模型都会被记录在一个公开列表中。
- 一个公开可用的模型的采样概率会随着其整体 Arena 得分以及得分的不确定性(由置信区间大小体现)而增加。这是为了确保最佳社区体验以及所有公开模型的准确评估。用于计算 Arena 得分的回归分析采用重加权方法,确保无论采样概率如何设置,Arena 得分都保持无偏。
共享数据
我们定期将部分数据与社区共享,以支持研究和透明度。当我们测试未发布的模型时,我们会将对话数据与模型提供者共享,以帮助他们改进模型(参见“评估未发布的模型”)。在共享任何数据之前,我们使用工具(例如 GCP 的敏感数据保护 API 服务)来删除个人和敏感数据。
1065

被折叠的 条评论
为什么被折叠?



