GenEditEvalKit：把图像生成评测的 “麻烦事”，一次性解决了

最新推荐文章于 2026-07-03 17:05:11 发布

原创最新推荐文章于 2026-07-03 17:05:11 发布 · 256 阅读

本内容遵循CC 4.0 BY-SA版权协议

从事图像生成与编辑模型研发的小伙伴们，你们是否也经历过「评测」这些“麻烦事”：新模型刚完成迭代，想跑几个主流 benchmark 验证效果，却要为每一组「模型 × benchmark」单独写一套适配脚本；不同 benchmark 的环境依赖互相打架，配环境配到深夜；想并行跑多个任务提升效率，又要花大量精力改写调度逻辑；好不容易跑完所有任务，生成的图像、评测指标、运行日志散落在各个文件夹，想做一次横向对比，要翻遍整个磁盘目录。

上述这些“麻烦事”，来自上海人工智能实验室的研究团队在研发 InternVL-U 统一多模态模型时，都曾碰到过。如今，这些经验沉淀成了 GenEditEvalKit，业内首个面向图像生成与编辑模型的统一、高效、可扩展的一站式评测套件，也是司南 OpenCompass 评测工具链的全新成员。

项目开源地址：

https://github.com/open-compass/GenEditEvalKit

好的工具，应该替开发者解决重复的麻烦，让大家把精力真正放在模型创新上。这是团队的信念，也是 GenEditEvalKit 的设计起点——把踩过的坑、走过的弯路，全都变成你需要的能力。

一套流程，搞定多模型 × 多基准全量评测

彻底告别了传统评测 “单模型 × 单基准” 的碎片化脚本模式，GenEditEvalKit 为大家提供了统一的评测入口和配置接口。无需修改核心代码，只需在配置文件中灵活勾选，就能在单次运行中完成多款模型在多个评测基准上的全流程验证。目前工具已内置 12 个主流文生图基准、5 个图像编辑基准，以及 InternVL-U、Qwen-Image、Bagel 等 10 + 业界主流生成编辑模型，clone 仓库即可开箱即用。

当前支持的模型

当前支持的基准

并行调度拉满，让算力不再“摸鱼”

针对评测流程算力利用率低、端到端耗时长的痛点，GenEditEvalKit 原生支持多评测任务并行运行，可根据自身硬件资源灵活配置，最大化用户的显卡利用率。曾经需要熬一整夜才能跑完的评测任务，现在半天就能拿到完整结果，大幅压缩模型迭代周期。

模块化注册设计，零成本扩展新能力

团队深知社区的创新活力，因此整个工具采用了模块化、注册制的设计思路，对新模型、新基准的接入极度友好。想要接入自研新模型，只需实现标准化的推理接口并完成注册；想要新增评测基准，只需实现对应数据集类与评测脚本，无需修改框架核心调度逻辑，即可无缝接入 “推理 + 评测” 全流程。欢迎社区的同学们通过 PR，一起丰富工具的生态。