GenEditEvalKit:把图像生成评测的 “麻烦事”,一次性解决了

从事图像生成与编辑模型研发的小伙伴们,你们是否也经历过「评测」这些“麻烦事”:新模型刚完成迭代,想跑几个主流 benchmark 验证效果,却要为每一组「模型 × benchmark」单独写一套适配脚本;不同 benchmark 的环境依赖互相打架,配环境配到深夜;想并行跑多个任务提升效率,又要花大量精力改写调度逻辑;好不容易跑完所有任务,生成的图像、评测指标、运行日志散落在各个文件夹,想做一次横向对比,要翻遍整个磁盘目录。

上述这些“麻烦事”,来自上海人工智能实验室的研究团队在研发 InternVL-U 统一多模态模型时,都曾碰到过。如今,这些经验沉淀成了 GenEditEvalKit,业内首个面向图像生成与编辑模型的统一、高效、可扩展的一站式评测套件,也是司南 OpenCompass 评测工具链的全新成员。

项目开源地址:

https://github.com/open-compass/GenEditEvalKit

好的工具,应该替开发者解决重复的麻烦,让大家把精力真正放在模型创新上。这是团队的信念,也是 GenEditEvalKit 的设计起点——把踩过的坑、走过的弯路,全都变成你需要的能力。

一套流程,搞定多模型 × 多基准全量评测

彻底告别了传统评测 “单模型 × 单基准” 的碎片化脚本模式,GenEditEvalKit 为大家提供了统一的评测入口和配置接口。无需修改核心代码,只需在配置文件中灵活勾选,就能在单次运行中完成多款模型在多个评测基准上的全流程验证。目前工具已内置 12 个主流文生图基准、5 个图像编辑基准,以及 InternVL-U、Qwen-Image、Bagel 等 10 + 业界主流生成编辑模型,clone 仓库即可开箱即用。

图片

当前支持的模型

图片

当前支持的基准

并行调度拉满,让算力不再“摸鱼”

针对评测流程算力利用率低、端到端耗时长的痛点,GenEditEvalKit 原生支持多评测任务并行运行,可根据自身硬件资源灵活配置,最大化用户的显卡利用率。曾经需要熬一整夜才能跑完的评测任务,现在半天就能拿到完整结果,大幅压缩模型迭代周期。

模块化注册设计,零成本扩展新能力

团队深知社区的创新活力,因此整个工具采用了模块化、注册制的设计思路,对新模型、新基准的接入极度友好。想要接入自研新模型,只需实现标准化的推理接口并完成注册;想要新增评测基准,只需实现对应数据集类与评测脚本,无需修改框架核心调度逻辑,即可无缝接入 “推理 + 评测” 全流程。欢迎社区的同学们通过 PR,一起丰富工具的生态。

标准化输出管理,结果追溯一目了然

所有模型、所有基准的推理输出、评测指标、运行日志,均按照统一目录结构进行管理,支持通过 “模型 × 基准” 快速定位对应内容,后续的指标对比、可视化分析、问题排查都变得格外轻松,彻底告别 “找文件两小时,看数据五分钟” 的窘境。

更重要的是,团队把上手门槛降到了最低。完成基础环境配置后,只需一行 bash 命令,即可启动完整的评测流程,同时完美兼容符合 OpenAI API 标准的模型服务,哪怕是刚入门的同学,也能快速跑通全流程评测。

目前,GenEditEvalKit 正在持续迭代这个工具,近期已新增 InternVL-U 模型支持与 GEdit 中文评测基准,后续也会不断接入更多主流模型与基准,完善工具的各项能力。

如果你也正被图像生成模型的评测流程困扰,不妨试试 GenEditEvalKit。也欢迎大家给项目点亮 Star,在 issue 里提需求、提 bug,和我们一起把它做得更好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值