ModelScope魔搭社区发布月报 -- 25年12月

简介: 魔搭社区12月重磅更新DeepSeek 3.2、Mistral-3等模型,Z-Image-Turbo引领文生图生态,平台全面升级加速开源模型落地。

🚀 2025年末,DeepSeek 3.2强化推理与Agent能力,Mistral-3系列回归,智谱开源周连发GLM-4.6V、AutoGLM-Phone、RealVideo等多模态重磅模型~

🎨 文生图赛道卷出新高度:Flux2登场,Z-Image-Turbo 在6B规格上凭「10步内高质量出图+超强中英理解」引爆社区,生态迅猛崛起,魔搭Day 0全链路支持!

🔧 开源基建持续深耕:DiffSynth首发i2L(image-to-LoRA)登双榜热搜、SWIFT拓展GRPO生态+国产芯片支持,Agent与评估工具快速迭代,让模型「好训、好用、好落地」~

🌍 不止线上——魔搭国际站优化+首场韩国线下活动圆满收官,杭州开发者中心正式启用,魔搭开源从此有了「实体孵化器」✨

不知不觉中,我们就走到了2025年的末尾,本月我们也迎来了DeepSeek 3.2正式版本的更新,通过对推理和agentic能力的增强,新版本的V3.2无疑为模型在实际应用中落地提供了更全面的支持,同时发布的还有专注于深度思考的Speciale版本,旨在探求模型智能的边界。在文本生成模型领域,MistralAI久违的带来了Mistral-3系列,包括Mistral-Large-3和Ministral-3等模型。另一方面,在刚刚划上句号的智谱开源周期间,智谱给开发者带来了全方面的惊喜。从GLM-4.6V在视觉理解的全面提升,到AutoGLM-Phone在通过模型管控操作智能终端设备方面的探索,再到GLM到ASR-nano与TTS模型带来的在语音领域上的新进展,以及RealVideo等一系列模型在实时视频交互上的突破,智谱在各种模态模型上的全方面的投入和开放,为社区发展注入了新的活力。

而在视觉生成,尤其是文生图领域,过去一个月更是让广大开发者目睹了社区“日新月异”的进展。首先是广受关注的Flux系列模型,在本月推出了新一代Flux2版本。其后社区则迎来了新选手Z-Image-Turbo:作为一个只有6B规格的模型,Z-Image-Turbo能在10步以内生成高质量的图片,在人像领域尤为突出,同时展示出了良好的中英文文本语义理解。开发者对于Z-Image 的热烈反馈,使得其生态展现出了类似早期StableDiffusion时代蓬勃发展的态势。ModelScope也在Day 0提供了对于Z-Image的支持,包括生图,API-Inference,以及Gallery的托管。本月同时发布的还有来自美团龙猫的Longcat-Image系列,涵盖了生图,编辑等模型。此外不同垂直领域的模型,包括来自NewBieAI的二次元图片生成模型等,都为开发者所乐见。而在图像/视频分割领域,facebook的sam系列正式推出了sam3系列,在分割能力上又上了一个全新的台阶。


在关注头部模型发布的同时,我们在开源工具链生态方面的探索也一致在稳步向前。基于ModelScope的DiffSynth框架,我们开源了业界第一个 i2L (image-to-LoRA)模型,在社区获得了较好的反馈,在ModelScope和Hugging Face上实现了trending双榜上榜。同时尾了丰富Z-Image模型生态,我们探索了一个在保留快速生成的Turbo能力,同时能保障高质量图片产出的LoRA训练方案。而在模型训练微调框架SWIFT中,我们添加了GRPO Megatron训练的支持,并持续推进新RL算法、新模型、以及新的国产化硬件的接入与支持。同时在Agent生态以及模型评估框架方面,我们也持续推进着功能的快速迭代。站点服务方面,我们依然专注于平台能力与易用性的建设,旨在为广大开发者提供最全面和最好用的开源模型平台与社区能力。


为了更好触达海外的开发者,我们也在持续丰富魔搭的国际站( modelscope.ai )的内容与平台优化。上个星期我们在韩国举办了第一次魔搭的海外线下开发者活动,收到了韩国本地开发者的热情支持。同时11月22号,伴随杭州AI开源生态大会的召开,魔搭社区的杭州线下开发者中心也正式启用。除了在大会期间和开发者线下meetup和密集讨论,开发者中心为广大社区用户提供了一个线下的长期“据点”,也为支撑开源模型和开源项目,从线上走到线下并孵化成产品提供了依托。我们期望更多的社区上的想法和创新能在这里进行转化。


站点更新

1. ModelScope的社区组织页面上线:https://www.modelscope.cn/organizations,方便各个组织能在社区上有更好的入口呈现。

2. 模型列表页,除了展示模型卡片以外,也提供 合集 卡片的混排能力,更好的支持大规模的“系列模型”发布的场景

    3. 我们在AIGC专区引入了魔粒(magicube)体系,在持续为广大开发者提供免费的生成和训练资源的同时,也鼓励大家更多参与社区互动和分享,来获得更多的算力支持。

4. 创空间开放了基于Docker创建的能力,支持更加自由的AI应用搭建和分享

5. 拓展API-Inference支持更多Qwen-Image等生态LoRA的支持,同时提供了LoRA页面的demo。

    6. 支持图像编辑模型,以及lora模型的基于API-Inference实现的模型页面demo,并支持在API-Inference上配置多个组合LoRA生图的能力。

    7. MCP playground (https://modelscope.cn/mcp/playground) 完成了新版本升级,允许用户自定义模型API,包括API-Inference以及三方API

    8. AIGC专区支持了Qwen-Image-Edit-2509等模型的多图模式训练。

    9. 对于AIGC的申请制模型,在保持下载单独申请的同时,开放在线生图能力。支持开发者在维持可控的下载范围的同时,模型能力能在更广的范围内被生态用户体验和使用。

    10. 我们对于AIGC专区的模型卡片,进行了样式改版,突出模型作者KOL的id等信息,支持模型作者更好的宣传和推广

    11. 国际站支持了github登录,并在全面优化海外模型加速的同时,对于下载文案等提示进行了改进。

    12. 国际站支持了“阿里云国际”账号的绑定与解绑                                            

    13. 国际站AIGC专区能力对齐(包括多图,edit训练等)                      

    14. 模型列表页的模型卡片,支持直接透传模型参数规模信息。方便开发者更直观了解模型的规格等信息

    15. 对于safetensors等模型文件,支持在文件详情页,直接展示meta header以及模型结构信息

    16. 为了更好支持单个repo里多样化内容存储和分享的场景,我们支持了通过链接url直接分享与访问repo内子文件夹的能力。相对应的,在Repo(模型库/数据集/创空间)中,也支持通过页面直接创建新目录的能力。

    17. SwingDeploy支持了基于sglang引擎的模型服务部署能力                                              

    18. 对于AIGC 专区的模型,支持了通过页面上传时的断点续传能力。  


开源SDK与工具链更新

1. SWIFT 3.11 版本发布。

  • 支持了GRPO Megatron训练,同时在Megatron-SWIFT上提供了FP8 blockwise训练的支持,并且支持了MTP训练以及提供了对于不同版本(0.12-0.15)的megaron-core的支持
  • RL方面,提供了对于新的SAPO,CISPO等算法的支持,并引入了tree-rollout的实现。对于训推不一致的场景,提供了缓解方案。完成了对GRPO losstype的新增
  • 训练框架方面,完成了对cached dataset 的重构,来更好支持大型数据集离线 tokenize 场景。预训练场景提供了 --truncation_strategy split 新策略。
  • 国产硬件支持方面,在 Megatron-SWIFT 中提供了对昇腾 NPU的支持,同时对于昇腾NPU混合算子,支持了 Qwen2、Qwen3、Qwen3-MoE 系列模型,来实现训练过程的加速。


    2. EvalScope 1.2版本发布。支持自定义函数调用(function-call)评测,以及自定义视觉问答(VQA)评测。更新了聚合(agg)参数,优化评分聚合机制,并优化了性能测试(perf)相关参数配置。在基准测试支持方面,添加了A_OKVQA、CMMU、CMMMU、ScienceQA、V*Bench、MicroVQA 等多模态基准测试,以及 GSM8K-V、MGSM、IFBench、OpenAI MRCR 等基准测试。同时在代码评测方面 新增 了SWE-bench_Verified、SWE-bench_Lite、SWE-bench_Verified_mini、SciCode 等一系列代码能力评测。

    3. ms-agent:  Agent Skills增加依托hub探索skills reop的能力。包括Memory管理等功能完善并集成MCP Playground中,FinResaerch能力发布,并提供创空间体验:https://www.modelscope.cn/studios/ms-agent/FinResearch

 4. DiffSynth:DiffSynth 2.0整体架构重构完成,提供更完善的内存/显存管理框架,并支持Split Training,Differential LoRA Training以及FP8 training等新能力。在新框架上支持了Z-Image以及FLux.2等新模型,并发布了i2L模型,以及探索了对于蒸馏Turbo模型的训练支持。


目录
相关文章
|
13天前
|
人工智能 JavaScript Java
正则表达式是“天书”?用这条指令让AI做你的“御用翻译官”
正则表达式常被戏称为“只写语言”,难以阅读且易引发性能问题。本文分享一套AI指令,将AI转化为“正则翻译官”,不仅生成精准代码,更提供逐字解析与ReDoS安全检查,帮助开发者轻松应对日志清洗与WAF配置挑战。
112 3
|
10天前
|
机器学习/深度学习 数据采集 自然语言处理
BOSS直聘3B超越Qwen3-32B,更多训练数据刷新小模型极限
BOSS直聘Nanbeige实验室开源Nanbeige4-3B模型,仅30亿参数却在数学、推理、代码等多领域超越320亿参数大模型。通过23万亿高质量token训练、千万级指令微调及双重蒸馏强化学习,实现小模型性能跃升,为端侧部署与低成本推理提供新范式。
224 5
|
20天前
|
数据采集 自然语言处理 前端开发
智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务
智谱发布GLM-4.6V系列多模态大模型,含106B基础版与9B轻量版,支持128k长上下文,视觉理解达同规模SOTA。原生融合工具调用能力,打通“视觉感知-行动执行”闭环,降价50%,API低至1元/百万tokens,助力图文创作、识图购物、前端复刻等复杂场景。
364 2
智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务
|
17天前
|
SQL 人工智能 数据库
你的数据库不是性能差,是你的SQL在“烧钱”:用这条指令让AI化身资深DBA
硬件升配解决不了烂SQL!本文提供一套经过验证的AI指令,将大模型转化为资深DBA,通过深度诊断、索引优化和执行计划分析,帮助开发者从根源解决慢查询问题,实现数据库性能的降本增效。
167 19
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
2131 9
|
11天前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
175 23
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
13天前
|
人工智能 自然语言处理 语音技术
通义百聆语音双子星,同步开源!
通义百聆全新升级,推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆,支持中英混说、跨语种合成;Fun-ASR识别准确率高达93%,支持31种语言自由混说、歌词说唱识别,并开源轻量级模型,助力高效本地部署与定制开发。
284 5
通义百聆语音双子星,同步开源!
|
24天前
|
存储 人工智能 安全
AICoding实践:从Prd到代码生成
本文探讨了在AI技术推动软件工程范式变革的新阶段,如何通过构建增强型AI编程系统(codefuse)实现从需求到代码的端到端自动生成。
458 21
AICoding实践:从Prd到代码生成