Qwen3.5 要来了

Qwen3.5-9B

Qwen3.5 具备以下增强特性: 统一的视觉-语言基础:通过在多模态 token 上进行早期融合训练,在跨代性能上与 Qwen3 持平,并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。 高效混合架构:结合门控 Delta 网络与稀疏混合专家(Mixture-of-Experts),实现高吞吐推理,同时保持极低的延迟和成本开销。 可扩展的强化学习泛化能力:在百万


Qwen3.5、MiniMax2.2、字节跳动 Seed、DeepSeek-V4 都要来了吗?

最近,LMSYS Chatbot Arena(目前的“大模型盲测”权威榜单)上又热闹起来了。

除了大家熟知的名字,榜单上突然窜出了几个神秘的匿名模型,它们虽然披着代号的“马甲”,但在对话中却诚实地“自报家门”。

Qwen 3.5 现身:代号 “Karp”

在 Arena 上,代号为 Karp-001Karp-002 的模型,在被问及身份时,明确回答自己是 Qwen 3.5(阿里通义千问的下一代大版本)。

与之呼应的是,GitHub 上的 transformers 库中也悄然出现了 Qwen 3.5 的配置文件:

  • Qwen3.5-9B-Instruct
  • Qwen3.5-35B-A3B-Instruct

其中,35B 版本的 “A3B” 后缀引人遐想,这很可能暗示了 Active 3B(激活参数为 3B)的 MoE(混合专家)架构。如果属实,这将是阿里在轻量级 MoE 模型上的又一次重要尝试,兼顾了高性能与推理效率。

字节新动作:代号 “Pisces”

不仅仅是阿里,字节跳动似乎也有新动作。

竞技场上出现了 Pisces-llm-0206aPisces-llm-0206b,它们自称是字节跳动的 “Seed” 模型。这可能是 Seed 系列的全新迭代或测试版本,日期后缀 0206 暗示了这是非常新鲜的 checkpoint。

  • Karp-001:I’m Qwen3.5, developed by Tongyi Lab.
  • Pisces 系列:I’m Seed, a large language model developed by ByteDance.

Pisces 模型用不到 100 行代码就画出了一个很漂亮的 Xbox 手柄 SVG,而 Karp 用了 600+ 行还画得一般

暗示 Pisces 在代码/创意生成上明显更强

春节将至,大模型圈的“春招”似乎比人才市场还要火热。

阿里和字节不约而同地在竞技场上测试新模型,预示着新一轮的“千模大战”又要开始了。

字节系

  • Seed 2.0
  • Seed 2.0 Flash
  • Seed Code 2

阿里 Qwen 系

  • Qwen3.5 models

DeepSeek 系

  • DeepSeek-V4
  • DeepSeek-V4-Lite

大模型春节也要来了!

您可能感兴趣的与本文相关的镜像

Qwen3.5-9B

Qwen3.5-9B

文本生成
Qwen
Qwen3.5

Qwen3.5 具备以下增强特性: 统一的视觉-语言基础:通过在多模态 token 上进行早期融合训练,在跨代性能上与 Qwen3 持平,并在推理、编码、智能体和视觉理解等基准测试中全面超越 Qwen3-VL 模型。 高效混合架构:结合门控 Delta 网络与稀疏混合专家(Mixture-of-Experts),实现高吞吐推理,同时保持极低的延迟和成本开销。 可扩展的强化学习泛化能力:在百万

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值