烤一烤 Qwen3.5 和豆包 Seed2 的编程能力！

最新推荐文章于 2026-06-21 12:13:54 发布

原创最新推荐文章于 2026-06-21 12:13:54 发布 · 738 阅读

11 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

昨天刚购买阿里百炼的 Coding Plan，并且初步体验了一下它的编程工具 Qwen Code。

今天它“烤一烤”它！大量实测，不带虚的！

为了增加一些娱乐性，把豆包 Seed2 也拉上吧！

因为火山和百炼的 Coding Plan 非常相似，都是自家的模型加上国产模型全家桶。

我已经买了国内所有的 Coding Plan，为了测试他们能力，还专门开发了一个测试平台。配置已经全部搞定，功能也基本可用了！接下来看搞点什么好玩又实用的测试了。

然后在测试这两个 Coding Plan 的时候有“惊奇”的发现。

这是百炼的Kimi2.5：

这是火山的Kimi2.5：

看到没在这两个平台上 Kimi 都说自己是 Claude，即便你一再追问，它也绝不松口。哈哈哈~~ 这背后有啥故事，我就不展开了。

但是当你直接问 Kimi 自家的 Coding Plan 的时候，它就不会这么说！

从这个对比大概就可以知道一个事情了。这两家的第三方模型大概率是他们部署的开源版模型，有没有量化就不得而知了。

所以基本上可以断定套餐里的模型和官方的模型是会有些差异的！

所以在对比这两个编程计划的时候，我主要还是对比 Qwen3.5 和豆包 Seed2.0 这两个官方主打的模型！

我的测试工具主要是 Trae 和 Qwen Code！

用 Trae 的主要原因是它上面已经有全套的过程模型了，统一用这个测试比较公平。

但是这排队真的有点离谱！最多的时候排在 1000 多啊！

用 Qwen Code 是因为我有 VIP 啊，同时也可以测试一下，同样一个模型在别人家的 IDE 里和在自家的 CLI 里，有没有差别！

接下来就说一下测试的题目了。就是之前测试过的 9 个题目。

这套题目是兼具娱乐和专业性，每个题目都有它自己的考点。目前已经测试了 Claude4.6Opus，Gemini3.1Pro，GLM5，Kimi K2.5，MiniMax M2.5 等国内外顶尖模型了。

全部交代完了，进入激动人心的测试环节了。

这个测试最让人兴奋的就是抽卡的阶段了，每次等待过程中都非常开心，因为你根本不知道会有什么样的结果。

纯 CSS 中国山水画

用纯 CSS（单个 HTML 文件，不允许用 JavaScript、SVG、Canvas、任何图片资源）
画一幅中国山水画。要求包含：远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好，越像水墨越强。

看点：打开浏览器一眼就能判断谁画得美、谁画得丑。考验 CSS box-shadow、gradient、clip-path、动画的极限运用。

Seed2：

Qwen3.5 ：

配色和意境都还可以，两家飞鸟动画动都做的不错，形状的话基本上也是三角形，有点生硬。

Qwen 多了一山水轻音和印章，好像更有韵味。但是它树木和房子图层错乱了，还有树后面的山也是异形了，还有瀑布也是变异的瀑布。另外 Qwen Code 里要比这个还差一些。

Seed 的话没有特别突出的地方，但是也没有特别离谱的部分。

“分形烟花秀”

题目描述：

请编写一段 Python 代码（使用 matplotlib 或 turtle），生成一段“祝大家 2026 新年快乐”的烟花动画。 

**华丽要求：**

1. 烟花爆炸的形状不能是普通的圆，必须是**分形几何图形**（如曼德博集合或谢尔宾斯基三角形的变体）。
2. 烟花升空的轨迹要符合物理抛物线，且爆炸后的碎片要有重力下落效果。
3. 最后，所有的烟花轨迹必须在空中汇聚成“2026”这几个大字。 

**考验实力：** 这是**数学算法**与**视觉呈现**的完美结合。代码跑起来是绚丽的动画，跑不通则是报错，非常直观。

Seed2：

没啥大问题，还挺好看的，最后也还真有一个 2026。

Qwen3.5：

第一次崩了，就是完全不知道是什么，反正绝对不是烟花。然后打开就卡死了。我回过头来看看，这显然不是烟花，好像有点下野花，挺有艺术感的。

下面是 Qwen Code 里的：

这一次又表现的还可以。炸的很好看，炸的很到位。还添加了手动触发功能！

AI 五子棋对战 + 华丽 UI

用一个 HTML 文件实现一个人机五子棋，要求：
- 棋盘是 15×15 标准棋盘，有木纹质感
- AI 要足够聪明（至少能识破简单的活三、冲四，不能让人 3 步就赢）
- 落子时有动画效果（石子从上方落下，有弹跳回弹）
- 连成五子时有华丽的胜利特效（粒子烟花 + 连线高亮闪烁）
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体 UI 要精致，不能是毛坯房风格

看点：AI 算法能力（minimax + alpha-beta 剪枝的实现质量）+ 视觉设计能力 + 交互打磨，全都要。

Seed2：

Qwen3.5：

这一波 Qwen3.5 赢麻了。

Seed2 的界面完全是错位的。而且下棋呆头呆脑，它明明已经 4 颗了，然后又去开了一路！

Qwen3.5 棋盘设计的非常漂亮，棋子也很漂亮，然后智商在线，有点难缠。进攻性不算强，但是防御性超强，被围的难受死了。

另外Qwen Code版也差不多是这个水平！

一个完整横版跑酷游戏

用单个 HTML 文件（可以用 JS + CSS，但不允许引入任何外部资源/CDN）做一个
完整可玩的横版跑酷游戏，要求：
- 角色自动奔跑，点击/空格跳跃，支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动（至少3层）
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看（像素风或赛博朋克风均可）

看点：直接打开就能玩，谁的手感好、画面美、细节多，一目了然。

Seed2 ：

Qwen3.5：

这一波，好像 Qwen3.5 好一点，Seed2 的问题是，玩家和障碍根本不在一个水平线。所以玩家完全可以不跳都不会死。另外一点他们两个都做的不是很好，角色死亡时要有粒子爆炸效果。Seed2 是有一点点，但是角色没炸开，Qwen3.5 是完全没有。

纯前端 3D 太阳系

用一个 HTML 文件实现一个交互式 3D 太阳系模型（可用 Three.js 或纯 CSS 3D），
要求：
- 包含太阳 + 八大行星 + 月球，按真实比例缩放轨道（大小可艺术化处理）
- 每颗行星有真实的自转和公转，速度比例接近真实
- 太阳发光（glow 效果），行星有各自的颜色/纹理
- 土星要有光环！
- 鼠标可以拖拽旋转视角，滚轮缩放
- 点击任意行星弹出信息卡片（名称、直径、距太阳距离、有趣冷知识）
- 背景是星空粒子

看点：3D渲染能力 + 物理常识 + 交互设计 + 美学品味的综合考验。

Seed2：

Qwen3.5：

这一波应该是 Qwen3.5 赢了。Qwen3.5 默认视角和比例都更加优秀。Seed2这是要发生星球碰撞了！

但是，另外一个工具里又翻车了！

Qwen Code：

这个版本直接只有一个球，啥都没有。看了一下浏览器，有一个警告和一个错误。应该是代码有问题。

然后让 Opus4.6 分析了一下，结论如下：

严重级别	问题	影响
🔴 致命	Three.js v0.160 不支持传统 script 加载	库可能无法正确加载
🔴 致命	PointLight 强度太低 (2)	行星全部黑色不可见
🟡 严重	太阳发光层用 BackSide	太阳无光晕效果
🟡 严重	事件绑定在 init() 之前	可能导致运行时错误
⚠️ 轻微	sunMesh 重复存储	冗余但不致命
⚠️ 轻微	2D 曲线用于 3D 轨道	兼容性风险

可以做得不好，但是低级错误是不能容忍的。

代码生成"诗词版黑客帝国代码雨"

用一个 HTML 文件实现黑客帝国经典代码雨效果，但有以下创意要求：
- 下落的不是随机字符，而是中国古诗词（每列是一首完整的诗，从上往下逐字飘落）
- 背景纯黑，文字渐变色（从亮绿到暗绿到消失）
- 当鼠标划过某一列时，该列暂停并高亮显示完整诗句，旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高，不能卡顿

看点：视觉震撼力 + 文化品味 + 交互细节，三合一。

Seed2：