烤一烤 Qwen3.5 和豆包 Seed2 的编程能力!

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

昨天刚购买阿里百炼的 Coding Plan,并且初步体验了一下它的编程工具 Qwen Code。

今天它“烤一烤”它! 大量实测,不带虚的!

为了增加一些娱乐性,把豆包 Seed2 也拉上吧!

因为火山和百炼的 Coding Plan 非常相似,都是自家的模型加上国产模型全家桶。

我已经买了国内所有的 Coding Plan,为了测试他们能力,还专门开发了一个测试平台。 配置已经全部搞定,功能也基本可用了!接下来看搞点什么好玩又实用的测试了。

然后在测试这两个 Coding Plan 的时候有“惊奇”的发现。

这是百炼的Kimi2.5:

这是火山的Kimi2.5:

看到没在这两个平台上 Kimi 都说自己是 Claude,即便你一再追问,它也绝不松口。哈哈哈~~ 这背后有啥故事,我就不展开了。

但是当你直接问 Kimi 自家的 Coding Plan 的时候,它就不会这么说!

从这个对比大概就可以知道一个事情了。这两家的第三方模型大概率是他们部署的开源版模型,有没有量化就不得而知了。

所以基本上可以断定套餐里的模型和官方的模型是会有些差异的!

所以在对比这两个编程计划的时候,我主要还是对比 Qwen3.5 和豆包 Seed2.0 这两个官方主打的模型!

我的测试工具主要是 Trae 和 Qwen Code!

用 Trae 的主要原因是它上面已经有全套的过程模型了,统一用这个测试比较公平。

但是这排队真的有点离谱!最多的时候排在 1000 多啊!

用 Qwen Code 是因为我有 VIP 啊,同时也可以测试一下,同样一个模型在别人家的 IDE 里和在自家的 CLI 里,有没有差别!

接下来就说一下测试的题目了。就是之前测试过的 9 个题目。

这套题目是兼具娱乐和专业性,每个题目都有它自己的考点。目前已经测试了 Claude4.6Opus,Gemini3.1Pro,GLM5,Kimi K2.5,MiniMax M2.5 等国内外顶尖模型了。

全部交代完了,进入激动人心的测试环节了。

这个测试最让人兴奋的就是抽卡的阶段了,每次等待过程中都非常开心,因为你根本不知道会有什么样的结果。

纯 CSS 中国山水画

用纯 CSS(单个 HTML 文件,不允许用 JavaScript、SVG、Canvas、任何图片资源)
画一幅中国山水画。要求包含:远山、近山、瀑布流水、松树、亭台、云雾缭绕动效、
飞鸟。越写意越好,越像水墨越强。

看点:打开浏览器一眼就能判断谁画得美、谁画得丑。考验 CSS box-shadowgradientclip-path、动画的极限运用。

Seed2:

Qwen3.5 :

配色和意境都还可以,两家飞鸟动画动都做的不错,形状的话基本上也是三角形,有点生硬。

Qwen 多了一山水轻音和印章,好像更有韵味。但是它树木和房子图层错乱了,还有树后面的山也是异形了,还有瀑布也是变异的瀑布。另外 Qwen Code 里要比这个还差一些。

Seed 的话没有特别突出的地方,但是也没有特别离谱的部分。

“分形烟花秀”

题目描述:

请编写一段 Python 代码(使用 matplotlib 或 turtle),生成一段“祝大家 2026 新年快乐”的烟花动画。 
​
**华丽要求:**
​
1. 烟花爆炸的形状不能是普通的圆,必须是**分形几何图形**(如曼德博集合或谢尔宾斯基三角形的变体)。
2. 烟花升空的轨迹要符合物理抛物线,且爆炸后的碎片要有重力下落效果。
3. 最后,所有的烟花轨迹必须在空中汇聚成“2026”这几个大字。 
​
**考验实力:** 这是**数学算法**与**视觉呈现**的完美结合。代码跑起来是绚丽的动画,跑不通则是报错,非常直观。
​

Seed2:

没啥大问题,还挺好看的,最后也还真有一个 2026。

Qwen3.5:

第一次崩了,就是完全不知道是什么,反正绝对不是烟花。然后打开就卡死了。 我回过头来看看,这显然不是烟花,好像有点下野花,挺有艺术感的。

下面是 Qwen Code 里的:

这一次又表现的还可以。炸的很好看,炸的很到位。还添加了手动触发功能!

AI 五子棋对战 + 华丽 UI

用一个 HTML 文件实现一个人机五子棋,要求:
- 棋盘是 15×15 标准棋盘,有木纹质感
- AI 要足够聪明(至少能识破简单的活三、冲四,不能让人 3 步就赢)
- 落子时有动画效果(石子从上方落下,有弹跳回弹)
- 连成五子时有华丽的胜利特效(粒子烟花 + 连线高亮闪烁)
- 支持悔棋功能
- 有一个"AI思考中"的加载动画
- 整体 UI 要精致,不能是毛坯房风格

看点:AI 算法能力(minimax + alpha-beta 剪枝的实现质量)+ 视觉设计能力 + 交互打磨,全都要。

Seed2:

Qwen3.5:

这一波 Qwen3.5 赢麻了。

Seed2 的界面完全是错位的。而且下棋呆头呆脑,它明明已经 4 颗了,然后又去开了一路!

Qwen3.5 棋盘设计的非常漂亮,棋子也很漂亮,然后智商在线,有点难缠。进攻性不算强,但是防御性超强,被围的难受死了。

另外Qwen Code版也差不多是这个水平!

一个完整横版跑酷游戏

用单个 HTML 文件(可以用 JS + CSS,但不允许引入任何外部资源/CDN)做一个
完整可玩的横版跑酷游戏,要求:
- 角色自动奔跑,点击/空格跳跃,支持二段跳
- 随机生成障碍物和金币
- 有计分系统、最高分记录
- 有背景视差滚动(至少3层)
- 角色死亡时有粒子爆炸特效
- 有开始界面和 Game Over 界面
- 整体视觉风格要好看(像素风或赛博朋克风均可)

看点:直接打开就能玩,谁的手感好、画面美、细节多,一目了然。

Seed2 :

Qwen3.5:

这一波,好像 Qwen3.5 好一点,Seed2 的问题是,玩家和障碍根本不在一个水平线。所以玩家完全可以不跳都不会死。另外一点他们两个都做的不是很好,角色死亡时要有粒子爆炸效果。Seed2 是有一点点,但是角色没炸开,Qwen3.5 是完全没有。

纯前端 3D 太阳系

用一个 HTML 文件实现一个交互式 3D 太阳系模型(可用 Three.js 或纯 CSS 3D),
要求:
- 包含太阳 + 八大行星 + 月球,按真实比例缩放轨道(大小可艺术化处理)
- 每颗行星有真实的自转和公转,速度比例接近真实
- 太阳发光(glow 效果),行星有各自的颜色/纹理
- 土星要有光环!
- 鼠标可以拖拽旋转视角,滚轮缩放
- 点击任意行星弹出信息卡片(名称、直径、距太阳距离、有趣冷知识)
- 背景是星空粒子

看点:3D渲染能力 + 物理常识 + 交互设计 + 美学品味的综合考验。

Seed2:

Qwen3.5:

这一波应该是 Qwen3.5 赢了。Qwen3.5 默认视角和比例都更加优秀。Seed2这是要发生星球碰撞了!

但是,另外一个工具里又翻车了!

Qwen Code:

这个版本直接只有一个球,啥都没有。看了一下浏览器,有一个警告和一个错误。应该是代码有问题。

然后让 Opus4.6 分析了一下,结论如下:

严重级别问题影响
🔴 致命Three.js v0.160 不支持传统 script 加载库可能无法正确加载
🔴 致命PointLight 强度太低 (2)行星全部黑色不可见
🟡 严重太阳发光层用 BackSide太阳无光晕效果
🟡 严重事件绑定在 init() 之前可能导致运行时错误
⚠️ 轻微sunMesh 重复存储冗余但不致命
⚠️ 轻微2D 曲线用于 3D 轨道兼容性风险

可以做得不好,但是低级错误是不能容忍的。

代码生成"诗词版黑客帝国代码雨"

用一个 HTML 文件实现黑客帝国经典代码雨效果,但有以下创意要求:
- 下落的不是随机字符,而是中国古诗词(每列是一首完整的诗,从上往下逐字飘落)
- 背景纯黑,文字渐变色(从亮绿到暗绿到消失)
- 当鼠标划过某一列时,该列暂停并高亮显示完整诗句,旁边浮现诗人名和朝代
- 至少包含20首不同的古诗
- 整体流畅度要高,不能卡顿

看点:视觉震撼力 + 文化品味 + 交互细节,三合一。

Seed2:

Qwen3.5 :

这一波 Seed2.0 完胜了。

Seed2 基本要求全部做到了,视觉效果不能说顶级,但是基本能看的。Qwen3.5 黑屏了,雨没有下起来。这就是大问题了!鼠标移过去也是一片混乱。

下面是Qwen Code里的:

有一点雨,但是表现不好,鼠标移过去的效果也比较难看。

这一趴,可能打到它的软肋了。

简单总结一下,这次我完全没有提 Opus4.6,我不提是有原因的!

从这两位选手的结果来看吧。

doubao-Seed2 整体发挥比较稳定,不能说特别优秀,但是也没有发致命错误。

Qwen3.5 的话五子棋这一趴特别秀儿,但是其他好几个项目都表现的不太稳定,还有几次是完全没法用的。奇怪的是 Qwen Code 上面好几次都崩了,还不如 Trae 上表现好,这是什么问题?也许只是手气问题!

大概就这样,不多说了,我感觉我再测下去要没有朋友了!

是不是要换个赛道,闭眼吹牛逼,你好我好大家好!

最后我申明一下:模型都还不错,只是我的期望比较高!

我希望来几个真的能吊打 Opus4.6的国产模型,如果一眼就能看出胜负,就有点无趣 !

gpt5.4 也已经测了~

image-20260306215952635

有几个例子还不错,UI审美有点突出,也有一个例子崩了。

所有的例子已经上传到网站,可以在线查看动态效果:https://topai.tonyhub.xyz/

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值