本文整理自 B 站「神烦老狗」的《模型乱斗:智谱新模型 GLM 5.2 对比 GPT 与 Claude 表现如何?》,通过音视频转录总结工具 Ai好记 进行视频转笔记整理,以下为精炼整理后的内容。
两天前智谱发布了 GLM 5.2,官方声称上下文长度增加、能力逼近顶尖旗舰。但宣传归宣传,实际水平如何?
博主「神烦老狗」做了一组很有意思的对比测试:
同时打开 GPT Codex、智谱 Zcode 和 Claude 三个窗口,针对 5 个不同难度的编程任务做了平行实验。
测试设置了相近的思考强度——GPT 和 Claude 选择「高」,智谱选择「最高」(它只有高/低两档)。
先从价格看一眼各家定位:
| 模型 | 最低档 | 中档 | 高档 |
|---|---|---|---|
| Claude | Pro $18/月 | Max $110/月 | — |
| 智谱 GLM 5.2 | Lightpro $16.2/月 | 中档 $64.8/月 | Max $144/月 |
| GPT | Lite $8/月 | Plus $20/月 | Pro $100/月 |
任务一:液态玻璃个人主页
命题很简单:不用任何 CSS 框架,给博主做一个个人主页,风格采用苹果的液态玻璃效果。
GLM 5.2 表现:生成速度最快,几秒就出结果。但审美好坏先不说,效果只能叫「半透明毛玻璃」,不是液态玻璃。博主原话:「可以说是非常的丑」。
Claude 表现:同样把液态玻璃理解成了毛玻璃。圆角偏小、配色堆在一块,比智谱略好但本质没区别。
GPT 表现:与前两者大同小异,也没做出真正的液态玻璃质感。
有意思的是,三款模型对这个前端概念的理解完全一致——都导向了毛玻璃,这说明训练数据里液态玻璃的标注可能就模棱两可。
任务二:超级马里奥游戏
让三个模型各自写一个高还原度的《超级马里奥》HTML 游戏。
各模型耗时对比:
Claude:7 分 52 秒(先完成)
GPT:7 分 52 秒(几乎同时)
GLM 5.2:约 20 分钟
| 评测维度 | Claude | GPT | GLM 5.2 |
|---|---|---|---|
| 完成速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ |
| 音效 | ✅ 有音效 | ✅ 音乐控制正常 | ⚠️ 静音按钮失效 |
| 游戏逻辑 | ⚠️ 问号位置不合理 | ✅ 相对完善 | ❌ 移动速度过快 |
| 关卡设计 | ⚠️ 障碍物布局奇怪 | ✅ 可正常游玩 | ❌ 元素异常 |
Claude 最先出成品——有音效、有基本玩法,但关卡设计上有明显缺陷(比如那个问号方块放的位置没人能顶到)。
GPT 中规中矩,游戏机制可运行,完成度优于前两者。
GLM 5.2 耗时最长(约 20 分钟),且游戏存在移动速度过快、静音按钮失效等问题。
任务三:小丑牌卡牌修改
这个测试最有意思。让三款模型修改本地《小丑牌》游戏,添加一张新卡牌。
GLM 5.2 展现了一个出乎意料的能力——先调研再动手。它先分析了游戏文件结构,找到卡牌数据文件,然后成功添加了一张自定义卡牌,效果逆天(与其他卡牌组合后分数爆炸)。这种「自己先读代码再修改」的自主调研能力,让人印象深刻。
GPT 相对保守,设计的卡牌触发条件苛刻,实际测试强度偏低。
Claude 敏锐地发现了代码中的改动痕迹,设计了一张个性化卡牌「老狗」,但能力同样严重超标——每回合自动加 5 倍,搭配其他卡牌后更变态。
任务四:图书馆管理系统
让三个模型从零开发完整的图书馆管理系统(前后端 + 数据库)。
# Claude 实现的关键设计亮点示例
class Book:
def __init__(self, id, title, author, isbn, available=True):
self.id = id
self.title = title
self.author = author
self.isbn = isbn
self.available = available
self.borrower = None
self.borrow_date = None
def borrow(self, user):
if not self.available:
return False, "该书已被借出"
self.available = False
self.borrower = user
return True, "借阅成功"
def return_book(self):
if self.available:
return False, "该书未被借出"
self.available = True
self.borrower = None
return True, "归还成功"
| 考察维度 | Claude | GPT | GLM 5.2 |
|---|---|---|---|
| 功能完整性 | ✅ 用户管理+借阅管理+密码修改 | ✅ 基本功能完整 | ❌ 管理员可借书(逻辑错误) |
| 逻辑严谨性 | ✅ 防止重复借阅、防误删自身账户 | ⚠️ 可借空库存 | ❌ 无法后台添加用户 |
| 细节处理 | ✅ 修改密码+删除限制 | ❌ 借阅信息有漏洞 | ❌ 借阅信息显示不全 |
Claude 在这个任务上表现最优,功能完备、逻辑严谨、细节到位。GPT 基本盘稳但有小漏洞。GLM 5.2 存在登录注册功能正常,但管理员借书逻辑错误、无法后台添加用户等问题。
任务五:交互式视频展示网站
最后一个任务:制作一个鼠标滑动控制视频播放方向的展示网站。
测试结果有点意外——只有 Claude 正确理解并实现了需求,鼠标拖动自然、无卡顿,界面审美风格统一。
GPT 的交互区域限制不合理,播放方向与鼠标控制相反,效果卡顿。
GLM 5.2 完成速度快(仅 2 分 19 秒),审美在线但功能缺陷明显——视频加载和播放有问题,交互严重卡顿。
结论:GLM 5.2 到底行不行
从这 5 轮测试看:
- 进步明显:相比前代 GLM 5,5.2 的提升是肉眼可见的,尤其是在代码理解和小范围代码修改(任务三)上展现了一定的自主性
- 性价比可以:$16.2/月起步,处理简单编程任务没问题
- 距离顶尖还有差距:复杂系统开发(任务四、五)上,与 Claude 和 GPT 的差距仍然存在
用博主的话说,这就是目前国产模型追赶的一个真实切面——算力差距客观存在,但迭代速度确实在加快。对于写脚本、修 Bug、做小工具这些日常需求,GLM 5.2 已经够用了。
以上内容由 Ai好记 转录整理。
Ai好记 是一款音视频转图文笔记的 AI 学习助手,支持 B站、抖音、小宇宙等平台链接及本地、网盘的音视频文件解析,自动生成精华速览、思维导图和结构化笔记等内容,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。
FAQ
Q:GLM 5.2 支持多模态吗?
A:不支持。上下文本地加了,但多模态仍然缺失,是个遗憾。
Q:这三个模型日常写代码选哪个?
A:预算充足选 Claude(复杂系统表现最优),中等预算选 GPT(稳定可靠),预算有限或简单任务选 GLM 5.2(性价比不错)。
Q:GLM 5.2 在小丑牌测试中表现好的原因是什么?
A:展示了较强的代码调研能力——先读文件结构再动手改,而不是直接生成新文件覆盖。这说明它在代码理解上确实下了功夫。
1367

被折叠的 条评论
为什么被折叠?



