智谱GLM 5.2 实测:5轮编程测试对比GPT与Claude

本文整理自 B 站「神烦老狗」的《模型乱斗:智谱新模型 GLM 5.2 对比 GPT 与 Claude 表现如何?》,通过音视频转录总结工具 Ai好记 进行视频转笔记整理,以下为精炼整理后的内容。


两天前智谱发布了 GLM 5.2,官方声称上下文长度增加、能力逼近顶尖旗舰。但宣传归宣传,实际水平如何?

博主「神烦老狗」做了一组很有意思的对比测试:

同时打开 GPT Codex、智谱 Zcode 和 Claude 三个窗口,针对 5 个不同难度的编程任务做了平行实验。

测试设置了相近的思考强度——GPT 和 Claude 选择「高」,智谱选择「最高」(它只有高/低两档)。

先从价格看一眼各家定位:

模型最低档中档高档
ClaudePro $18/月Max $110/月
智谱 GLM 5.2Lightpro $16.2/月中档 $64.8/月Max $144/月
GPTLite $8/月Plus $20/月Pro $100/月

任务一:液态玻璃个人主页

命题很简单:不用任何 CSS 框架,给博主做一个个人主页,风格采用苹果的液态玻璃效果。

GLM 5.2 表现:生成速度最快,几秒就出结果。但审美好坏先不说,效果只能叫「半透明毛玻璃」,不是液态玻璃。博主原话:「可以说是非常的丑」。

Claude 表现:同样把液态玻璃理解成了毛玻璃。圆角偏小、配色堆在一块,比智谱略好但本质没区别。

GPT 表现:与前两者大同小异,也没做出真正的液态玻璃质感。

有意思的是,三款模型对这个前端概念的理解完全一致——都导向了毛玻璃,这说明训练数据里液态玻璃的标注可能就模棱两可。

任务二:超级马里奥游戏

让三个模型各自写一个高还原度的《超级马里奥》HTML 游戏。

各模型耗时对比:
Claude:7 分 52 秒(先完成)
GPT:7 分 52 秒(几乎同时)
GLM 5.2:约 20 分钟
评测维度ClaudeGPTGLM 5.2
完成速度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
音效✅ 有音效✅ 音乐控制正常⚠️ 静音按钮失效
游戏逻辑⚠️ 问号位置不合理✅ 相对完善❌ 移动速度过快
关卡设计⚠️ 障碍物布局奇怪✅ 可正常游玩❌ 元素异常

Claude 最先出成品——有音效、有基本玩法,但关卡设计上有明显缺陷(比如那个问号方块放的位置没人能顶到)。

GPT 中规中矩,游戏机制可运行,完成度优于前两者。

GLM 5.2 耗时最长(约 20 分钟),且游戏存在移动速度过快、静音按钮失效等问题。

任务三:小丑牌卡牌修改

这个测试最有意思。让三款模型修改本地《小丑牌》游戏,添加一张新卡牌。

GLM 5.2 展现了一个出乎意料的能力——先调研再动手。它先分析了游戏文件结构,找到卡牌数据文件,然后成功添加了一张自定义卡牌,效果逆天(与其他卡牌组合后分数爆炸)。这种「自己先读代码再修改」的自主调研能力,让人印象深刻。

GPT 相对保守,设计的卡牌触发条件苛刻,实际测试强度偏低。

Claude 敏锐地发现了代码中的改动痕迹,设计了一张个性化卡牌「老狗」,但能力同样严重超标——每回合自动加 5 倍,搭配其他卡牌后更变态。

任务四:图书馆管理系统

让三个模型从零开发完整的图书馆管理系统(前后端 + 数据库)。

# Claude 实现的关键设计亮点示例
class Book:
    def __init__(self, id, title, author, isbn, available=True):
        self.id = id
        self.title = title
        self.author = author
        self.isbn = isbn
        self.available = available
        self.borrower = None
        self.borrow_date = None

    def borrow(self, user):
        if not self.available:
            return False, "该书已被借出"
        self.available = False
        self.borrower = user
        return True, "借阅成功"
    
    def return_book(self):
        if self.available:
            return False, "该书未被借出"
        self.available = True
        self.borrower = None
        return True, "归还成功"
考察维度ClaudeGPTGLM 5.2
功能完整性✅ 用户管理+借阅管理+密码修改✅ 基本功能完整❌ 管理员可借书(逻辑错误)
逻辑严谨性✅ 防止重复借阅、防误删自身账户⚠️ 可借空库存❌ 无法后台添加用户
细节处理✅ 修改密码+删除限制❌ 借阅信息有漏洞❌ 借阅信息显示不全

Claude 在这个任务上表现最优,功能完备、逻辑严谨、细节到位。GPT 基本盘稳但有小漏洞。GLM 5.2 存在登录注册功能正常,但管理员借书逻辑错误、无法后台添加用户等问题。

任务五:交互式视频展示网站

最后一个任务:制作一个鼠标滑动控制视频播放方向的展示网站。

测试结果有点意外——只有 Claude 正确理解并实现了需求,鼠标拖动自然、无卡顿,界面审美风格统一。

GPT 的交互区域限制不合理,播放方向与鼠标控制相反,效果卡顿。

GLM 5.2 完成速度快(仅 2 分 19 秒),审美在线但功能缺陷明显——视频加载和播放有问题,交互严重卡顿。

结论:GLM 5.2 到底行不行

从这 5 轮测试看:

  1. 进步明显:相比前代 GLM 5,5.2 的提升是肉眼可见的,尤其是在代码理解和小范围代码修改(任务三)上展现了一定的自主性
  2. 性价比可以:$16.2/月起步,处理简单编程任务没问题
  3. 距离顶尖还有差距:复杂系统开发(任务四、五)上,与 Claude 和 GPT 的差距仍然存在

用博主的话说,这就是目前国产模型追赶的一个真实切面——算力差距客观存在,但迭代速度确实在加快。对于写脚本、修 Bug、做小工具这些日常需求,GLM 5.2 已经够用了。


以上内容由 Ai好记 转录整理。
Ai好记 是一款音视频转图文笔记的 AI 学习助手,支持 B站、抖音、小宇宙等平台链接及本地、网盘的音视频文件解析,自动生成精华速览、思维导图和结构化笔记等内容,帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

FAQ

Q:GLM 5.2 支持多模态吗?
A:不支持。上下文本地加了,但多模态仍然缺失,是个遗憾。

Q:这三个模型日常写代码选哪个?
A:预算充足选 Claude(复杂系统表现最优),中等预算选 GPT(稳定可靠),预算有限或简单任务选 GLM 5.2(性价比不错)。

Q:GLM 5.2 在小丑牌测试中表现好的原因是什么?
A:展示了较强的代码调研能力——先读文件结构再动手改,而不是直接生成新文件覆盖。这说明它在代码理解上确实下了功夫。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值