智谱GLM 5.2 实测：5轮编程测试对比GPT与Claude

原创于 2026-06-18 17:00:00 发布 · 47 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#gpt #人工智能 #智谱 #GLM #大模型

话题

#AI编程·六月创作之星博客挑战赛

本文整理自 B 站「神烦老狗」的《模型乱斗：智谱新模型 GLM 5.2 对比 GPT 与 Claude 表现如何？》，通过音视频转录总结工具 Ai好记进行视频转笔记整理，以下为精炼整理后的内容。

两天前智谱发布了 GLM 5.2，官方声称上下文长度增加、能力逼近顶尖旗舰。但宣传归宣传，实际水平如何？

博主「神烦老狗」做了一组很有意思的对比测试：

同时打开 GPT Codex、智谱 Zcode 和 Claude 三个窗口，针对 5 个不同难度的编程任务做了平行实验。

测试设置了相近的思考强度——GPT 和 Claude 选择「高」，智谱选择「最高」（它只有高/低两档）。

先从价格看一眼各家定位：

模型	最低档	中档	高档
Claude	Pro $18/月	Max $110/月	—
智谱 GLM 5.2	Lightpro $16.2/月	中档 $64.8/月	Max $144/月
GPT	Lite $8/月	Plus $20/月	Pro $100/月

任务一：液态玻璃个人主页

命题很简单：不用任何 CSS 框架，给博主做一个个人主页，风格采用苹果的液态玻璃效果。

GLM 5.2 表现：生成速度最快，几秒就出结果。但审美好坏先不说，效果只能叫「半透明毛玻璃」，不是液态玻璃。博主原话：「可以说是非常的丑」。

Claude 表现：同样把液态玻璃理解成了毛玻璃。圆角偏小、配色堆在一块，比智谱略好但本质没区别。

GPT 表现：与前两者大同小异，也没做出真正的液态玻璃质感。

有意思的是，三款模型对这个前端概念的理解完全一致——都导向了毛玻璃，这说明训练数据里液态玻璃的标注可能就模棱两可。

任务二：超级马里奥游戏

让三个模型各自写一个高还原度的《超级马里奥》HTML 游戏。

各模型耗时对比：
Claude：7 分 52 秒（先完成）
GPT：7 分 52 秒（几乎同时）
GLM 5.2：约 20 分钟

评测维度	Claude	GPT	GLM 5.2
完成速度	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐
音效	✅ 有音效	✅ 音乐控制正常	⚠️ 静音按钮失效
游戏逻辑	⚠️ 问号位置不合理	✅ 相对完善	❌ 移动速度过快
关卡设计	⚠️ 障碍物布局奇怪	✅ 可正常游玩	❌ 元素异常

Claude 最先出成品——有音效、有基本玩法，但关卡设计上有明显缺陷（比如那个问号方块放的位置没人能顶到）。

GPT 中规中矩，游戏机制可运行，完成度优于前两者。

GLM 5.2 耗时最长（约 20 分钟），且游戏存在移动速度过快、静音按钮失效等问题。

任务三：小丑牌卡牌修改

这个测试最有意思。让三款模型修改本地《小丑牌》游戏，添加一张新卡牌。

GLM 5.2 展现了一个出乎意料的能力——先调研再动手。它先分析了游戏文件结构，找到卡牌数据文件，然后成功添加了一张自定义卡牌，效果逆天（与其他卡牌组合后分数爆炸）。这种「自己先读代码再修改」的自主调研能力，让人印象深刻。

GPT 相对保守，设计的卡牌触发条件苛刻，实际测试强度偏低。

Claude 敏锐地发现了代码中的改动痕迹，设计了一张个性化卡牌「老狗」，但能力同样严重超标——每回合自动加 5 倍，搭配其他卡牌后更变态。

任务四：图书馆管理系统

让三个模型从零开发完整的图书馆管理系统（前后端 + 数据库）。

# Claude 实现的关键设计亮点示例
class Book:
    def __init__(self, id, title, author, isbn, available=True):
        self.id = id
        self.title = title
        self.author = author
        self.isbn = isbn
        self.available = available
        self.borrower = None
        self.borrow_date = None

    def borrow(self, user):
        if not self.available:
            return False, "该书已被借出"
        self.available = False
        self.borrower = user
        return True, "借阅成功"
    
    def return_book(self):
        if self.available:
            return False, "该书未被借出"
        self.available = True
        self.borrower = None
        return True, "归还成功"

考察维度	Claude	GPT	GLM 5.2
功能完整性	✅ 用户管理+借阅管理+密码修改	✅ 基本功能完整	❌ 管理员可借书（逻辑错误）
逻辑严谨性	✅ 防止重复借阅、防误删自身账户	⚠️ 可借空库存	❌ 无法后台添加用户
细节处理	✅ 修改密码+删除限制	❌ 借阅信息有漏洞	❌ 借阅信息显示不全

Claude 在这个任务上表现最优，功能完备、逻辑严谨、细节到位。GPT 基本盘稳但有小漏洞。GLM 5.2 存在登录注册功能正常，但管理员借书逻辑错误、无法后台添加用户等问题。

任务五：交互式视频展示网站

最后一个任务：制作一个鼠标滑动控制视频播放方向的展示网站。

测试结果有点意外——只有 Claude 正确理解并实现了需求，鼠标拖动自然、无卡顿，界面审美风格统一。

GPT 的交互区域限制不合理，播放方向与鼠标控制相反，效果卡顿。

GLM 5.2 完成速度快（仅 2 分 19 秒），审美在线但功能缺陷明显——视频加载和播放有问题，交互严重卡顿。

结论：GLM 5.2 到底行不行

从这 5 轮测试看：

进步明显：相比前代 GLM 5，5.2 的提升是肉眼可见的，尤其是在代码理解和小范围代码修改（任务三）上展现了一定的自主性
性价比可以：$16.2/月起步，处理简单编程任务没问题
距离顶尖还有差距：复杂系统开发（任务四、五）上，与 Claude 和 GPT 的差距仍然存在

用博主的话说，这就是目前国产模型追赶的一个真实切面——算力差距客观存在，但迭代速度确实在加快。对于写脚本、修 Bug、做小工具这些日常需求，GLM 5.2 已经够用了。

以上内容由 Ai好记转录整理。
Ai好记是一款音视频转图文笔记的 AI 学习助手，支持 B站、抖音、小宇宙等平台链接及本地、网盘的音视频文件解析，自动生成精华速览、思维导图和结构化笔记等内容，帮助你把几小时的视频内容变成可搜索、可复习的图文笔记。

FAQ

Q：GLM 5.2 支持多模态吗？
A：不支持。上下文本地加了，但多模态仍然缺失，是个遗憾。

Q：这三个模型日常写代码选哪个？
A：预算充足选 Claude（复杂系统表现最优），中等预算选 GPT（稳定可靠），预算有限或简单任务选 GLM 5.2（性价比不错）。

Q：GLM 5.2 在小丑牌测试中表现好的原因是什么？
A：展示了较强的代码调研能力——先读文件结构再动手改，而不是直接生成新文件覆盖。这说明它在代码理解上确实下了功夫。