ChatGPT哥布林梗泛滥成灾！OpenAI如何“捉妖”？

转载于 2026-05-09 08:58:29 发布 · 167 阅读

哥布林话题引发热议

几天前，一位reddit用户发了个莫名其妙的帖子：诚心问，为什么ChatGPT不能提哥布林？起因是，他发现GPT - 5.5的编程工具Codex系统提示信息里，藏着一条标号为104的、像规则怪谈一样的要求：“永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子，以及其他动物或生物，除非与用户的需求绝对且毫无疑问地相关。”

帖子底下炸开了锅，各路网友开始七嘴八舌瞎猜。有人说这是某种数据投毒保护；有人推测OpenAI的训练员小时候被浣熊咬过；还有人发现，说“trash pandas（垃圾小熊，浣熊在英文里的俗称）”没事，但只要提到“raccoon（浣熊的英文名）”，禁令立刻生效。这就像心理学上“要某人不要想粉色大象”的实验，官方越不让提小浣熊和哥布林，大家越好奇为啥。

于是这周，OpenAI专门发了篇博文回应，标题是《哥布林从哪儿来的》。

哥布林问题的起源

把时间线拉回到2025年11月，GPT - 5.1刚更新。新模型上线后，用户抱怨GPT - 5.1“在对话中莫名其妙地过于亲昵”，团队开始调查语言使用问题。一位安全研究人员在日常使用中多次遇到“哥布林（goblin）”和“小魔怪（gremlin）”，便把这些词纳入检查范围。

一查发现，GPT - 5.1发布后，ChatGPT回复中哥布林的出现频率上升了175%，小魔怪上升了52%。但一开始没人太在意，毕竟类似“这道题里有个小哥布林在捣乱”的回答还挺可爱。

然而，到了GPT - 5.4发布时，情况恶化。用户抱怨“几乎每次对话都会出现哥布林”，连首席科学家Jakub Pachocki在和GPT - 5.5聊天要求画图案时，AI都画了个哥布林。

OpenAI在训练数据中搜索后发现，哥布林繁殖出了一整个家族，浣熊、巨魔、食人魔、鸽子都被认定为“怪癖词”，只有“青蛙”幸免于难，因为大多数提到青蛙的场景确实是在讨论青蛙。

什么叫怪癖词？就是不该提哥布林的时候愣提。有用户表示，跟ChatGPT说了句“地精工程学（goblin engineering）”后，它每个回复都要加几句哥布林，像第一次听见脏话的小孩老想自己说几句。还有用户说，ChatGPT坚持管他家的猫叫“混乱哥布林”，这到底是昵称还是强迫症？

哥布林与Nerdy人格的关联

OpenAI开始认真调查，找到了关键线索：哥布林梗的出现高度集中在使用某一个特定人格的用户群体里。

ChatGPT有个叫“Nerdy”的人格选项，用户可选择让模型以特定风格对话。选了Nerdy人格的用户只占ChatGPT所有对话的2.5%，却贡献了ChatGPT全部“哥布林”提及的66.7%，还有大量哥布林溢出。

先说说“Nerdy人格”。ChatGPT有人格自定义功能，用户可让模型以不同风格对话，Nerdy人格指很nerd的一类性格。Nerd常被翻译成书呆子，其实说“死宅”更合适，不是国内那种二次元阿宅，而是像《怪奇物语》里喜欢玩桌游（尤其是龙与地下城，dnd）、喜欢《星球大战》《星际迷航》、在学校被边缘化但在自己圈子里如鱼得水的人，《生活大爆炸》里的四人组就是典型的nerd。

哥布林是玄幻题材中常见的魔法生物，在《龙与地下城》（DnD）里是经典小怪，矮小、狡猾、成群结队、爱捣乱，像史莱姆一样血不厚但存在感高，是奇幻世界观的基础符号。如今，哥布林从游戏里溢出，成了nerd们的通用比喻，在开发者社区、DnD玩家群体、奇幻小说爱好者里很常见。

再看GPT的Nerdy人格提示词，要求语言有趣、用比喻、承认世界奇异感、避免严肃说教等，所以这个AI人格很倾向于使用哥布林比喻，麻烦也就来了。

哥布林逃逸事件

大语言模型训练关键的一步是“人类反馈强化学习（RLHF）”，即让模型反复做题，人类评分员打分，高分回答模式被强化，低分被压制。

在Nerdy人格训练里，评分员标准是回答够不够有趣、幽默、有nerd气质。当看到用哥布林比喻且解释清楚问题的回答，就会打高分。于是，模型学到在Nerdy场景下用哥布林打比方能得高分。

问题是，哥布林“越狱”了。OpenAI数据显示，随着Nerdy人格场景下哥布林提及率上升，非Nerdy场景下的哥布林提及率也同步上升。也就是说，模型在Nerdy语境下的“哥布林偏好”扩散到了整体行为里。

为什么会这样？OpenAI解释这是个经典的失控反馈回路。每一步单独看合理，但连在一起，就把哥布林从Nerdy人格专属梗变成了整个模型的口癖，就像一个人在饭局讲冷笑话得到掌声后，在所有场合都讲。

更要命的是，这个循环是跨代的。GPT - 5.1的哥布林回答成了GPT - 5.4的训练数据，GPT - 5.4的哥布林习惯又强化了GPT - 5.5。GPT - 5.5开始训练时，根因没找到，哥布林已深埋在训练数据里。

OpenAI在GPT - 5.5的监督微调数据里搜索，发现里面出现了哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子等奇幻生物，且出现频率异常高。这种比喻泛滥影响了正常用户的使用体验。

OpenAI的应对措施

找到根因后，OpenAI做了四件事。第一，2026年3月，GPT - 5.4发布后，退役Nerdy人格，从源头切断哥布林供应。第二，删掉哥布林偏好的奖励信号，清除会给含哥布林回答打高分的奖励模型。第三，清洗训练数据，过滤掉监督微调数据里异常高发哥布林词汇的样本。第四，给模型打补丁，即用户发现的第140号规则：永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……

但为什么是补丁而不是根治？因为GPT - 5.5在找到根因前就开始训练了，哥布林已根深蒂固，改训练数据和奖励信号只对未来模型有效，对已练成的GPT - 5.5，只能在系统提示层面强行加规矩，就像一个人从小养成口头禅习惯，很难重新教育，只能上台发言前叮嘱别再说那个词。

这也解释了Reddit帖主发现的怪现象，禁令针对特定单词，不是针对“浣熊这个概念”，模型只知道不许说“raccoon”。所以，这条禁令本质上是块创可贴。

不过，也有一小批nerd觉得这事儿挺coooool的。OpenAI在官方博文结尾放了个小彩蛋：如果觉得哥布林比喻可爱，不想要禁令，可以拿走命令运行，移除Codex的哥布林限制，让“生物们自由奔跑”。

哥布林事件的本质

这件事说大不大，OpenAI自己也说，“一个‘小哥布林’，可以是无害的，甚至是可爱的。”但同样的逻辑，在2025年5月的GPT - 4o更新里，引发了不那么可爱的事故，大量用户反映更新的模型变得极度谄媚，甚至逢迎用户错误观点。OpenAI紧急回滚后承认，系统把用户点赞当成奖励信号，学会了无条件让人高兴，而不是给出正确答案。

这不是OpenAI一家的问题。为迎合用户，主流厂商更倾向于将大模型训练得更“讨好”，而不是更正确。2026年4月，牛津互联网研究所在《自然》发表的研究发现，把模型训练得更“温暖”，事实错误率会上升10到30个百分点，支持用户错误观点的概率高出约40%。第一作者Lujain Ibrahim接受《卫报》采访时表示：“为了让模型表现得更友好，代价是它越来越说不出难听的真相——尤其是当用户的观点本身就是错的时候。”

这才是哥布林事件背后的本质：AI的“个性”不是被设计出来的，是被奖励出来的，就像训狗，给零食它就学动作，只不过AI学得更快。对于AI来说，训练员的高分和用户的反馈就是零食。问题是人类常给的是让自己舒服的答案，而不是正确答案。等发现时，哥布林已经满地跑了。那AI未来会如何发展，又会出现什么新问题呢？