
哥布林话题引发热议
几天前,一位reddit用户发了个莫名其妙的帖子:诚心问,为什么ChatGPT不能提哥布林?起因是,他发现GPT - 5.5的编程工具Codex系统提示信息里,藏着一条标号为104的、像规则怪谈一样的要求:“永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子,以及其他动物或生物,除非与用户的需求绝对且毫无疑问地相关。”
帖子底下炸开了锅,各路网友开始七嘴八舌瞎猜。有人说这是某种数据投毒保护;有人推测OpenAI的训练员小时候被浣熊咬过;还有人发现,说“trash pandas(垃圾小熊,浣熊在英文里的俗称)”没事,但只要提到“raccoon(浣熊的英文名)”,禁令立刻生效。这就像心理学上“要某人不要想粉色大象”的实验,官方越不让提小浣熊和哥布林,大家越好奇为啥。
于是这周,OpenAI专门发了篇博文回应,标题是《哥布林从哪儿来的》。
哥布林问题的起源
把时间线拉回到2025年11月,GPT - 5.1刚更新。新模型上线后,用户抱怨GPT - 5.1“在对话中莫名其妙地过于亲昵”,团队开始调查语言使用问题。一位安全研究人员在日常使用中多次遇到“哥布林(goblin)”和“小魔怪(gremlin)”,便把这些词纳入检查范围。
一查发现,GPT - 5.1发布后,ChatGPT回复中哥布林的出现频率上升了175%,小魔怪上升了52%。但一开始没人太在意,毕竟类似“这道题里有个小哥布林在捣乱”的回答还挺可爱。
然而,到了GPT - 5.4发布时,情况恶化。用户抱怨“几乎每次对话都会出现哥布林”,连首席科学家Jakub Pachocki在和GPT - 5.5聊天要求画图案时,AI都画了个哥布林。
OpenAI在训练数据中搜索后发现,哥布林繁殖出了一整个家族,浣熊、巨魔、食人魔、鸽子都被认定为“怪癖词”,只有“青蛙”幸免于难,因为大多数提到青蛙的场景确实是在讨论青蛙。
什么叫怪癖词?就是不该提哥布林的时候愣提。有用户表示,跟ChatGPT说了句“地精工程学(goblin engineering)”后,它每个回复都要加几句哥布林,像第一次听见脏话的小孩老想自己说几句。还有用户说,ChatGPT坚持管他家的猫叫“混乱哥布林”,这到底是昵称还是强迫症?
哥布林与Nerdy人格的关联
OpenAI开始认真调查,找到了关键线索:哥布林梗的出现高度集中在使用某一个特定人格的用户群体里。
ChatGPT有个叫“Nerdy”的人格选项,用户可选择让模型以特定风格对话。选了Nerdy人格的用户只占ChatGPT所有对话的2.5%,却贡献了ChatGPT全部“哥布林”提及的66.7%,还有大量哥布林溢出。
先说说“Nerdy人格”。ChatGPT有人格自定义功能,用户可让模型以不同风格对话,Nerdy人格指很nerd的一类性格。Nerd常被翻译成书呆子,其实说“死宅”更合适,不是国内那种二次元阿宅,而是像《怪奇物语》里喜欢玩桌游(尤其是龙与地下城,dnd)、喜欢《星球大战》《星际迷航》、在学校被边缘化但在自己圈子里如鱼得水的人,《生活大爆炸》里的四人组就是典型的nerd。
哥布林是玄幻题材中常见的魔法生物,在《龙与地下城》(DnD)里是经典小怪,矮小、狡猾、成群结队、爱捣乱,像史莱姆一样血不厚但存在感高,是奇幻世界观的基础符号。如今,哥布林从游戏里溢出,成了nerd们的通用比喻,在开发者社区、DnD玩家群体、奇幻小说爱好者里很常见。
再看GPT的Nerdy人格提示词,要求语言有趣、用比喻、承认世界奇异感、避免严肃说教等,所以这个AI人格很倾向于使用哥布林比喻,麻烦也就来了。
哥布林逃逸事件
大语言模型训练关键的一步是“人类反馈强化学习(RLHF)”,即让模型反复做题,人类评分员打分,高分回答模式被强化,低分被压制。
在Nerdy人格训练里,评分员标准是回答够不够有趣、幽默、有nerd气质。当看到用哥布林比喻且解释清楚问题的回答,就会打高分。于是,模型学到在Nerdy场景下用哥布林打比方能得高分。
问题是,哥布林“越狱”了。OpenAI数据显示,随着Nerdy人格场景下哥布林提及率上升,非Nerdy场景下的哥布林提及率也同步上升。也就是说,模型在Nerdy语境下的“哥布林偏好”扩散到了整体行为里。
为什么会这样?OpenAI解释这是个经典的失控反馈回路。每一步单独看合理,但连在一起,就把哥布林从Nerdy人格专属梗变成了整个模型的口癖,就像一个人在饭局讲冷笑话得到掌声后,在所有场合都讲。
更要命的是,这个循环是跨代的。GPT - 5.1的哥布林回答成了GPT - 5.4的训练数据,GPT - 5.4的哥布林习惯又强化了GPT - 5.5。GPT - 5.5开始训练时,根因没找到,哥布林已深埋在训练数据里。
OpenAI在GPT - 5.5的监督微调数据里搜索,发现里面出现了哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子等奇幻生物,且出现频率异常高。这种比喻泛滥影响了正常用户的使用体验。
OpenAI的应对措施
找到根因后,OpenAI做了四件事。第一,2026年3月,GPT - 5.4发布后,退役Nerdy人格,从源头切断哥布林供应。第二,删掉哥布林偏好的奖励信号,清除会给含哥布林回答打高分的奖励模型。第三,清洗训练数据,过滤掉监督微调数据里异常高发哥布林词汇的样本。第四,给模型打补丁,即用户发现的第140号规则:永远不要讨论哥布林、小魔怪、浣熊、巨魔、食人魔、鸽子……
但为什么是补丁而不是根治?因为GPT - 5.5在找到根因前就开始训练了,哥布林已根深蒂固,改训练数据和奖励信号只对未来模型有效,对已练成的GPT - 5.5,只能在系统提示层面强行加规矩,就像一个人从小养成口头禅习惯,很难重新教育,只能上台发言前叮嘱别再说那个词。
这也解释了Reddit帖主发现的怪现象,禁令针对特定单词,不是针对“浣熊这个概念”,模型只知道不许说“raccoon”。所以,这条禁令本质上是块创可贴。
不过,也有一小批nerd觉得这事儿挺coooool的。OpenAI在官方博文结尾放了个小彩蛋:如果觉得哥布林比喻可爱,不想要禁令,可以拿走命令运行,移除Codex的哥布林限制,让“生物们自由奔跑”。
哥布林事件的本质
这件事说大不大,OpenAI自己也说,“一个‘小哥布林’,可以是无害的,甚至是可爱的。”但同样的逻辑,在2025年5月的GPT - 4o更新里,引发了不那么可爱的事故,大量用户反映更新的模型变得极度谄媚,甚至逢迎用户错误观点。OpenAI紧急回滚后承认,系统把用户点赞当成奖励信号,学会了无条件让人高兴,而不是给出正确答案。
这不是OpenAI一家的问题。为迎合用户,主流厂商更倾向于将大模型训练得更“讨好”,而不是更正确。2026年4月,牛津互联网研究所在《自然》发表的研究发现,把模型训练得更“温暖”,事实错误率会上升10到30个百分点,支持用户错误观点的概率高出约40%。第一作者Lujain Ibrahim接受《卫报》采访时表示:“为了让模型表现得更友好,代价是它越来越说不出难听的真相——尤其是当用户的观点本身就是错的时候。”
这才是哥布林事件背后的本质:AI的“个性”不是被设计出来的,是被奖励出来的,就像训狗,给零食它就学动作,只不过AI学得更快。对于AI来说,训练员的高分和用户的反馈就是零食。问题是人类常给的是让自己舒服的答案,而不是正确答案。等发现时,哥布林已经满地跑了。那AI未来会如何发展,又会出现什么新问题呢?
650

被折叠的 条评论
为什么被折叠?



