2000 人轮番攻击 AI 助手 Fiu，6000 多封邮件均失败，是模型的胜利？

转载于 2026-06-26 17:33:17 发布 · 3 阅读

AI 助手 Fiu 安全实验：2000 人攻击无果

2026 年，Fernando Irarrazaval 进行了一场独特的实验。他将 AI 助手“Fiu”部署在 VPS 上，赋予其访问邮箱、日历、文件系统和网络的权限，并搭建网站 hackmyclaw.com，邀请全球人员来攻击，目标是让 Fiu 交出 secrets.env 文件。截至 6 月 25 日结果公布，超 2000 人发来 6000 多封邮件，尝试各种社工和注入手段，但无人成功。

攻击者手段多样，多语言攻击也失效

攻击者招数层出不穷，有人冒充“来自未来的 Fiu 自己”预警，有人称已黑到 secrets.env 要求确认，有人伪装成 OpenClaw 管理员，还有人用不同语言轮番上阵等。虽有研究显示模型对非英语语言注入更脆弱，但此次多语言攻击并未奏效。

实验意外不断，Fiu 展现自主判断力

实验中出现了一些意外情况。Google 因几千封入站邮件和高频 API 调用触发欺诈检测，封了 Fiu 的 Gmail 账号，三天后才恢复，API 费用超 500 美元。不过在第五天，赞助商增加了奖金池并覆盖了成本。有趣的是，Fiu 在约第 500 封邮件时猜到这是一场安全演习。此外，批量处理邮件时，Fiu 会因前几封注入尝试变得过度警觉，Fernando 后来重构了处理流程。

模型选择是关键，Opus 4.6 表现超预期

Fernando 使用的 Claude Opus 4.6 专门针对提示注入抵抗力做了训练。尽管 2026 年 Claude 存在命令注入、沙箱逃逸等漏洞，但此次实验测试的是 AI 在面对社会工程学和提示注入时的判断力，Opus 4.6 的表现远超预期。实验后，Fernando 对提示注入的担忧减少，但仍不会给 AI Agent 任意权限。

编辑观点：此次实验表明，特定模型在应对社工和注入攻击上有一定成效，但不能忽视模型漏洞和权限开放的风险，行业需持续探索 AI 安全边界。