2026年6月22日,OpenAI 把 GPT-5.5-Cyber 从预览状态推进到了完整发布。这不是一次简单的版本迭代,而是 Daybreak 网络安全计划真正落地的一个信号。过去几个月,安全圈一直在争论 AI 到底能不能真正"动手"修漏洞,而不是只会纸上谈兵。现在答案来了:GPT-5.5-Cyber 不仅能找,还能打补丁,而且速度是机器级别的。

说具体点,这次完整版在三个硬指标上都刷出了新高度。CyberGym 基准测试拿到了 85.6%,比标准版 GPT-5.5 的 81.8% 高出一大截,这也是目前单模型在该测试中的最高分。ExploitGym 的表现更夸张,从 25.95% 直接跳到 39.5%——这个测试专门看模型能不能基于已知漏洞写出可用的利用代码。SEC-bench Pro 的长期漏洞挖掘能力也到了 69.8%,对比标准版的 63.1%,进步幅度相当明显。
这些数据背后其实说明了一件事:GPT-5.5-Cyber 已经能在一个闭环里完成从代码扫描、攻击路径追踪、漏洞验证到补丁生成和修复确认的全流程。不再是零散的工具集合,而是一个能自己跑起来的安全工作流。

跟模型一起更新的还有 Codex Security 插件。这个插件从 2026 年 3 月发布研究预览到现在,已经扫了超过三万个代码库、三千万次提交,处理了七万多个人工验证过的修复,自动解决了五十多万个问题。数字堆在一起看起来有点抽象,但换成实际场景就很好理解——开发者每次提交代码,插件都在后台做深度扫描,发现风险直接生成补丁,还能导出 SARIF 格式报告,跟 CodeQL 和现有的漏洞管理流程无缝对接。
它生成的报告不是那种"这里可能有风险"的模糊提醒,而是精确到代码行、带攻击路径追踪、带针对性补丁建议的技术文档。安全团队拿到手可以直接审阅,不需要再从零开始分析。

OpenAI 还拉了个叫 Patch the Planet 的项目,跟 Trail of Bits 联合发起,HackerOne 和 Calif 也参与了进来。目标很直接:解决开源软件里"漏洞有人报,补丁没人打"的尴尬局面。Linux 基金会和哈佛之前有个研究,说 94% 的常用开源项目里,负责 90% 以上代码的开发者不到 10 个人。这么小的维护团队,面对 AI 批量生成的漏洞报告,根本处理不过来,最后只会积压成山。
所以 Patch the Planet 的做法是,让安全专家带着 Codex Security 和 OpenAI 的模型直接进驻项目,先由人工过滤一遍发现的问题,再交给维护者。第一批参与的项目包括 cURL、Go、Python、Sigstore 和 pyca/cryptography 这些基础设施级别的库。五天的冲刺就挖出了几百个问题,合并了几十个补丁,还留下了一套可复用的模糊测试和变体分析工具。参与项目的团队能拿到 ChatGPT Pro 认证、有条件的 Codex Security 访问权限和 API 积分,算是用资源换生态。

当然,能力越强,管得越严。GPT-5.5-Cyber 不是谁都能用的,只开放给经过验证的可信防御者。OpenAI 搞了一套三层访问架构:普通用户用标准 GPT-5.5,做一般性的安全查询;通过 Trusted Access for Cyber 验证的团队可以用放宽限制的版本,做漏洞分级、恶意软件分析、补丁验证这些常规防御工作;只有最高级别的授权红队和渗透测试团队才能拿到 GPT-5.5-Cyber 完整版,做受控环境里的攻击模拟和漏洞利用验证。
从 6 月 1 日起,最高权限级别还要求启用防钓鱼的高级账户安全认证。OpenAI 把这层权限当作关键基础设施来管,而不是简单的付费套餐。合作伙伴包括澳大利亚、加拿大、法国、德国、日本、韩国和欧盟 ENISA 等机构,部署前的测试还跟 CAISI 和 ONCD 协调,配合 2026 年 6 月的 AI 安全行政命令。

对大多数企业来说,GPT-5.5 配合 Trusted Access 和 Codex Security 已经够用了。GPT-5.5-Cyber 完整版是给那些需要最高功能级别、能接受增强监控和范围控制的防御团队准备的。
这次发布其实透露了一个行业拐点:AI 找漏洞的速度已经超过了人类修漏洞的速度,瓶颈已经从"发现"转移到了"修复"。OpenAI 用 Daybreak 把前沿模型、Codex 工作流、开源合作和关键基础设施协作串在一起,把 AI 驱动的修复——而不只是检测——推到了网络防御的下一个前沿。换句话说,未来的安全竞赛,比的可能是谁打补丁更快,而不是谁找漏洞更准。
433

被折叠的 条评论
为什么被折叠?



