点击上方 前端Q,关注公众号
回复加群,加入前端Q技术交流群
Google I/O 2026 上 Sundar Pichai 现场演示的那个 demo,我反复看了三遍。
不是因为它炫,而是因为它真的把我看楞了——
93 个 AI subagent 并行干了 12 小时,从零写出一个能跑 Doom 的操作系统。账单不到 $1000 美元。
我看完第一反应是想笑:操作系统?93 个 AI?$917?这数字哪个先信?
但 Google 在 antigravity.google/blog 上把所有数据都摊开了:
| 指标 | 数字 |
|---|---|
| 并行 subagent 数量 | 93 个 |
| 总耗时 | 12 小时 |
| 模型调用次数 | 15,314 次 |
| 输入 token 总量 | 3.39 亿 |
| 含 cache reads / output / thinking | 26 亿+ token |
| 完整 API 账单 | $916.92 |
| 最终产出 | 内核 + 进程管理 + 内存管理 + 文件系统 + 视频和键盘驱动 |
| 能跑 | FreeDoom |
而且这套 multi-agent 系统全程没有人类介入——只给了一句 high-level prompt。
更妙的是 Google 这次没把这个能力藏在 demo 里。5 月 24 日左右,他们把同款编排能力作为 /teamwork-preview 命令开放给所有 Antigravity 2.0 用户(AI Ultra 订阅,$200/月)。
这一篇我把这件事完整拆开讲:Google 到底做了什么、$917 是怎么算出来的、93 个 subagent 是怎么协作的、对你今天写代码意味着什么。
先把 $917 这个数字拆开看
很多人看到"$917 写一个 OS"会怀疑:是不是 cherry-pick 了一个小项目骗 token?
我把 Google 公布的细节核对了一遍,这个数字背后实际是:
▎工作量是真的
最终产出物:
▸内核(kernel)
▸进程管理(process management)
▸内存管理(memory management)
▸文件系统(filesystem)
▸视频驱动(video drivers)
▸键盘驱动(keyboard drivers)
而且能直接跑 FreeDoom——一个对硬件抽象、内存管理、显示驱动都有真实要求的游戏。
这不是"hello world 操作系统",这是能在真实硬件上 boot 起来、跑出图形和游戏交互的功能性 OS。
▎Token 消耗结构很扎实
15,314 次模型调用、3.39 亿输入 token、加上 cache reads / output / thinking 一共 26 亿 token。
按 Gemini 3.5 Flash 的定价(输入 $0.30/M、输出 $2.50/M),算下来正好落在 $900 这个区间。
$916.92 这个精确到分的数字说明 Google 不是在估算,是真的把账单拉出来给你看。
▎关键变量是用什么模型
这条最让我意外:
"Gemini 3.1 Pro was unable to complete the OS build. Gemini 3.5 Flash — the lighter, more economical model — succeeded."
Gemini 3.1 Pro 写不出来。Gemini 3.5 Flash 写出来了。
更快、更便宜的模型,反而比一代前的旗舰更强。这又是一次"模型规模决定能力"的旧认知被打破。
但更关键的解释是后面这句:
"12x the speed of other frontier models inside the Antigravity harness — was the mechanical reason it was possible."
93 个 subagent 并行能跑得动,靠的是 Flash 的速度。如果用 Opus 4.6 这种慢推理的模型,93 个并行可能要跑 1 周,账单飞到 $50000。
Flash 的"便宜 + 快"配合 Antigravity 的多 Agent 编排,用工程把模型的极限拉到了一个新位置。
93 个 subagent 是怎么协作的
接下来这部分是最有意思的。
很多人想象的多 Agent 是"AI 分头干活、最后合并"。Antigravity 2.0 的实际机制比这复杂。
▎第一层:Orchestrator(总指挥)
接到 high-level prompt 后,orchestrator 做几件事:
- 拆解任务——把"写一个 OS"拆成几十个有依赖关系的子任务(先写内核、再写内存管理、再写文件系统……)
- 分配 subagent——每个子任务派一个或多个专门的 subagent
- 规划顺序——哪些必须串行(内核必须先于驱动)、哪些可以并行(视频驱动和键盘驱动可以同时写)
▎第二层:93 个 Specialized Subagent(专门工人)
每个 subagent 有自己的:
▸独立上下文窗口(互不污染)
▸任务目标和验收条件
▸可调用的工具集(写代码、跑测试、读日志、改文件)
它们在自己的隔离 sandbox 里干活,互相之间不直接通信。
这是关键设计——Multi-agent 系统最容易翻车的地方就是"agent 之间瞎聊天"。93 个 agent 如果两两都能对话,会产生 4278 条潜在通信通道,混乱到没法管。
Antigravity 的做法是:所有 agent 只跟 orchestrator 通信,结果汇总后再分发。
▎第三层:Merge & Validate(合并和验证)
每一批 subagent 跑完后,orchestrator 做三件事:
- 合并代码(处理跨文件依赖)
- 跑测试(验证这一批工作没破坏前面的工作)
- 错误处理(哪个 subagent 跑挂了,重新派一个 subagent 接着干)
整个流程跑下来 12 小时,没有一处需要人类介入。
▎一个细节让我反复看
Google 后来用同一套编排系统,做了 4 个新项目:
▸AlphaZero 复现实现
▸照片编辑套件
▸实时消息应用
▸多用户协作平台
关键不是这些产出物本身有多强,而是——同一套编排能力可以跨场景复用。
这意味着 Antigravity 2.0 不只是"写 OS 的特例",而是一个通用的多 Agent 工程化框架。
这个能力今天怎么用?
Google 这次最大的诚意,是把这个能力直接开放给用户用。
5 月份在 Antigravity 2.0 desktop app 里,输入 /teamwork-preview,就能用到和 demo 同款的多 Agent 编排。
具体条件:
| 项目 | 要求 |
|---|---|
| 订阅 | Google AI Ultra ($200/月) |
| 平台 | Antigravity 2.0 desktop app(macOS / Linux / Windows) |
| 状态 | Research preview |
| 注意 | 复杂任务可能跑光每周配额,需要买额外的 AI credits |
注意最后一条——复杂任务可能跑光每周配额。这是 Google 自己写在 release note 里的。意思是你想跑一个"写 OS"级别的任务,光 $200 月费还不够,还得另外买 token。
但对常见的中等复杂度任务(一个完整 Web App、一个微服务、一套数据迁移脚本),$200 月费完全够用。
它对你今天写代码意味着什么
我把这件事的信号梳理给你看,三个层面:
▎信号 1:单 Agent 时代正在结束
过去半年所有 AI Coding 工具的主流形态是"一个 Agent 帮你写代码"——Cursor 的 Composer、Claude Code、Codex 全都是。
但单 Agent 有个天花板:一次任务上下文最多塞下 200 K token,超过这个量就开始记忆混乱。
/teamwork-preview 把这个天花板捅破了:用 93 个独立上下文,相当于 93 倍的有效记忆量。这就是为什么它能写 OS——OS 这种工程,单个 agent 的上下文根本撑不下。
▎信号 2:写代码的成本结构正在重塑
过去工程经济学是这样的:
▸大项目(OS、数据库、操作系统级别)= 几十人月人工 = 几百万美元
现在 Antigravity 给出了新算法:
▸大项目 = 93 个 subagent × 12 小时 = $917
这个变化的尺度,比"AI 帮我写一个函数省 5 分钟"严重得多。它意味着一个独立开发者,可以做以前只有大厂团队才能做的事。
▎信号 3:harness 这一层成了竞争核心
我之前一直在说一句话:模型外那层工程骨架,决定了 AI 应用的上限。
Antigravity 2.0 这次又给这句话加了一个证据:
▸同样的 Gemini 3.5 Flash
▸单跑:写不出 OS
▸套上 Antigravity harness(orchestrator + 93 subagent + merge & validate):12 小时写完
模型没变,harness 变了。结果差了一个数量级。
5 月份这一连串发生的事其实是连着的:
▸5 月 14 日,Claude Code 上线 /goal——单 Agent 的循环 harness
▸5 月 18 日,Cursor 发 Composer 2.5——自研模型 + IDE harness
▸5 月 24 日,微软开源 Webwright——单 Agent + 极简 harness
▸5 月 19 日 + 后续完善,Google 推出 /teamwork-preview——多 Agent + 强 harness
四件事连在一起,就是一句话:AI Coding 的战场从"模型"转移到了"harness"。
我的看法
聊了一周多 AI Coding 的新闻,我想说一个相对感性的判断:
未来 12 个月,"会调度 AI"会比"会写代码"更值钱。
听起来有点反直觉。但你看 Google 的 demo——
写 OS 的不是 Gemini 3.5 Flash,是Antigravity 2.0 这套编排系统。Flash 只是被调度的"工人"。
同理:
▸写 React 组件的不是 Cursor Composer,是你怎么组织 Composer 的工作流
▸跑 e2e 测试的不是 Claude Code,是你怎么用 /goal 描述任务
▸抓数据的不是 GPT-5.4,是你怎么用 Webwright 编排任务
模型的能力溢出后,真正的差异化在调度层。
谁能熟练用 /teamwork-preview、谁能熟练写 subagent 配置、谁能熟练设计 multi-agent 工作流——谁就是新时代的"高效开发者"。
这也是为什么我会建议你今年至少深度试用一次 Antigravity 2.0:
▸$200/月听起来不便宜,但用一次就理解未来 12 个月的开发范式
▸不用 AI 写 OS(普通项目用不到),但用它跑一次"建一个完整微服务"任务就能感受到差异
▸把你最难的那个工程任务交给 /teamwork-preview,看它能跑多远
下一次值得跟的时间点是 6 月——Google 说 Gemini 3.5 Pro 那时候会全量推出。Pro + Antigravity 编排 + multi-agent 这套组合,可能会是 2026 下半年最强的 AI 工程组合。
到时候我们再聊。

往期推荐
Multi-Agent Teams:让多个专家 Agent 像团队一样协作

AI Agent 是怎么"想一步做一步"的?拆解 ReAct 模式

从零开始:用 LangChain.js 构建你的第一个 Tool-Calling Agent

最后


点个在看支持我吧


被折叠的 条评论
为什么被折叠?



