93 个 AI 联手写了个 OS,账单 $917

点击上方 前端Q,关注公众号

回复加群,加入前端Q技术交流群

Google I/O 2026 上 Sundar Pichai 现场演示的那个 demo,我反复看了三遍。

不是因为它炫,而是因为它真的把我看楞了——

93 个 AI subagent 并行干了 12 小时,从零写出一个能跑 Doom 的操作系统。账单不到 $1000 美元。

我看完第一反应是想笑:操作系统?93 个 AI?$917?这数字哪个先信?

但 Google 在 antigravity.google/blog 上把所有数据都摊开了:

指标数字
并行 subagent 数量93 个
总耗时12 小时
模型调用次数15,314 次
输入 token 总量3.39 亿
含 cache reads / output / thinking26 亿+ token
完整 API 账单$916.92
最终产出内核 + 进程管理 + 内存管理 + 文件系统 + 视频和键盘驱动
能跑FreeDoom

而且这套 multi-agent 系统全程没有人类介入——只给了一句 high-level prompt。

更妙的是 Google 这次没把这个能力藏在 demo 里。5 月 24 日左右,他们把同款编排能力作为 /teamwork-preview 命令开放给所有 Antigravity 2.0 用户(AI Ultra 订阅,$200/月)。

这一篇我把这件事完整拆开讲:Google 到底做了什么、$917 是怎么算出来的、93 个 subagent 是怎么协作的、对你今天写代码意味着什么

93 个 AI 联手 12 小时写出 OS

先把 $917 这个数字拆开看

很多人看到"$917 写一个 OS"会怀疑:是不是 cherry-pick 了一个小项目骗 token?

我把 Google 公布的细节核对了一遍,这个数字背后实际是:

▎工作量是真的

最终产出物:

内核(kernel)

进程管理(process management)

内存管理(memory management)

文件系统(filesystem)

视频驱动(video drivers)

键盘驱动(keyboard drivers)

而且能直接跑 FreeDoom——一个对硬件抽象、内存管理、显示驱动都有真实要求的游戏。

这不是"hello world 操作系统",这是能在真实硬件上 boot 起来、跑出图形和游戏交互的功能性 OS。

▎Token 消耗结构很扎实

15,314 次模型调用、3.39 亿输入 token、加上 cache reads / output / thinking 一共 26 亿 token。

按 Gemini 3.5 Flash 的定价(输入 $0.30/M、输出 $2.50/M),算下来正好落在 $900 这个区间。

$916.92 这个精确到分的数字说明 Google 不是在估算,是真的把账单拉出来给你看。

▎关键变量是用什么模型

这条最让我意外:

"Gemini 3.1 Pro was unable to complete the OS build. Gemini 3.5 Flash — the lighter, more economical model — succeeded."

Gemini 3.1 Pro 写不出来。Gemini 3.5 Flash 写出来了。

更快、更便宜的模型,反而比一代前的旗舰更强。这又是一次"模型规模决定能力"的旧认知被打破。

但更关键的解释是后面这句:

"12x the speed of other frontier models inside the Antigravity harness — was the mechanical reason it was possible."

93 个 subagent 并行能跑得动,靠的是 Flash 的速度。如果用 Opus 4.6 这种慢推理的模型,93 个并行可能要跑 1 周,账单飞到 $50000。

Flash 的"便宜 + 快"配合 Antigravity 的多 Agent 编排,用工程把模型的极限拉到了一个新位置

93 个 subagent 是怎么协作的

接下来这部分是最有意思的。

很多人想象的多 Agent 是"AI 分头干活、最后合并"。Antigravity 2.0 的实际机制比这复杂。

▎第一层:Orchestrator(总指挥)

接到 high-level prompt 后,orchestrator 做几件事:

  1. 拆解任务——把"写一个 OS"拆成几十个有依赖关系的子任务(先写内核、再写内存管理、再写文件系统……)
  2. 分配 subagent——每个子任务派一个或多个专门的 subagent
  3. 规划顺序——哪些必须串行(内核必须先于驱动)、哪些可以并行(视频驱动和键盘驱动可以同时写)

▎第二层:93 个 Specialized Subagent(专门工人)

每个 subagent 有自己的:

独立上下文窗口(互不污染)

任务目标和验收条件

可调用的工具集(写代码、跑测试、读日志、改文件)

它们在自己的隔离 sandbox 里干活,互相之间不直接通信

这是关键设计——Multi-agent 系统最容易翻车的地方就是"agent 之间瞎聊天"。93 个 agent 如果两两都能对话,会产生 4278 条潜在通信通道,混乱到没法管。

Antigravity 的做法是:所有 agent 只跟 orchestrator 通信,结果汇总后再分发。

▎第三层:Merge & Validate(合并和验证)

每一批 subagent 跑完后,orchestrator 做三件事:

  1. 合并代码(处理跨文件依赖)
  2. 跑测试(验证这一批工作没破坏前面的工作)
  3. 错误处理(哪个 subagent 跑挂了,重新派一个 subagent 接着干)

整个流程跑下来 12 小时,没有一处需要人类介入

Antigravity 多 Agent 架构

▎一个细节让我反复看

Google 后来用同一套编排系统,做了 4 个新项目:

AlphaZero 复现实现

照片编辑套件

实时消息应用

多用户协作平台

关键不是这些产出物本身有多强,而是——同一套编排能力可以跨场景复用

这意味着 Antigravity 2.0 不只是"写 OS 的特例",而是一个通用的多 Agent 工程化框架

这个能力今天怎么用?

Google 这次最大的诚意,是把这个能力直接开放给用户用。

5 月份在 Antigravity 2.0 desktop app 里,输入 /teamwork-preview,就能用到和 demo 同款的多 Agent 编排。

具体条件:

项目要求
订阅Google AI Ultra ($200/月)
平台Antigravity 2.0 desktop app(macOS / Linux / Windows)
状态Research preview
注意复杂任务可能跑光每周配额,需要买额外的 AI credits

注意最后一条——复杂任务可能跑光每周配额。这是 Google 自己写在 release note 里的。意思是你想跑一个"写 OS"级别的任务,光 $200 月费还不够,还得另外买 token。

但对常见的中等复杂度任务(一个完整 Web App、一个微服务、一套数据迁移脚本),$200 月费完全够用。

它对你今天写代码意味着什么

我把这件事的信号梳理给你看,三个层面:

▎信号 1:单 Agent 时代正在结束

过去半年所有 AI Coding 工具的主流形态是"一个 Agent 帮你写代码"——Cursor 的 Composer、Claude Code、Codex 全都是。

但单 Agent 有个天花板:一次任务上下文最多塞下 200 K token,超过这个量就开始记忆混乱

/teamwork-preview 把这个天花板捅破了:用 93 个独立上下文,相当于 93 倍的有效记忆量。这就是为什么它能写 OS——OS 这种工程,单个 agent 的上下文根本撑不下。

▎信号 2:写代码的成本结构正在重塑

过去工程经济学是这样的:

▸大项目(OS、数据库、操作系统级别)= 几十人月人工 = 几百万美元

现在 Antigravity 给出了新算法:

▸大项目 = 93 个 subagent × 12 小时 = $917

这个变化的尺度,比"AI 帮我写一个函数省 5 分钟"严重得多。它意味着一个独立开发者,可以做以前只有大厂团队才能做的事。

▎信号 3:harness 这一层成了竞争核心

我之前一直在说一句话:模型外那层工程骨架,决定了 AI 应用的上限

Antigravity 2.0 这次又给这句话加了一个证据:

▸同样的 Gemini 3.5 Flash

▸单跑:写不出 OS

▸套上 Antigravity harness(orchestrator + 93 subagent + merge & validate):12 小时写完

模型没变,harness 变了。结果差了一个数量级。

5 月份这一连串发生的事其实是连着的:

▸5 月 14 日,Claude Code 上线 /goal——单 Agent 的循环 harness

▸5 月 18 日,Cursor 发 Composer 2.5——自研模型 + IDE harness

▸5 月 24 日,微软开源 Webwright——单 Agent + 极简 harness

▸5 月 19 日 + 后续完善,Google 推出 /teamwork-preview——多 Agent + 强 harness

四件事连在一起,就是一句话:AI Coding 的战场从"模型"转移到了"harness"

我的看法

聊了一周多 AI Coding 的新闻,我想说一个相对感性的判断:

未来 12 个月,"会调度 AI"会比"会写代码"更值钱。

听起来有点反直觉。但你看 Google 的 demo——

写 OS 的不是 Gemini 3.5 Flash,是Antigravity 2.0 这套编排系统。Flash 只是被调度的"工人"。

同理:

▸写 React 组件的不是 Cursor Composer,是你怎么组织 Composer 的工作流

▸跑 e2e 测试的不是 Claude Code,是你怎么用 /goal 描述任务

▸抓数据的不是 GPT-5.4,是你怎么用 Webwright 编排任务

模型的能力溢出后,真正的差异化在调度层

谁能熟练用 /teamwork-preview、谁能熟练写 subagent 配置、谁能熟练设计 multi-agent 工作流——谁就是新时代的"高效开发者"。

这也是为什么我会建议你今年至少深度试用一次 Antigravity 2.0:

▸$200/月听起来不便宜,但用一次就理解未来 12 个月的开发范式

▸不用 AI 写 OS(普通项目用不到),但用它跑一次"建一个完整微服务"任务就能感受到差异

▸把你最难的那个工程任务交给 /teamwork-preview,看它能跑多远

下一次值得跟的时间点是 6 月——Google 说 Gemini 3.5 Pro 那时候会全量推出。Pro + Antigravity 编排 + multi-agent 这套组合,可能会是 2026 下半年最强的 AI 工程组合。

到时候我们再聊。

往期推荐

Multi-Agent Teams:让多个专家 Agent 像团队一样协作

AI Agent 是怎么"想一步做一步"的?拆解 ReAct 模式

从零开始:用 LangChain.js 构建你的第一个 Tool-Calling Agent

最后

点个在看支持我吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值