一、AlphaEvolve
1.1 基本信息
AlphaEvolve 是 Google DeepMind 于 2025 年 5 月发布的进化式编码智能体(evolutionary coding agent),2026 年 5 月发布了影响力更新报告。其核心是将大语言模型(LLM)的代码生成能力与进化算法结合,通过"生成→测试→评分→进化"的循环,自动发现数学、算法和工程领域的新解。
1.2 技术架构
AlphaEvolve 的工作流程如下:
- 生成(Generate):使用 Gemini 2.0 Flash(快速生成)或 Gemini 2.0 Pro(深度探索)生成候选代码
- 测试(Test):自动评估器执行代码,验证正确性和性能
- 评分(Score):根据预定义指标(速度、精度、资源占用等)打分
- 进化(Evolve):保留高分解,由 LLM 进行语义有意义的变异(重构循环、替换算法、调整数据结构),进入下一轮迭代
系统维护一个候选程序数据库,将历史优秀解作为上下文输入 LLM,实现持续改进。
1.3 关键成就
| 领域 | 具体成果 |
|---|---|
| 数学 | 发现 4×4 复数矩阵乘法仅需 48 次标量乘法,打破了 1969 年 Strassen 算法以来的 56 年纪录(此前为 49 次或 128 次) |
| 数据中心 | 为 Google Borg 调度系统开发新启发式算法,回收 0.7% 全球计算资源 |
| AI 训练 | 优化矩阵乘法 kernel,Gemini 训练加速 23%;FlashAttention 加速 32.5% |
| 芯片设计 | 提出 TPU 算术电路 Verilog 重写方案,减少不必要比特,已纳入下一代 TPU 设计 |
| 基因组学 | 改进 DeepConsensus DNA 测序纠错模型,变异检测错误减少 30% |
| 电力网格 | 将 GNN 可行性从 14% 提升至 88% |
| 量子计算 | 量子电路建议误差降低 10 倍(与 Google Willow 处理器相关) |
1.4 独特价值
- 递归自改进:AlphaEvolve 优化了训练 Gemini 的 pipeline,形成"AI 改进 AI"的闭环
- 生产级部署:已在 Google 全球基础设施运行超过 1 年
- 人类可解释:生成的代码简洁可读,工程师可直接审查、调试和部署
- 闭源:仅发布白皮书,无开源代码,但社区已有 OpenEvolve、CODEEVOLVE 等复现
二、AdaEvolve
2.1 基本信息
AdaEvolve 是 UC Berkeley(Mert Cemri、Ion Stoica、Matei Zaharia、Alexandros Dimakis 等)于 2026 年 2 月发表的学术研究框架,论文标题为 “AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization”(arXiv:2602.20133)。它并非 Google DeepMind 的项目,而是学术界对 AlphaEvolve 范式的改进和扩展。
2.2 核心创新:三层自适应架构
AdaEvolve 将 LLM 驱动的进化搜索形式化为层次化动态优化问题,引入三个耦合的自适应层级:
Level 1 — 局部适应(Local Adaptation)
- 在每个子种群(island)内部,根据累积改进信号 Gt(k)G_t^{(k)}Gt(k) 动态调节探索强度
- 改进大时增加开发(exploitation),改进停滞时增加探索(exploration)
- 信号计算为归一化改进的指数移动平均:Gt(k)=ρ⋅Gt−1(k)+(1−ρ)⋅(δt(k))2G_t^{(k)} = \rho \cdot G_{t-1}^{(k)} + (1-\rho) \cdot (\delta_t^{(k)})^2Gt(k)=ρ⋅Gt−1(k)+(1−ρ)⋅(δt(k))2
Level 2 — 全局适应(Global Adaptation)
- 使用**多臂老虎机(Multi-Armed Bandit)**动态分配计算资源到不同子种群
- 引入全局归一化机制:评估改进时相对于全局最优解而非局部历史,防止资源浪费在局部最优的"虚假进步"上
Level 3 — 元指导(Meta-Guidance)
- 当数值适应不足以突破停滞时,触发"System 2"干预
- LLM 不再变异具体代码,而是生成高级解题策略(如"引入连续优化"或"尝试样条平滑"),从根本上改变搜索方向
2.3 关键成就
| 测试集 | 规模 | 结果 |
|---|---|---|
| 数学优化 | 6 个问题 | 全部达到或匹配最优已知解(包括 AlphaEvolve 的结果) |
| ADRS 系统基准 | 7 个系统优化任务 | 全部达到人类竞争力或更优 |
| Frontier-CS | 172 个开放算法设计问题 | 相比单模型 GPT-5,平均性能提升 3 倍 |
| 总计 | 185 个问题 | 使用相同超参数完成所有测试 |
2.4 独特价值
- 零手动调参:用户仅需提供 LLM 名称和迭代次数,无需 per-task 调参
- 开源:学术论文已发表,代码开源
- 自适应哲学:借鉴连续优化中的 Adam/AdaGrad 思想,将梯度矩估计迁移到离散程序搜索空间
- 通用性验证:在 185 个完全不同的问题上使用同一套超参数,证明鲁棒性
三、两者关系与对比
| 维度 | AlphaEvolve | AdaEvolve |
|---|---|---|
| 机构 | Google DeepMind | UC Berkeley |
| 定位 | 工业级生产系统 | 学术研究框架 |
| 开源 | ❌ 闭源 | ✅ 开源 |
| 自适应 | 单层进化循环 | 三层自适应(局部+全局+元) |
| LLM 使用 | Gemini 组合(Flash/Pro) | GPT-5, Gemini-3-Pro(实验性) |
| 用户配置 | 需定义评估函数 | 仅需 LLM 名和迭代数 |
| 生产验证 | Google 全球基础设施 | 学术基准测试 |
| 数学突破 | 4×4 矩阵乘法 56 年突破 | 匹配 SOTA,但未发现全新纪录 |
| 系统优化 | Borg 调度、FlashAttention | ADRS 基准 7/7 达标 |
| 芯片设计 | TPU Verilog 优化 | 未测试 |
| AI 自改进 | 优化自身训练 pipeline | 未测试 |
四、总结
- AlphaEvolve 是"从 0 到 1"的标杆:证明了 LLM + 进化算法可以产生真正的科学发现和工业级优化,已在 Google 生产环境创造数亿美元级价值。其闭源特性使其成为行业护城河。
- AdaEvolve 是"从 1 到 N"的学术推进:将 AlphaEvolve 的启发式进化循环升级为理论化的自适应优化框架,解决了"如何自动调参"和"如何避免局部最优"的关键问题,并以开源形式回馈社区。
两者共同标志着 LLM 驱动的自动化算法发现从概念验证走向实用化,正在重塑数学研究、系统优化和芯片设计的范式。
2522

被折叠的 条评论
为什么被折叠?



