AlphaEvolve 和 AdaEvolve 介绍与对比

最新推荐文章于 2026-07-04 23:09:23 发布

原创最新推荐文章于 2026-07-04 23:09:23 发布 · 280 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

一、AlphaEvolve

1.1 基本信息

AlphaEvolve 是 Google DeepMind 于 2025 年 5 月发布的进化式编码智能体（evolutionary coding agent），2026 年 5 月发布了影响力更新报告。其核心是将大语言模型（LLM）的代码生成能力与进化算法结合，通过"生成→测试→评分→进化"的循环，自动发现数学、算法和工程领域的新解。

1.2 技术架构

AlphaEvolve 的工作流程如下：

生成（Generate）：使用 Gemini 2.0 Flash（快速生成）或 Gemini 2.0 Pro（深度探索）生成候选代码
测试（Test）：自动评估器执行代码，验证正确性和性能
评分（Score）：根据预定义指标（速度、精度、资源占用等）打分
进化（Evolve）：保留高分解，由 LLM 进行语义有意义的变异（重构循环、替换算法、调整数据结构），进入下一轮迭代

系统维护一个候选程序数据库，将历史优秀解作为上下文输入 LLM，实现持续改进。

1.3 关键成就

领域	具体成果
数学	发现 4×4 复数矩阵乘法仅需 48 次标量乘法，打破了 1969 年 Strassen 算法以来的 56 年纪录（此前为 49 次或 128 次）
数据中心	为 Google Borg 调度系统开发新启发式算法，回收 0.7% 全球计算资源
AI 训练	优化矩阵乘法 kernel，Gemini 训练加速 23%；FlashAttention 加速 32.5%
芯片设计	提出 TPU 算术电路 Verilog 重写方案，减少不必要比特，已纳入下一代 TPU 设计
基因组学	改进 DeepConsensus DNA 测序纠错模型，变异检测错误减少 30%
电力网格	将 GNN 可行性从 14% 提升至 88%
量子计算	量子电路建议误差降低 10 倍（与 Google Willow 处理器相关）

1.4 独特价值

递归自改进：AlphaEvolve 优化了训练 Gemini 的 pipeline，形成"AI 改进 AI"的闭环
生产级部署：已在 Google 全球基础设施运行超过 1 年
人类可解释：生成的代码简洁可读，工程师可直接审查、调试和部署
闭源：仅发布白皮书，无开源代码，但社区已有 OpenEvolve、CODEEVOLVE 等复现

二、AdaEvolve

2.1 基本信息

AdaEvolve 是 UC Berkeley（Mert Cemri、Ion Stoica、Matei Zaharia、Alexandros Dimakis 等）于 2026 年 2 月发表的学术研究框架，论文标题为 “AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization”（arXiv:2602.20133）。它并非 Google DeepMind 的项目，而是学术界对 AlphaEvolve 范式的改进和扩展。

2.2 核心创新：三层自适应架构

AdaEvolve 将 LLM 驱动的进化搜索形式化为层次化动态优化问题，引入三个耦合的自适应层级：

Level 1 — 局部适应（Local Adaptation）

在每个子种群（island）内部，根据累积改进信号 $G_t^{(k)}$ 动态调节探索强度
改进大时增加开发（exploitation），改进停滞时增加探索（exploration）
信号计算为归一化改进的指数移动平均： $Gt(k)=ρ⋅Gt−1(k)+(1−ρ)⋅(δt(k))2G_t^{(k)} = \rho \cdot G_{t-1}^{(k)} + (1-\rho) \cdot (\delta_t^{(k)})^2$

Level 2 — 全局适应（Global Adaptation）

使用**多臂老虎机（Multi-Armed Bandit）**动态分配计算资源到不同子种群
引入全局归一化机制：评估改进时相对于全局最优解而非局部历史，防止资源浪费在局部最优的"虚假进步"上

Level 3 — 元指导（Meta-Guidance）

当数值适应不足以突破停滞时，触发"System 2"干预
LLM 不再变异具体代码，而是生成高级解题策略（如"引入连续优化"或"尝试样条平滑"），从根本上改变搜索方向

2.3 关键成就

测试集	规模	结果
数学优化	6 个问题	全部达到或匹配最优已知解（包括 AlphaEvolve 的结果）
ADRS 系统基准	7 个系统优化任务	全部达到人类竞争力或更优
Frontier-CS	172 个开放算法设计问题	相比单模型 GPT-5，平均性能提升 3 倍
总计	185 个问题	使用相同超参数完成所有测试

2.4 独特价值

零手动调参：用户仅需提供 LLM 名称和迭代次数，无需 per-task 调参
开源：学术论文已发表，代码开源
自适应哲学：借鉴连续优化中的 Adam/AdaGrad 思想，将梯度矩估计迁移到离散程序搜索空间
通用性验证：在 185 个完全不同的问题上使用同一套超参数，证明鲁棒性

三、两者关系与对比

维度	AlphaEvolve	AdaEvolve
机构	Google DeepMind	UC Berkeley
定位	工业级生产系统	学术研究框架
开源	❌ 闭源	✅ 开源
自适应	单层进化循环	三层自适应（局部+全局+元）
LLM 使用	Gemini 组合（Flash/Pro）	GPT-5, Gemini-3-Pro（实验性）
用户配置	需定义评估函数	仅需 LLM 名和迭代数
生产验证	Google 全球基础设施	学术基准测试
数学突破	4×4 矩阵乘法 56 年突破	匹配 SOTA，但未发现全新纪录
系统优化	Borg 调度、FlashAttention	ADRS 基准 7/7 达标
芯片设计	TPU Verilog 优化	未测试
AI 自改进	优化自身训练 pipeline	未测试

四、总结

AlphaEvolve 是"从 0 到 1"的标杆：证明了 LLM + 进化算法可以产生真正的科学发现和工业级优化，已在 Google 生产环境创造数亿美元级价值。其闭源特性使其成为行业护城河。
AdaEvolve 是"从 1 到 N"的学术推进：将 AlphaEvolve 的启发式进化循环升级为理论化的自适应优化框架，解决了"如何自动调参"和"如何避免局部最优"的关键问题，并以开源形式回馈社区。

两者共同标志着 LLM 驱动的自动化算法发现从概念验证走向实用化，正在重塑数学研究、系统优化和芯片设计的范式。

标签

#人工智能