文章核心总结与创新点
主要内容
本文针对大语言模型(LLMs)微调的计算挑战,提出了双级优化框架Bilevel-ZOFO。该框架结合零阶优化(ZO)和参数高效微调(PEFT)的优势,内层通过一阶PEFT实现快速局部适配,降低ZO梯度估计方差并稳定训练;外层通过ZO更新整个模型骨干,提升泛化能力。实验验证了该方法在分类、问答等多类任务中,相较于MeZO(ZO方法)和传统FO-PEFT,实现2-4倍训练加速,同时保持相似内存效率,且在元学习场景中表现优异。
创新点
- 提出双级优化架构,首次将FO-PEFT与ZO全模型微调有机融合,互补解决各自缺陷(PEFT泛化不足、ZO收敛慢且对提示敏感)。
- 理论层面提供收敛保证,证明方法在合理假设下以O(ε⁻²)速率收敛,且复杂度与模型参数维度解耦。
- 兼顾内存效率与性能,在保持PEFT级内存消耗的同时,实现接近全模型微调的效果,支持大规模LLM扩展。
- 具备高效元学习能力,通过“ZO骨干更新+少量PEFT适配”的设计,实现少样本快速迁移,优于MetaICL等基线方法。
英文原文翻译(Markdown格式)
Abstract
使用一阶(FO)优化器对预训练大语言模型(LLMs)进行下游任务微调面临显著的计算挑战。参数高效微调(PEFT)方法通过冻结大部分模型参数、仅训练一小部分参数来应对这些挑战。然而,当需要高任务特定精度时,PEF
订阅专栏 解锁全文
2485

被折叠的 条评论
为什么被折叠?



