2025_NIPS_Stable and low-precision training for large-scale vision-language models

最新推荐文章于 2026-06-16 17:23:19 发布

原创最新推荐文章于 2026-06-16 17:23:19 发布 · 25 阅读

·

0

·

文章标签：

#语言模型 #人工智能 #深度学习

LLM Daily 同时被 2 个专栏收录

2812 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

891 篇文章

订阅专栏

文章总结与翻译

一、主要内容

本文围绕大规模视觉语言模型（以CLIP为研究对象）的训练优化展开，聚焦训练加速和训练稳定性两大核心问题，通过理论分析、方法设计和实验验证提出解决方案：

1. 低精度训练加速（8位量化训练）

背景：16位（bfloat16/float16）是当前主流训练精度，但8位（int8/fp8）硬件支持逐渐普及，且能显著提升训练速度；然而8位量化易引入噪声，导致模型性能下降或训练发散。
核心方法：
- 提出SwitchBack线性层：前向传播和输入梯度计算采用8位（int8/fp8）矩阵乘法，权重梯度计算切换回16位高精度，避免大维度矩阵乘法中的量化噪声累积。
- 针对fp8训练：提出零初始化层缩放（layer-scale initialized with zeros）方法，抑制特征幅值过大，无需SwitchBack也能实现高精度fp8训练。
实验结果：SwitchBack在10亿参数CLIP ViT-Huge模型上，int8训练精度与bfloat16基线相差仅0.1个百分点，同时实现13%-25%的端到端训练加速；fp8模拟训练中，SwitchBack避免了基线方法的发散问题。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。