2025_NIPS_Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals

原创于 2026-06-17 12:30:00 发布 · 8 阅读

·

0

·

标签

#语言模型 #人工智能

LLM Daily 同时被 2 个专栏收录

2814 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

892 篇文章

订阅专栏

一、文章主要内容总结

该研究聚焦于Transformer模型中的过平滑（Over-smoothing）问题——即随着模型层数加深，token表示逐渐趋于一致，导致模型表征能力下降。文章通过建立非局部变分去噪框架，从理论上解释了过平滑的根源，并提出了一种新型Transformer模型NeuTRENO，有效缓解了这一问题。

核心内容拆解：

问题分析：Transformer的自注意力机制本质上是对非局部泛函（Nonlocal Functional）的梯度下降优化，该泛函具有促进信号平滑的特性，类似扩散过程，最终导致token表示趋同（过平滑）。通过随机游走分析进一步验证：深层自注意力的更新过程等价于随机游走的期望收敛，最终所有token收敛到同一常数向量。
方法提出：为抵消平滑效应，提出正则化非局部泛函，在原有平滑泛函基础上添加保真项（Fidelity Term），惩罚自注意力输出与输入token的差异，强制保留原始token的独特信息。基于该泛函推导得到NeuTRENO模型，其自注意力计算在传统softmax注意力基础上，增加了首层value向量与当前层value向量的差异项。
实验验证：在多个大规模任务上验证有效性：
- 计算机视觉：ImageNet分类（Top-1准确率提升至73.01%）、ADE20K图像分割（SS MIoU提升至37.24%）；
- 自

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。