Transformer-2. 注意力分数

本文介绍了注意力机制中的评分函数,包括加性注意力和缩放点积注意力,以及如何通过掩码softmax处理填充序列。通过多层感知机映射查询和键,并利用softmax和掩码操作生成注意力权重,最后实现值的加权和输出。

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

上一节记录了注意力机制的基础,这一节主要做几个实现,沐神说qkv在不同任务中的角色不一,所以后续内容才会搞懂qkv是啥玩意。

上节使用了高斯核来对查询和键之间的关系建模。 高斯核指数部分可以视为注意力评分函数(attention scoring function), 简称评分函数(scoring function), 然后把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,将得到与键对应的值的概率分布(即注意力权重)。 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。

从宏观来看,上述算法可以用来实现下图中的注意力机制框架。 下图说明了如何将注意力汇聚的输出计算成为值的加权和, 其中α\alphaα
表示注意力评分函数。 由于注意力权重是概率分布, 因此加权和其本质上是加权平均值。

图10.1.3

               图10.3.1 计算注意力汇聚的输出为值的加权和

用数学语言描述, 假设有一个查询 q∈Rq\mathbf{q} \in \mathbb{R}^qqRqmmm 个“键一值”对 (k1,v1),…,(km,vm)\left(\mathbf{k}_1, \mathbf{v}_1\right), \ldots,\left(\mathbf{k}_m, \mathbf{v}_m\right)(k1,v1),,(km,vm), 其中 ki∈Rk\mathbf{k}_i \in \mathbb{R}^kkiRk, vi∈Rv\mathbf{v}_i \in \mathbb{R}^vviRv 。 注意力汇聚函数 fff 就被表示成值的加权和:
f(q,(k1,v1),…,(km,vm))=∑i=1mα(q,ki)vi∈Rv, f\left(\mathbf{q},\left(\mathbf{k}_1, \mathbf{v}_1\right), \ldots,\left(\mathbf{k}_m, \mathbf{v}_m\right)\right)=\sum_{i=1}^m \alpha\left(\mathbf{q}, \mathbf{k}_i\right) \mathbf{v}_i \in \mathbb{R}^v, f(q,(k1,v1),,(km,vm))=

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值