【论文精读】Self-Attention Sequencial Recommendation ＜更新中＞

原理：在序列推荐模型中引入self-attention机制。在每一个时间步中自适应地给先前行为动态分配权重。考虑在稠密数据集中长距离依赖，关注稀疏数据集中近期活动，即结合两者的优势，一方面根据过去的所有行为（RNNs）获取上下文，另一方面根据少量动作（MCs）便可进行预测。
核心组件：自注意力。适合并行加速度，比基于CNN/RNN的替代方法快一个数量级。
实验过程（大致）：分析SASRec的复杂性和可扩展性，进行全面的消融实验，可视化注意力权重以定性地揭示模型表现力。

③解读模型图

图：为简化的SASRec方法训练过程。在每个时间步中，该模型都考虑了之前的项目，并使用了注意力机制关注与“下一个项目”更相关的之前项目。

**模型解读**
架构部分	作用	例子
输入（Training Action Sequence）	$S_{1},S_{2},...,S_{n}$ 是输入序列；表示用户的行为序列	例如用户购买的物品，从左至右依次为电脑 ( $S_{1}$ )、鼠标 ( $S_{2}$ )、打印机 ( $S_{3}$ )、书籍 ( $S_{4}$ )
词嵌入（Embedding Layer）	输入的每个动作都会先经过这层；该层将离散的物品标识（ $S_{1},S_{2}$ 等）转化为连续向量表示；即将输入序列转化为高维稠密向量，使得模型捕获物品之间的语义关系
自注意力（Self-Attention Layer）	作为Transformer 的核心；该层会计算序列中每个元素与其他元素的相关性，捕捉长距离依赖关系，帮助模型理解序列中元素之间的交互信息	例如模型关注打印机( $S_{3}$ ) ，是否与鼠标( $S_{2}$ ) 或电脑( $S_{1}$ ) 间是否有关系
前馈网络（Point-Wise Feed Forward Network (FFN)）	自注意力机制的输出会经过一个前馈神经网络FFN；该层网络是逐点的操作，不同序列位置的向量独立通过相同的全连接层，增加非线性表示能力，捕获更加复杂的模式
堆叠块（Stacking Blocks）	该层框架允许堆叠多个注意力层和前馈网络，实现在更深的网络中捕获更复杂的特征
预测（Prediction Layer）	每个位置的输出都会经过该层，预测下一步的目标（即序列的下一项）	例如输入“电脑 ( $S_{1}$ )、鼠标 ( $S_{2}$ )、打印机 ( $S_{3}$ )”，会输出“预测下一步为书籍”

2.1.一般推荐

2.2.临时推荐

2.3.序列推荐

2.4注意力机制

3.Methodology（方法论）

通过嵌入层、堆叠自注意力块，和预测层来建立一个序列推荐模型，用来分析SASRec的复杂性。

①用户动作序列

$S^{u}=(S{_{1}^{u}},S{_{2}^{u}},...,S{_{|S{^{u}}|}^{u}})$

目标：预测用户的下一个行为
$S^{u}$ ：用户u的完整动作序列，可能按时间排序
$S{_{1}^{u}},S{_{2}^{u}},...,S{_{|S{^{u}}|}^{u}}$ ：分别表示用户u在各个段时间内的具体行为项

②该方法中模型图的序列

根据模型图，按用户动作序列公式变形得，输入序列为 $S{_{1}^{u}},S{_{2}^{u}},...,S{_{|S{^{u}}|-1}^{u}}$ ，输出序列为 $S{_{2}^{u}},S{_{3}^{u}},...,S{_{|S{^{u}}|}^{u}}$ 。

③公式符号

后续公式可能会用到表中的符号，参考如下：

3.1.Embedding Layer（嵌入层）

①输入序列

根据输入序列为 $S{_{1}^{u}},S{_{2}^{u}},...,S{_{|S{^{u}}|-1}^{u}}$ 。用户的交互序列 $S^{u}$ 通常是一个可变长度的序列，且其长度可能小于或大于模型的固定长度 n；另要求所有输入序列 $S^{u}$ 都具有固定长度 n（ $S=\left \{ S_{1} ,S_{2},...,S_{n} \right \}$ ），n为模型能处理的最大序列长度：

sequence length > n，考虑最近的n个行为
sequence length < n，重复在左侧添加“填充”项（一般用零向量填充），直至长度为n

②输入、项目嵌入

创建项目嵌入： $M\in R^{\left | I \right |*d}$
检索输入嵌入： $E\in R^{n*d}$
$E_{i}=M_{S_{i}}$ ，即每一行 $E_{i}$ 对应于序列 $S^{u}$ 中第 i 个物品的嵌入向量

③位置嵌入

在项目嵌入 $M\in R^{\left | I \right |*d}$ 里，将一个可学习的位置嵌入 $P\in R^{n*d}$ ，注入到输入嵌入 $E\in R^{n*d}$ 中；
为什么不用《Attention is all you need》中的固定位置嵌入？

因为固定位置嵌入式通过预定义的公式生成序列中的每个位置嵌入，该类嵌入方式是不可学习的，仅仅反映每个时间步的位置。使用这种嵌入会造成推荐系统任务产生动态序列长度、行为权重不均，以及时间间隔的影响等问题。综上，由于缺乏灵活性，无法捕捉用户行为的相对位置和动态模式，该方式很难适用于推荐系统的需求。

3.2.Self-Attention Block（自注意力块）

本文中，一个自注意力块一般包含一个自注意力层（Self-Attention Layer）和一个点对点前馈网络（Point-Wise Feed-Forward Network）。

为什么设计成这种自注意力块？

因为分层设计能让模型从粗到细地逐层提取序列中的全局和局部信息，应用在推荐系统中，不仅能获取到用户整体特征，还可以重点考虑到用户在被推荐的活动中比较重要的细节局部特征，即：

Self-Attention：全局信息提取，捕获输入序列（用户行为序列）中各项目间的依赖关系（全局关联），得到特征元素 $S{_{i}^{(b)}}$ ；

FFN：对每个位置的元素S单独非线性特征变换，即对关联进行逐点的特征增强，得到输出 $F{_{i}^{(b)}}$

了解自注意力（Self-Attention）公式

$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})V$

解读公式：

q：查询向量，当前输入与其他输入之间的匹配计算的起点；

k：键向量，计算注意力权重，确定查询和各输入部分相关性的重要向量；

v：值向量，权重最终作用的对象，最终关注机制希望从输入序列中提取的信息；

$\sqrt{d}$ ：该比例因子为避免内积值过大，尤其当维度很高时。

自注意力机制的作用

经q、k、v交互计算全局相关性权重，重新加权输入序列特征，以获取重要特征信息。