目录
1. 引言与背景
随着大数据时代的到来,处理复杂序列数据的需求日益凸显,尤其是在自然语言处理、语音识别、时间序列预测等领域。传统的循环神经网络(RNN)虽然理论上能够捕捉序列数据的长期依赖关系,但在实践中却常常受到梯度消失或爆炸问题的困扰,限制了其有效建模长期模式的能力。为了解决这些问题,长短期记忆网络(Long Short-Term Memory, LSTM)应运而生。作为一种特殊的RNN变体,LSTM通过引入独特的门控机制,成功克服了长期依赖的建模难题,极大地提升了对时序数据的学习和表达能力,成为现代深度学习领域不可或缺的重要组件。
2. LSTM定理
LSTM的核心思想在于设计了一种能够灵活控制信息流的细胞状态(Cell State)。该细胞状态贯穿整个序列,允许信息长期保存或遗忘。LSTM由三个关键的门控单元构成:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate),它们共同决定了细胞状态的更新以及最终的隐藏状态输出。数学上,这些门控单元通过sigmoid函数产生介于0到1之间的值,分别代表对新信息的接纳程度、对旧信息的遗忘程度以及对细胞状态暴露给输出的程度。LSTM的更新规则遵循以下定理:
-
遗忘门:决定前一时刻细胞状态中哪些信息需要被遗忘。遗忘门的激活值
f_t由当前输入x_t和前一时刻隐藏状态h_{t-1}通过一个带有sigmoid激活函数的全连接层计算得到:
-
输入门:决定当前时刻输入中哪些信息应被加入到细胞状态。它包含两个部分:一是通过sigmoid函数确定信息的接纳权重
i_t,二是通过tanh函数计算候选状态C̃_t:
-
细胞状态更新:结合遗忘门和输入门的结果,更新细胞状态
C_t:
-
输出门:决定细胞状态中哪些信息应被传递到下一时刻的隐藏状态或作为当前时刻的模型输出。输出门的激活值
o_t由当前输入x_t和前一时刻隐藏状态h_{t-1}通过一个带有sigmoid激活函数的全连接层

2万+

被折叠的 条评论
为什么被折叠?



