在之前几篇深度学习文章中转载了FC、CNN、RNN、LSTM。其中LSTM的变体GRU只是简单提了一点点。本文重新整理了一些资料详细剖析GRU的单元门控逻辑,并结合论文《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling》分析LSTM和GRU的异同点。
GRU(Gate Recurrent Unit)
GRU是LSTM的变种。在LSTM的基础上将“遗忘门”、“输入门”、“输出门”变成“更新门”和“重置门”。如下图所示:

更新门: z t = σ ( W z ⋅ [ h t − 1 , x t ] ) z_t=\sigma(W_z·[h_{t-1},x_t]) zt=σ(Wz⋅[ht−1,xt])重置门: r z = σ ( W r ⋅ [ h t − 1 , x t ] ) r_z=\sigma(W_r·[h_{t-1},x_t]) rz=σ(W

本文详细解析GRU的更新门和重置门机制,对比LSTM,阐述两者在记忆保持、优点及不同之处,包括记忆控制和信息流动方式。通过论文实例,探讨在机器翻译任务中的性能,以及如何缓解梯度消失问题。
2156

被折叠的 条评论
为什么被折叠?



