深度学习之GRU学习笔记

本文详细解析GRU的更新门和重置门机制,对比LSTM,阐述两者在记忆保持、优点及不同之处,包括记忆控制和信息流动方式。通过论文实例,探讨在机器翻译任务中的性能,以及如何缓解梯度消失问题。

在之前几篇深度学习文章中转载了FC、CNN、RNN、LSTM。其中LSTM的变体GRU只是简单提了一点点。本文重新整理了一些资料详细剖析GRU的单元门控逻辑,并结合论文《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling》分析LSTM和GRU的异同点。

GRU(Gate Recurrent Unit)

GRU是LSTM的变种。在LSTM的基础上将“遗忘门”、“输入门”、“输出门”变成“更新门”和“重置门”。如下图所示:
在这里插入图片描述
更新门: z t = σ ( W z ⋅ [ h t − 1 , x t ] ) z_t=\sigma(W_z·[h_{t-1},x_t]) zt=σ(Wz[ht1,xt])重置门: r z = σ ( W r ⋅ [ h t − 1 , x t ] ) r_z=\sigma(W_r·[h_{t-1},x_t]) rz=σ(W

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值