<<Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation>>
这篇论文在传统的Encoder-Decoder模型上使用RNN,模型结构如下:

看图就知道要说什么了,亮点在于文章对隐层节点的创新:
先回顾下传统的 naive RNN:

看图就行,不多说。
再让我们回顾下传统的LSTM:

可以看到,
LSTM需要更新四组参数:分别是input gate 、forget gate 、 output gate 、还有对inp

本文详细解析了GRU(门控循环单元)的工作原理,作为RNN Encoder-Decoder模型的一种改进。GRU通过Reset门和Update门有效处理长期依赖问题,相比于LSTM减少了参数数量,但依然能保持记忆能力。通过这两个门,GRU能够学习到不同时间步长的依赖关系,适应不同任务的需求。
2156

被折叠的 条评论
为什么被折叠?



