论文笔记：GRU----RNN Encoder-Decoder

最新推荐文章于 2025-12-15 14:19:38 发布

原创

最新推荐文章于 2025-12-15 14:19:38 发布 · 5.4k 阅读

收录于

当前文章被以下社区和专栏收录：

本文详细解析了GRU（门控循环单元）的工作原理，作为RNN Encoder-Decoder模型的一种改进。GRU通过Reset门和Update门有效处理长期依赖问题，相比于LSTM减少了参数数量，但依然能保持记忆能力。通过这两个门，GRU能够学习到不同时间步长的依赖关系，适应不同任务的需求。

<<Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation>>

这篇论文在传统的Encoder-Decoder模型上使用RNN，模型结构如下：

看图就知道要说什么了，亮点在于文章对隐层节点的创新：

先回顾下传统的 naive RNN：

看图就行，不多说。

再让我们回顾下传统的LSTM：

可以看到，

LSTM需要更新四组参数：分别是input gate 、forget gate 、 output gate 、还有对inp

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hx14301009

关注关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

RNN变体——GRU网络论文原文

05-14

GRU在LSTM网络的基础上减少一个门限，用更新门代替了遗忘门和输出门，其训练参数更少，效果更好。

【NLP】第六章：门控循环单元GRU

因为热爱所以坚持

11-29

2156

哎，笑一会儿，本来记忆和遗忘就是一体两面，非此即彼的。从上图的公式看，其实这两个门，仅仅是两个门而已，它们两个的计算一模一样，输入一模一样，只是使用了两个不同的矩阵线性变换了一下，而且这两个矩阵都是随机生成的，只有在训练过程中，这两个门才会慢慢迭代成其功能的门。有的资料叫节点，有的叫单元，有的叫循环单元，，，等等各种叫法，所以我们也不用纠结。第二个坑就是上图的C处，我一开始先计算的rt*ht-1，然后再进行线性变换，一看结果对不上，查看GRU的说明文档才发现，pytorch人家是先线性变换后再乘rt的。

参与评论您还未登录，请先登录后发表或查看评论

构筑 AI 理论体系：深度学习 100 篇论文解读第十八篇：LSTM 的精简替代——门控循环单元 GRU (2014)

最新发布

腾TO的技术博客

12-15

899

作者国籍机构（2014 年时）核心贡献Kyunghyun Cho (赵竟玄)韩国University of Montreal (Yoshua Bengio 团队)提出了 GRU，后在纽约大学任职，是自然语言处理领域的关键人物。加拿大深度学习三巨头之一，GRU 论文的共同作者。信息项详情论文题目发表年份2014 年出版刊物核心命题如何设计一种更简洁高效的循环单元，在不使用独立的细胞状态和三个门的情况下，依然能有效解决标准 RNN 的梯度消失问题和长期依赖问题？

GRU 浅析

晓野豬

09-17

1万+

门控循环单元 (Gate Recurrent Unit, GRU) 于 2014 年在论文《》中提出。GRU 是循环神经网络的一种，和 LSTM 一样，是为了解决长期依赖问题而提出。GRU 总体结构与 RNN 相似，如下图所示。但其内部结构 (思想) 却与 LSTM 更加相似，如下图所示。LSTM 使用三个门 (遗忘门、输入门和输出门) 来控制信息传递，GRU 只使用了两个门 (重置门和更新门)。与 LSTM 相比，GRU 去除了单元状态，转而使用隐藏状态来传输信息。

门控循环单元网络(GRU)在计算机视觉中的应用：基于深度学习模型的

东海陈光剑的博客：禅与计算机程序设计艺术

07-03

4887

作者：禅与计算机程序设计艺术《门控循环单元网络(GRU)在计算机视觉中的应用：基于深度学习模型的》 1. 引言 1.1. 背景介绍随着计算机视觉领域的快速发展，深度学习模型已经在许多任务中取得了显著的成果。但是，为了提高模型的性能，仍需要考虑一

论文《Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation》解析

wangxiaobin1314的博客

04-21

1971

论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》是由Kyunghyun Cho等人于2014年发表的。该论文主要有两个贡献：(1)是提出了RNN Encoder-Decoder架构，首次将Seq2Seq模型引入到统计机器翻译（SMT），为后溪基于神经网络的机器翻译奠定了基础；

详解从 Seq2Seq模型、RNN结构、Encoder-Decoder模型到 Attention模型

生命不息，Coding不止

04-25

5785

注：本文的所有模型只涉及自然语言处理领域，同时本文不涉及太多复杂公式推导。一、Seq2Seq 模型 1. 简介 Sequence-to-sequence (seq2seq) 模型，顾名思义，其输入是一个序列，输出也是一个序列，例如输入是英文句子，输出则是翻译的中文。seq2seq 可以用在很多方面：机器翻译、QA 系统、文档摘要生成、Image Captioning (图片描述...

NLP经典论文：Sequence to Sequence、Encoder-Decoder 、GRU 笔记

sinat_39448069的博客

11-23

2641

NLP经典论文：Sequence to Sequence、Encoder-Decoder 笔记《Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》

Encoder-decoder模型及Attention机制

weixin_41744192的博客

05-06

7886

Seq2Seq模型及Attention机制Seq2Seq模型Attention机制 Seq2Seq模型 seq2seq模型最早可追溯到2014年的两篇paper [1, 2]，主要用于机器翻译任务（MT）。seq2seq本质上是一种encoder-decoder框架，以翻译任务中的“英译汉”为例，模型首先使用编码器对英文进行编码，得到英文的向量化表示S，然后使用解码器对S进行解码，得到对应的中文。由于encoder与decoder两端处理的都是序列数据，所以被称为sequence-to-sequence，简

Attention如何在Encoder-Decoder循环神经网络中见效（原理篇）

翻滚的老鼠屎

03-26

5405

转眼间来到了二年级下学期，马上就要面临找工作的巨大压力。起风了，唯有努力生存~愿努力可以有所成效。这一篇想要讲一讲Attention机制。文章框架主要翻译自How Does Attention Work in Encoder-Decoder Recurrent Neural Networks，也参考了一些笔者觉得比较不错的博客。 Attention（注意力机制）是为了提...

基于Encoder-Decoder模式的机器翻译模型原理及实现

小鹿的爸爸

11-22

8832

基于Encoder-Decoder模式的机器翻译模型原理及实现理论背景代码实现关键词: Encoder-Decoder, LSTM, WordEmbedding 在机器学习领域，有很多任务是把一种样式的序列映射成另外一种样式的序列，比如把一种语言翻译成另一种语言，把一段语音转换成一段文本，给一段文字生成一句话简介，或者把一张图片转换成一段对图片内容的文字描述等。这些任务都可以看作是Seq2Se...

Encoder-Decoder、Seq2Seq、以及Transformer之间的关系

咖乐部

12-02

6751

结论写在前面： Encoder-Decoder 是一种架构，范围非常广泛，只要是用一个编码结构一个解码结构的模型都是Encoder-Decoder 架构 seq2seq 和 Encoder-Decoder基本相同，只不过后者是一种抽象概念，前者是具体的模型，seq2seq可以看做是一种结构，有很多这种结构的模型。seq2seq有多种类型，N VS N，N vs 1, 1vs N, N vs M。最后一种应用最广。同时还有基于RNN的seq2seq，基于CNN的seq2seq，基于LSTM的seq2seq

Encoder-Decoder 模型架构详解

Joselynzhao

03-02

3万+

文章目录概述Seq2Seq（ Sequence-to-sequence ）Encoder-Decoder的缺陷Attention 机制的引入Transformer中的Encoder-Decoder 概述 Encoder-Decoder 并不是一个具体的模型，而是一个通用的框架。 Encoder 和

Encoder-Decoder综述理解(推荐)

热门推荐

秋水顽石

03-12

6万+

文章目录一、Encoder-Decoder（编码-解码）介绍几点说明信息丢失的问题应用二、Seq2Seq（序列到序列）介绍Seq2Seq与Encoder-Decoder代码实现一、Encoder-Decoder（编码-解码）介绍 Encoder-Decoder是一个模型构架，是一类算法统称，并不是特指某一个具体的算法，在这个框架下可以使用不同的算法来解决不同的任务。首先，编码（encode）由...

RNN（包括GRU和LSTM）和其他seq2seq/encoder-decoder模型

诸神缄默不语的博客

11-26

1265

本文介绍RNN和seq2seq模型

【2020人工智能培训课】笔记八：深度学习之RNN、LSTM、encoder-decoder模型

Idiot 的博客

12-16

1321

Gensim 工具包 Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF、LSA、LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。三大经典深度学习网络：CNN GAN RNN 语言模型与RNN 语言模型就是指给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。语言模型是对一种语言的特征进行建模，它有很多很多用处。比如在语音.

论文笔记：Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

想变有趣的EMMA

03-10

4014

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation 这篇论文是为解决natural language processing (NLP)领域的问题。应用RNN encoder-decoder技术进行静态机器翻译（英语–>法语 -_-,作为中国人，我总以为会转换成

【论文学习】RNN Encoder–Decoder机器翻译

XD的博客

10-11

1754

在本文中，作者提出了一种称为RNN编码器-解码器的新型神经网络模型-由两个循环解码器组成神经网络。一个RNN作为编码器将一系列符号编码为固定长度的向量表示，另一个RNN作为解码器将固定长度的向量表示形式解码为另一个符号序列。所提出模型的编码器和解码器是联合训练的，最大化在给定源序列的情况下得出目标序列的条件概率。通过使用RNN编码器- 解码器计算的短语对的条件概率作为现有对数线性中的附加功能模型。

论文笔记：Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

MirrorN的博客

10-10

1690

论文学习：Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation 这篇论文算是 Seq2Seq（Sequenc to Sequence）的经典论文了。文中提出了一种新的RNN模型结构用于机器翻译等工作，此外，作为LSTM单元的变种和简化版本 GRU 单元也是在文章中...

轰炸理解深度学习里面的encoder-decoder模型

Microstrong

12-08

5万+

微信公众号 Encoder-Decoder（编码-解码）是深度学习中非常常见的一个模型框架，比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的；比如这两年比较热的image caption的应用，就是CNN-RNN的编码-解码框架；再比如神经网络机器翻译NMT模型，往往就是LSTM-LSTM的编码-解码框架。因此，准确的说，Encoder-Decoder并不是一个具体...