神经网络机器翻译Neural Machine Translation(5): Gradient-based Optimization Algorithms

最新推荐文章于 2026-07-03 10:18:52 发布

原创

最新推荐文章于 2026-07-03 10:18:52 发布 · 2.9k 阅读

收录于

当前文章被以下社区和专栏收录：

本文深入探讨了神经网络机器翻译中使用的梯度优化算法，涵盖SGD、Momentum、NAG、Adagrad、Adadelta、RMSprop和Adam等方法，这些方法在端到端模型训练中起关键作用。内容参考自Sebastian Ruder的博客和Hinton的讲座，并提供MNIST数据集上的比较实验。

本文将介绍近两年应用到端到端的神经网络模型中的一些优化方法。

转载请注明出处：http://blog.csdn.net/u011414416/article/details/51567362

本文将介绍近两年应用到端到端的神经网络模型中的一些参数优化方法，包括SGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam等。

本文全文参考自博客：http://sebastianruder.com/optimizing-gradient-descent/index.html

Hinton’s Lecture: http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf

各个方法在MNIST数据集上的比较： http://cs.stanford.edu/people/karpathy/convnetjs/demo/trainers.html

标签

#神经网络 #优化 #应用 #梯度下降 #Adam

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

clear-

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

matlab开发-GradientbasedOptimization

08-27

matlab开发-GradientbasedOptimization。基于梯度的优化代码，显示特定迭代的解决方案

智能优化算法-梯度优化器gradient-based optimizer(附Matlab代码)

weixin_44028734的博客

07-02

622

梯度优化器gradient-based optimizer，GBO是一种新型智能优化算法，该算法受基于梯度的牛顿方法启发，结构简单，寻优性能强大。于2020年发表在中科院一区 Information Sciences。

4 条评论您还未登录，请先登录后发表或查看评论

【优化求解-基于梯度的优化算法】基于梯度的优化算法求解单目标优化问题附matlab代码

qq_59747472的博客

01-14

1112

1 简介基于梯度的优化算法（Gradient-based optimizer，GBO）是于2020年提出的一种新型智能优化算法，该算法受基于梯度的牛顿方法启发，具有结构简单，寻优能力强等特点。 In this study, a novel metaheuristic optimization algorithm, gradient-based optimizer (GBO) is proposed. The GBO, inspired by the gradient-based Newton’s me

入门神经网络优化算法（一）：Gradient Descent，Momentum，Nesterov accelerated gradient

Bin 的专栏

12-19

6226

梯度下降 基于梯度的优化算法，Gradient based optimization，也往往被称为一阶优化算法。所以很容易猜到，还有二阶优化算法等的高阶优化算法，但是在实际应用中，基于梯度的一阶优化算法是目前的绝对主流方法，本文就重点罗列一下基于梯度的优化算法。最典型以及简单的是：梯度下降算法。梯度下降法是神经网络求解优化中最常用的一类算法（实际上是在数值优化方法里的一种常用方法，常常用以求解连...

模型效果差？我建议你掌握这些机器学习模型的超参数优化方法

Python数据挖掘

12-11

2340

在本文中，我们了解到为超参数找到正确的值可能是一项令人沮丧的任务，并可能导致机器学习模型的欠拟合或过拟合。我们看到了如何通过使用网格化寻优、随机寻优和其他算法来克服这一障碍。

【机器翻译】《Gradient-guided Loss Masking for Neural Machine Translation》论文总结

Tobi

07-14

489

这篇论文聚焦机器翻译训练数据集中存在噪音数据的问题，旨在通过干净的数据集来在训练过程中引导模型忽略噪音数据，实现核心是根据干净数据集与训练数据集的训练梯度方向的一致性对Loss进行mask，从而屏蔽将造成干净数据集loss上升的样本影响。...

【论文精读】Attention Is All You Need

最新发布

qq_51900869的博客

07-03

503

当前主流的序列转导（sequence transduction）模型都基于复杂的循环神经网络（RNN）或卷积神经网络（CNN），包含编码器和解码器两部分。性能最优的模型还会通过注意力机制连接编码器和解码器。我们提出了一种全新的简单网络架构——Transformer，它完全基于注意力机制，彻底摒弃了循环和卷积操作。在两个机器翻译任务上的实验表明，我们的模型在质量上更优，同时具有更强的并行性，训练所需时间显著减少。

Python深度学习：从入门到实战

weixin_45747731的博客

03-30

327

亲爱的读者，欢迎您翻开这本书。我们即将探索的，是深度学习的宇宙——一个由数据、算法与算力构筑的奇妙世界。它既是严谨的科学，也是创造的艺术，更是一条通往未来智慧的修行之路。本书将带您从最基础的数学原理出发，亲手搭建神经网络，驾驭Transformer等前沿模型，最终将智慧转化为现实世界的价值。请放下畏惧，保持好奇。这不仅是一次知识的学习，更是一场思维的远行。来，随我一起，开启这趟非凡的旅程吧。

Transformer 时代的语言模型：大规模语言模型的发展脉络与技术演化

qq_44768937的博客

03-18

435

本文梳理了Transformer时代大规模语言模型（LLMs）的技术演进脉络。从2017年Transformer架构的提出开始，重点分析了关键技术创新：双向编码器BERT通过掩码语言建模实现深度理解；GPT-3证明模型规模与提示工程的协同效应；InstructGPT引入人类反馈强化学习（RLHF）实现指令对齐；LLaMA通过数据规模优化突破参数量限制；FlashAttention通过IO感知优化解决长序列处理瓶颈；LoRA和量化技术实现模型高效微调与部署；RAG架构扩展模型知识边界；智能体技术从工具调用发展

梯度下降优化算法概述

02-20

1810

This post explores how many of the most popular gradient-based optimization algorithms actually work. Note: If you are looking for a review paper, this blog post is also available as an article on ar...

论文笔记：Gradient-Based Learning Applied to Document Recognition

程序猿视角

04-24

1万+

MNIST手写体模型 LeNet 经典论文阅读笔记：Gradient-Based Learning Applied to Document Recognition。用BP算法训练多层神经网络，是梯度学习技术的一个成功的案例。给出一个合适的网络架构，梯度学习算法可以综合处一个复杂的决策面，实现对于类似手写体字符这样高维模式的分类。本文回顾了各种不同的手写体识别方法，并给基于标准任务比较这些算法。卷积神经网络，专门为处理变化较大的二维图形而设计，显示出超越所有其他技术的能力。

Unsupervised Neural Machine Translation with Weight Sharing

小小鸟要高飞

10-05

1312

Unsupervised Neural Machine Translation with SMT as Posterior Regularization知识点摘要介绍模型结构定向self-attention权重共享这是来自于中科院的的一篇文章，发表于2018年ACL。文章链接： Unsupervised Neural Machine Translation with Weight Sharin...

三维动画形变算法（Gradient-Based Deformation）

weixin_30337251的博客

11-03

681

　　将三角网格上的顶点坐标（x，y，z）看作3个独立的标量场，那么网格上每个三角片都存在3个独立的梯度场。该梯度场是网格的微分属性，相当于网格的特征，在形变过程中随控制点集的移动而变化。那么当用户拖拽网格上的控制点集时，网格形变问题即变为求解以下式子：　　根据变分法，上式最小化即求解泊松方程：其中Φ为待求的网格形变后坐标，w为网格形变后的梯度场。　　上式可以进一步表示为求解稀疏...

ICLR2018 无监督翻译学习 UNSUPERVISED NEURAL MACHINE TRANSLATION

yellow_red_people的博客

06-02

577

UNSUPERVISED NEURAL MACHINE TRANSLATION INTRODUCTION 句子L1和L2使用共同的encoder模型，拥有各自的decoder模型,学习过程是源语言emcode到隐空间中，decoder解码到回去自己的源语言，损失就是编码解码之后的语言和源语言的距离，L1和L2编码的参数相同，所以翻译的过程是语言L1编码，然后解码到L2中。 ...

经典神经网络的学习--《Gradient-Based Learning Applied to Document Recognition》的学习

m0_52126875的博客

07-07

1840

《Gradient-Based Learning Applied to Document Recognition》的学习

Artetxe - 2018ICLR - Unsupervised Neural Machine Translation

小小鸟要高飞

09-26

3179

无监督机器翻译二（2）Unsupervised Neural Machine Translation技术点整体流程原文重构译文重构加噪&降噪类比结果 Unsupervised Neural Machine Translation 本文介绍无监督翻译的另一篇文章，其实这篇文章跟我介绍的《无监督机器翻译二》的那篇文章撞车了，两篇文章中的思路大体相同，只是具体的细节有些不同，两篇还都中了ICML...

几种常用Gradient descent optimization算法详解

laolu1573的专栏

09-12

2436

先看这个https://mp.weixin.qq.com/s/xm4MuZm-6nKTn2eE3eNOlg 最基本的gradient descent： 1.Momentum Momentum 是一种有助于在相关方向上加速SGD并抑制振荡的方法。它通过将上步的更新向量添加到当前的更新向量来实现。 γ通常是0.9或者类似的值。 2.Adagrad Adagrad是一种参数自...

论文学习一之Gradient-Based Learning Applied to Document Recognition

墨夜之枫的博客

04-01

2679

论文学习一之Gradient-Based Learning Applied to Document Recognition 摘要—— 使用BP算法多层神经网络训练构成种个成功的基于梯度学习技术的最佳案例。提供一个合适的网络架构，基于梯度学习算法就能将其用于合成复杂的决策面以便将高维模式（例如手写字符）区分归类，并进行最小预处理。本文综述了各种方法对手写字符特征识别，并将其与标准手写数字识别任务进行...

机器学习：Gradient-based Hyperparameter Optimization through Reversible Learning

weixin_43414866的博客

08-12

1600

Abstract： Tuning hyperparameters of learning algorithms is hard because gradients are usually unavailable. We compute exact gradients of cross-validation performance with respect to all hyperparamete...

神经网络机器翻译Neural Machine Translation(1): Encoder-Decoder Architecture