本文将介绍近两年应用到端到端的神经网络模型中的一些优化方法。
转载请注明出处:http://blog.csdn.net/u011414416/article/details/51567362
本文将介绍近两年应用到端到端的神经网络模型中的一些参数优化方法,包括SGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam等。
本文全文参考自博客:http://sebastianruder.com/optimizing-gradient-descent/index.html
Hinton’s Lecture: http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
各个方法在MNIST数据集上的比较: http://cs.stanford.edu/people/karpathy/convnetjs/demo/trainers.html

本文深入探讨了神经网络机器翻译中使用的梯度优化算法,涵盖SGD、Momentum、NAG、Adagrad、Adadelta、RMSprop和Adam等方法,这些方法在端到端模型训练中起关键作用。内容参考自Sebastian Ruder的博客和Hinton的讲座,并提供MNIST数据集上的比较实验。
622

被折叠的 条评论
为什么被折叠?



