自然语言处理面试题集

最新推荐文章于 2026-04-05 07:57:49 发布

原创

最新推荐文章于 2026-04-05 07:57:49 发布 · 5.5k 阅读

·

7

·

标签

#自然语言处理面试题

1. 为什么rnn循环神经网络会有梯度消失的情况，而lstm可以避免这种情况的发生？

首先来想想循环神经网络的结构是什么样的。

a. 它是由几十个甚至上百的神经元连接而成，这些神经元都是串行连接的。

b. 当计算完损失函数之后，需要逆向去更新神经网络中的权重。而且是从神经网络的尾部向前去更新，而rnn中输出值转隐层的激活函数一般使用的双曲正切函数tanc。其实在一般的rnn网络结构当中存在着3个权重参数，输出转隐层的参数w，隐层转隐层的参数的参数u，隐层转输出层的参数v。其实像v这种不依赖之前状态的参数，可以直接求导得到梯度。而像w，u这种依赖之前状态的参数需要连续求导得到。而像tanc和sigmoid函数的导函数都是要小于1的，而小于1的数如果连乘太多的话就会越来越趋近0。

下面是tanc的函数和导函数的图：

有人说是否可以使用relu函数代替tanc函数作为激活函数。这也是不行的，因为relu函数大于0时，函数的导数值是1。如果很多w的系数大于1，连乘之后就会产生梯度爆炸的结果。

relu函数如图所示

那么lstm又是如何解决梯度消失问题的呢？

这个问题在我看过很多的文章之后依然是非常模糊。如果想通过求导的方式去证明太麻烦了，非常难理解。但又有很多人说什么lstm的机构天然就是可以防止梯度消失的情况。

下面的解释可以稍微让人理解一下，什么lstm是怎样防止梯度消失和控制梯度下降。

但是在其他路径上，LSTM 的梯

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。