【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介-阿里云开发者社区

【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

2024-06-13 169

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

2. 循环神经网络RNN

2.2 含隐藏状态的循环神经网络

注意：即便在不同时间步，循环神经网络也始终使用这些模型参数。因此，循环神经网络模型参数的数量不随时间步的增加而增长。

import torch
X, W_xh = torch.randn(3, 1), torch.randn(1, 4)
H, W_hh = torch.randn(3, 4), torch.randn(4, 4)
torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

输出：

tensor([[ 5.2633, -3.2288,  0.6037, -1.3321],
        [ 9.4012, -6.7830,  1.0630, -0.1809],
        [ 7.0355, -2.2361,  0.7469, -3.4667]])

将矩阵X和H按列（维度1）连结，连结后的矩阵形状为(3, 5)。可见，连结后矩阵在维度1的长度为矩阵X和H在维度1的长度之和（1 + 4 1+41+4）。然后，将矩阵W_xh和W_hh按行（维度0）连结，连结后的矩阵形状为(5, 4)。最后将两个连结后的矩阵相乘，得到与上面代码输出相同的形状为(3, 4)的矩阵。

torch.matmul(torch.cat((X, H), dim=1), torch.cat((W_xh, W_hh), dim=0))

输出：

tensor([[ 5.2633, -3.2288,  0.6037, -1.3321],
        [ 9.4012, -6.7830,  1.0630, -0.1809],
        [ 7.0355, -2.2361,  0.7469, -3.4667]])

2.3 应用：基于字符级循环神经网络的语言模型

最后我们介绍如何应用循环神经网络来构建一个语言模型。设小批量中样本数为1，文本序列为“想”“要”“有”“直”“升”“机”。下图演示了如何使用循环神经网络基于当前和过去的字符来预测下一个字符。在训练时，我们对每个时间步的输出层输出使用softmax运算，然后使用交叉熵损失函数来计算它与标签的误差。在图中，由于隐藏层中隐藏状态的循环计算，时间步3的输出O3取决于文本序列“想”“要”“有”。由于训练数据中该序列的下一个词为“直”，时间步3的损失将取决于该时间步基于序列“想”“要”“有”生成下一个词的概率分布与该时间步的标签“直”。

因为每个输入词是一个字符，因此这个模型被称为字符级循环神经网络（character-level recurrent neural network）。因为不同字符的个数远小于不同词的个数（对于英文尤其如此），所以字符级循环神经网络的计算通常更加简单。

3. 总结

使用循环计算的网络即循环神经网络。
循环神经网络的隐藏状态可以捕捉截至当前时间步的序列的历史信息。
循环神经网络模型参数的数量不随时间步的增加而增长。
可以基于字符级循环神经网络来创建语言模型。

【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

1. 语言模型

1.1 语言模型的计算

1.2 n nn元语法的定义

2. 循环神经网络RNN

2.2 含隐藏状态的循环神经网络

2.3 应用：基于字符级循环神经网络的语言模型

3. 总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【从零开始学习深度学习】33.语言模型的计算方式及循环神经网络RNN简介

1. 语言模型

1.1 语言模型的计算

1.2 n nn元语法的定义

2. 循环神经网络RNN

2.2 含隐藏状态的循环神经网络

2.3 应用：基于字符级循环神经网络的语言模型

3. 总结

热门文章

最新文章

相关课程

相关电子书