数据分享|R语言用Keras长短期记忆LSTM神经网络分类分析问答文本数据

简介: 数据分享|R语言用Keras长短期记忆LSTM神经网络分类分析问答文本数据

原文链接:http://tecdat.cn/?p=26709 


介绍


本文是在 R 中使用 Keras 的LSTM神经网络分类简单介绍。


软件包

library(tidyverse) #导入、清理、可视化 
library(keras) # 用keras进行深度学习
library(data.table) # 快速读取csv数据

导入


让我们看一下问答文本数据查看文末了解数据获取方式

tst %>% head()

初步查看


让我们考虑几个 用户可能提出的“不真诚”问题的例子

trn %>% filter(tart == 1) %>% sme_n(5)

我可以理解为什么这些问题被认为是“不真诚的”:它们不是在寻求真正的答案,而是倾向于将提问者的信念陈述为事实,或者试图故意挑衅。想知道我们的模型会怎么样?


点击标题查阅往期内容


Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类


01

02

03

04

标记化


让我们从标记句子开始。

# 设置一些参数
mx_s <- 15000 # 考虑作为特征的最大词数
mxen <- 64 # 在n个词之后的文本截断
# 准备对文本进行标记
ful <- rbind(tin %>% select(qon\_t), test %>% select(quin\_ext))
tts <- full$qesio_tx
toer <- text\_tokenizer(nu\_ors = m_wods) %>% >。
  fi\_txt\_ner(txt
# 符号化 - 即把文本转换成整数序列
seqnces <- tts_tseecs(toenze, txts)
rd_idex <- toker$wordiex
# 垫出文本,使所有内容都是相同的长度
daa = pad_sques(quecs, maxlen = aln)

数据拆分

# 分割回训练和测试
tri_mrx = data\[1:nrow(tan),\] # 分割回训练和测试。
ttmix = da\[(nrow(ran)+1):nrow(at),\] # 准备训练标签。
# 准备好训练标签
laes = trin$trgt
# 准备一个验证集
set.seed(1337)
traingsales = nrow(trinix)*0.90
inie = sample(1:nrow(tra_trix))
trining\_idies = indices\[1:training\_samples\] 。
valdaton\_inces = indices\[(ranng\_sples + 1): (trningmes + vliiopls)\] 。
xtrin = tainmax\[trinig_dces,\] 。
y_an = labels\[ainginies\]
x\_vl = traimarix\[valito\_inces,\] y_val = labels\[traginces\]。
y_al = labels\[vlitnidies\]。
# 训练维度
dim(x_ran)
table(y_tan)

这里非常严重的不平衡,我们需要稍后解决这个问题。


嵌入


我们的第一个模型将基于一个提供的词嵌入。我们从较小的嵌入文件开始。

lis <- readLines('1M.vec')
fsti_emedisndx = nw.ev(hash = TRUE, parent = eptev())
ies <- lns\[2:legt(lie)\]
b <- tPrgssBr(min = 0, max = lenth(lns), style = 3)
for (i in 1:length(les)){
 
  vaus <- strsplit(le, " ")\[\[1\]\]
  wd<- vaus\[\[1\]\]
  fsiemgndx\[\[word\]\] = as.double(vaes\[-1\])
  etxPressar(pb, i)
}
# 创建我们的嵌入矩阵
faikimbddngim = 300
fawkiebiix = array(0, c(mx\_ords, faii\_mdig_m))
for (wrd in names(wrddex)){
  idx <- wr_dx\[\[od\]\]
  if (nex < ma_ds){
    faiki\_embdg\_vctor =astwkedgdex\[\[word\]\]
    if (!is.null(fasiembddigveor))
      fatwki\_bednrix\[iex+1,\] <- faswiiedin\_vor # 没有嵌入的词都是零
  }

inpt <- layput(
  shape = list(NULL),
# 模型层
embding <- input %>% 
    layeing(input\_dim = maords, output\_dim = fasing_dim, name = "embedding")
lstm <- eming %>% 
    layer_lstm(units = maxn,drout = 0.25, recudroput = 0.25, reseques = FALSE, name = "lstm")
dese <- lstm %>%
    ladese(units = 128, actin = "rlu", name = "dese") 
# 把模型集中起来
mol <- kmoel(input, preds)
# 最初冻结嵌入权重,以防止更新的权重回传,破坏我们的嵌入。
getlar(ml, name = "embedding") %>% 
  sehts(list(fasatrix)) %>% 
  frehts()
# 编译
print(model)

模型训练


保持对初始基准模型的快速训练。

# 训练模型
history <- model %>% fit(
  x_train,
  y_train,
# 看看训练结果
print(hisy)


模型可以很容易地通过微调来改进:只需嵌入层并再训练模型几个 epoch,注意不要过度拟合。

相关文章
|
3月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
409 0
|
4月前
|
机器学习/深度学习 数据采集 传感器
【故障诊断】基于matlab BP神经网络电机数据特征提取与故障诊断研究(Matlab代码实现)
【故障诊断】基于matlab BP神经网络电机数据特征提取与故障诊断研究(Matlab代码实现)
173 0
|
5月前
|
数据采集 存储 算法
MyEMS 开源能源管理系统:基于 4G 无线传感网络的能源数据闭环管理方案
MyEMS 是开源能源管理领域的标杆解决方案,采用 Python、Django 与 React 技术栈,具备模块化架构与跨平台兼容性。系统涵盖能源数据治理、设备管理、工单流转与智能控制四大核心功能,结合高精度 4G 无线计量仪表,实现高效数据采集与边缘计算。方案部署灵活、安全性高,助力企业实现能源数字化与碳减排目标。
170 0
|
2月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
168 0
|
3月前
|
机器学习/深度学习 数据采集 资源调度
基于长短期记忆网络定向改进预测的动态多目标进化算法(LSTM-DIP-DMOEA)求解CEC2018(DF1-DF14)研究(Matlab代码实现)
基于长短期记忆网络定向改进预测的动态多目标进化算法(LSTM-DIP-DMOEA)求解CEC2018(DF1-DF14)研究(Matlab代码实现)
112 0
|
3月前
|
机器学习/深度学习 数据采集 运维
改进的遗传算法优化的BP神经网络用于电厂数据的异常检测和故障诊断
改进的遗传算法优化的BP神经网络用于电厂数据的异常检测和故障诊断
|
4月前
|
机器学习/深度学习 算法 安全
【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测(Python代码实现)
【PSO-LSTM】基于PSO优化LSTM网络的电力负荷预测(Python代码实现)
269 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
基于WOA鲸鱼优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM
本项目基于MATLAB 2022a/2024b实现,采用WOA优化的BiLSTM算法进行序列预测。核心代码包含完整中文注释与操作视频,展示从参数优化到模型训练、预测的全流程。BiLSTM通过前向与后向LSTM结合,有效捕捉序列前后文信息,解决传统RNN梯度消失问题。WOA优化超参数(如学习率、隐藏层神经元数),提升模型性能,避免局部最优解。附有运行效果图预览,最终输出预测值与实际值对比,RMSE评估精度。适合研究时序数据分析与深度学习优化的开发者参考。
|
6月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的BiLSTM双向长短期记忆网络序列预测算法matlab仿真,对比BiLSTM和LSTM
本内容包含基于BiLSTM与遗传算法(GA)的算法介绍及实现。算法通过MATLAB2022a/2024b运行,核心为优化BiLSTM超参数(如学习率、神经元数量),提升预测性能。LSTM解决传统RNN梯度问题,捕捉长期依赖;BiLSTM双向处理序列,融合前文后文信息,适合全局信息任务。附完整代码(含注释)、操作视频及无水印运行效果预览,适用于股票预测等场景,精度优于单向LSTM。
|
6月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
本内容展示了一种基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测方法。通过 MATLAB2022a 实现,完整程序运行无水印,核心代码附详细中文注释及操作视频。算法利用 PSO 优化 TCN 的超参数(如卷积核大小、层数等),提升非线性时间序列预测性能。TCN 结构包含因果卷积层与残差连接,结合 LSTM 构建混合模型,经多次迭代选择最优超参数,最终实现更准确可靠的预测效果,适用于金融、气象等领域。

热门文章

最新文章