Deep Learning Based Text Classification (文本分类综述)

本文是一篇关于深度学习在文本分类中的综述,涵盖了从规则方法到深度学习方法,包括前馈神经网络、RNN、CNN、胶囊网络、注意力机制等模型,并讨论了相关数据集和评估指标,展望了未来挑战与机会。

Deep Learning Based TextClassification: A Comprehensive Review

论文来源:https://arxiv.org/abs/2004.03705

2020年4月份的一篇文本分类相关的综述文章。

1. 前言

文本分类是NLP中一个非常经典任务(对给定的句子、查询、段落或者文档打上相应的类别标签)。其应用包括机器问答、垃圾邮件识别、情感分析、新闻分类、用户意图识别等。文本数据的来源也十分的广泛,比如网页数据、邮件内容、聊天记录、社交媒体、用户评论等。文本是是极其丰富的信息载体,然而由于文本的非结构化特性,导致从中提取有用信息具十分有挑战性。

1.1 文本分类三大方法:
(1)Rule-based methods
使用预定义的规则进行分类,需要很强的领域知识而且系统很难维护。
(2)Machine learning(data-driven) based methods
经典的机器学方法使用特征提取方法(Bow词袋等)来提取文本特征,再使用如朴素贝叶斯,SVM,HMM,Gradient Boosting Tree和随机森林等方法来进行分类。
深度学习方法通常使用的是end2end形式,比如Attetion、transformers、Bert等。
(3)Hybrid methods
基于规则和基于机器学习(深度学习)方法的混合。

1.2 文本分类的任务
(1)情感分析
给定文本,分析用户的观点并且抽取出他们的主要观点。可以是二分类,也可以是多分类任务。
(2)新闻分类
识别新闻主题,并给用户推荐相关的新闻。主要应用于推荐系统。
(3)主题分类
给定文本,抽取出其文本的一个或者多个主题。
(4)机器回答
提取式(extractive),给定问题和一堆候选答案,从中识别出正确答案。
生成式(generative),给定问题,然后生成答案。(NL2SQL)
(5)自然语言推理NLI?
文本蕴含任务,预测一个文本是否可以从另一个文本中推断出。一般包括entailment、contradiction和neutral三种关系类型

2. 文本分类-深度学习模型

回顾了应用于不同分类任务的150种深度学习框架,主要分类如下:
(1)基于前馈神经网络(Feed-Forward Neural Networks)
(2)基于循环神经网络(RNN)
(3)基于卷积神经网络(CNN)
(4)基于胶囊网络Capsule networks
(5)基于Attetion机制
(6)基于记忆增强网络(Memory-augmented networks)
(7)基于Transformers机制
(8)基于图神经网络
(9)基于孪生神经网络(Siamese Neural Network)
(10)混合神经网络(Hybrid models)

2.1 基于前馈神经网络(Feed-Forward Neural Networks)

前馈神经网络是文本分类中最简单的一类深度学习模型。该类模型通常将文本识别一个词袋,然后使用embedding模型(word2vec、Glove等)将每个词表示为一个向量。而文本可以通过将文本中的所有词的向量进行加权或者平均得到,将文本向量输入到多层前馈网络(Multi-Layer Perceptrons,MLP)最后输入到分类器(LR、Naive Bayes、SVM等)中进行分类。其代表模型Deep Average Network(DAN),DAN的结构如下:

然而DAN没有考虑词序的信息特征,因此,fastText模型引入了n-gram词袋模型,在一定程度上可以缓解这个问题。

除了词级别的特征表示,doc2vec模型可以学习固定长度文本的特征表示(如局子、段落、文档等)。doc2vec和连续词袋模型(CBOW)一样,唯一的不同是doc2vec多了一个paragraph id矩阵用来表示文本的语义信息。这样做可以引入文本全局信息,可以让文本embedding 看到不同的句子信息,同时也能保留词序依赖信息。doc2v

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值