Deep Learning Based TextClassification: A Comprehensive Review
论文来源:https://arxiv.org/abs/2004.03705
2020年4月份的一篇文本分类相关的综述文章。
1. 前言
文本分类是NLP中一个非常经典任务(对给定的句子、查询、段落或者文档打上相应的类别标签)。其应用包括机器问答、垃圾邮件识别、情感分析、新闻分类、用户意图识别等。文本数据的来源也十分的广泛,比如网页数据、邮件内容、聊天记录、社交媒体、用户评论等。文本是是极其丰富的信息载体,然而由于文本的非结构化特性,导致从中提取有用信息具十分有挑战性。
1.1 文本分类三大方法:
(1)Rule-based methods
使用预定义的规则进行分类,需要很强的领域知识而且系统很难维护。
(2)Machine learning(data-driven) based methods
经典的机器学方法使用特征提取方法(Bow词袋等)来提取文本特征,再使用如朴素贝叶斯,SVM,HMM,Gradient Boosting Tree和随机森林等方法来进行分类。
深度学习方法通常使用的是end2end形式,比如Attetion、transformers、Bert等。
(3)Hybrid methods
基于规则和基于机器学习(深度学习)方法的混合。
1.2 文本分类的任务
(1)情感分析
给定文本,分析用户的观点并且抽取出他们的主要观点。可以是二分类,也可以是多分类任务。
(2)新闻分类
识别新闻主题,并给用户推荐相关的新闻。主要应用于推荐系统。
(3)主题分类
给定文本,抽取出其文本的一个或者多个主题。
(4)机器回答
提取式(extractive),给定问题和一堆候选答案,从中识别出正确答案。
生成式(generative),给定问题,然后生成答案。(NL2SQL)
(5)自然语言推理NLI?
文本蕴含任务,预测一个文本是否可以从另一个文本中推断出。一般包括entailment、contradiction和neutral三种关系类型
2. 文本分类-深度学习模型
回顾了应用于不同分类任务的150种深度学习框架,主要分类如下:
(1)基于前馈神经网络(Feed-Forward Neural Networks)
(2)基于循环神经网络(RNN)
(3)基于卷积神经网络(CNN)
(4)基于胶囊网络Capsule networks
(5)基于Attetion机制
(6)基于记忆增强网络(Memory-augmented networks)
(7)基于Transformers机制
(8)基于图神经网络
(9)基于孪生神经网络(Siamese Neural Network)
(10)混合神经网络(Hybrid models)
2.1 基于前馈神经网络(Feed-Forward Neural Networks)
前馈神经网络是文本分类中最简单的一类深度学习模型。该类模型通常将文本识别一个词袋,然后使用embedding模型(word2vec、Glove等)将每个词表示为一个向量。而文本可以通过将文本中的所有词的向量进行加权或者平均得到,将文本向量输入到多层前馈网络(Multi-Layer Perceptrons,MLP)最后输入到分类器(LR、Naive Bayes、SVM等)中进行分类。其代表模型Deep Average Network(DAN),DAN的结构如下:

然而DAN没有考虑词序的信息特征,因此,fastText模型引入了n-gram词袋模型,在一定程度上可以缓解这个问题。
除了词级别的特征表示,doc2vec模型可以学习固定长度文本的特征表示(如局子、段落、文档等)。doc2vec和连续词袋模型(CBOW)一样,唯一的不同是doc2vec多了一个paragraph id矩阵用来表示文本的语义信息。这样做可以引入文本全局信息,可以让文本embedding 看到不同的句子信息,同时也能保留词序依赖信息。doc2v

本文是一篇关于深度学习在文本分类中的综述,涵盖了从规则方法到深度学习方法,包括前馈神经网络、RNN、CNN、胶囊网络、注意力机制等模型,并讨论了相关数据集和评估指标,展望了未来挑战与机会。
1万+

被折叠的 条评论
为什么被折叠?



