Deep Learning Based Text Classification (文本分类综述)

最新推荐文章于 2026-04-06 09:40:32 发布

原创

最新推荐文章于 2026-04-06 09:40:32 发布 · 2.4k 阅读

本文是一篇关于深度学习在文本分类中的综述，涵盖了从规则方法到深度学习方法，包括前馈神经网络、RNN、CNN、胶囊网络、注意力机制等模型，并讨论了相关数据集和评估指标，展望了未来挑战与机会。

Deep Learning Based TextClassification: A Comprehensive Review

论文来源：https://arxiv.org/abs/2004.03705

2020年4月份的一篇文本分类相关的综述文章。

1. 前言

文本分类是NLP中一个非常经典任务（对给定的句子、查询、段落或者文档打上相应的类别标签）。其应用包括机器问答、垃圾邮件识别、情感分析、新闻分类、用户意图识别等。文本数据的来源也十分的广泛，比如网页数据、邮件内容、聊天记录、社交媒体、用户评论等。文本是是极其丰富的信息载体，然而由于文本的非结构化特性，导致从中提取有用信息具十分有挑战性。

1.1 文本分类三大方法：
（1）Rule-based methods
使用预定义的规则进行分类，需要很强的领域知识而且系统很难维护。
（2）Machine learning（data-driven） based methods
经典的机器学方法使用特征提取方法（Bow词袋等）来提取文本特征，再使用如朴素贝叶斯，SVM，HMM，Gradient Boosting Tree和随机森林等方法来进行分类。
深度学习方法通常使用的是end2end形式，比如Attetion、transformers、Bert等。
（3）Hybrid methods
基于规则和基于机器学习（深度学习）方法的混合。

1.2 文本分类的任务
（1）情感分析
给定文本，分析用户的观点并且抽取出他们的主要观点。可以是二分类，也可以是多分类任务。
（2）新闻分类
识别新闻主题，并给用户推荐相关的新闻。主要应用于推荐系统。
（3）主题分类
给定文本，抽取出其文本的一个或者多个主题。
（4）机器回答
提取式（extractive），给定问题和一堆候选答案，从中识别出正确答案。
生成式（generative），给定问题，然后生成答案。（NL2SQL）
（5）自然语言推理NLI？
文本蕴含任务，预测一个文本是否可以从另一个文本中推断出。一般包括entailment、contradiction和neutral三种关系类型

2. 文本分类-深度学习模型

回顾了应用于不同分类任务的150种深度学习框架，主要分类如下：
（1）基于前馈神经网络（Feed-Forward Neural Networks）
（2）基于循环神经网络（RNN）
（3）基于卷积神经网络（CNN）
（4）基于胶囊网络Capsule networks
（5）基于Attetion机制
（6）基于记忆增强网络（Memory-augmented networks）
（7）基于Transformers机制
（8）基于图神经网络
（9）基于孪生神经网络（Siamese Neural Network）
（10）混合神经网络（Hybrid models）

2.1 基于前馈神经网络（Feed-Forward Neural Networks）

前馈神经网络是文本分类中最简单的一类深度学习模型。该类模型通常将文本识别一个词袋，然后使用embedding模型（word2vec、Glove等）将每个词表示为一个向量。而文本可以通过将文本中的所有词的向量进行加权或者平均得到，将文本向量输入到多层前馈网络（Multi-Layer Perceptrons，MLP）最后输入到分类器（LR、Naive Bayes、SVM等）中进行分类。其代表模型Deep Average Network（DAN），DAN的结构如下：

然而DAN没有考虑词序的信息特征，因此，fastText模型引入了n-gram词袋模型，在一定程度上可以缓解这个问题。

除了词级别的特征表示，doc2vec模型可以学习固定长度文本的特征表示（如局子、段落、文档等）。doc2vec和连续词袋模型（CBOW）一样，唯一的不同是doc2vec多了一个paragraph id矩阵用来表示文本的语义信息。这样做可以引入文本全局信息，可以让文本embedding 看到不同的句子信息，同时也能保留词序依赖信息。doc2v