Short Text Classification-A Survey-2014阅读笔记

原创已于 2022-10-21 15:45:29 修改 · 1k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

短文本分类

于 2022-05-20 10:06:31 首次发布

本文探讨了短文本分类的挑战，如分散性、大规模、及时性和非标准化，并介绍了几种主流方法。短文本分类涉及LSA、pLSA和LDA等语义分析技术，旨在通过降维和捕获语义关系提高分类准确性。此外，半监督学习和集成分类也被提及，以解决标签数据稀缺和分类精度问题。文章还讨论了评估短文本分类的指标，如准确率、精确率和召回率。

简介

首先，这篇文章介绍了短文本分类的一些分类思想，比方说说LDA（潜在语义分析）、p-LDA（概率潜在语义分析）、潜在狄利克雷分析等等。
但是在我阅读学习的过程中仍然是还存在许多不足之处，比方说：阅读的速度过慢，记笔记不知道怎么记，包括这篇博客都是之后才进行覆写的，接下来我会进行相关阅读结果的阐述。

文章目录

简介
文章结构
摘要
背景
基于语义分析的短文本分类
半监督短文本分类（SEMI-SUPERVISED SHORT TEXT CLASSIFICATION）
集成短文本分类（ENSEMBLE SHORT TEXT CLASSIFICATION）
大规模短文本的实时分类
- 在线过滤与离线分类相结合的垃圾邮件过滤系统。
- 基于朴素贝叶斯算法和支持向量机的垃圾邮件系统
短文本分类的评估方法（EVALUATION OF SHORT TEXT CLASSIFICATION）
总结

文章结构

本文献的主要结构如下：

1、This paper analyzes the challenges associated with classifying short text and systemic summarizes the existing related methods to short text classification using analytical measures.
2、After the analysis of the feature and difficulty of short text, we point out the process of short text classification in section II
3、short text classification based on semantic analysis is introduced（基于语义分析的短文本呢分类在第三部分被介绍）
4、some algorithms on semi-supervised short text classification in section IV（第四部分会介绍一些的针对于短文本分类的半监督算法）
5、Section V and Section VI introduce the ensemble model for classifying short text and online shor text classification, respectively
6、relevant evaluating measures in Section VII
7、we summarize the methods for classifying short text.

文章一开始指出由于短文本的自然特性，比方说分散性、大规模、及时性以及非标准化，因而对短文本进行分类是一个挑战。因为短文本中有限的单词不能代表特征空间以及单词与文档之间的关系，因此，对于传统的分类方法而言，很难对短文本进行分类。（首先指出，短文本分类是一个挑战，同时指出短文本分类很难使用传统的方法来进行分类）

这篇文章主要是从介绍短文本的特点->短文本分类的难度->现在主流的针对短文本分类器以及模型的工作。

short text classification using sematic analysis, semi-supervised short text classification, ensemble short text classification, and
real-time classification.
evaluations of short text classification are analyzed in our paper.
summarize the existing classification technology
prospect for development trend of short text classification.

摘要

顺利的运用短文本分类变得格外重要对于许多web网站以及IR（信息检索）的应用，然而，对这些类型的文本和Web数据进行分类是一个新的挑战。
并不像普通的文档那样，这些文本以及Web信息片段通常是更加嘈杂，有更低的话题关注度，并且更加短，他们由十几个单词至一些句子来构成。由于长度较短，它们不能提供足够的词共现，或共享上下文来进行良好的相似性度量。由于数据的分散性，所以通常依赖于词的频率、充足的词共现或者是通过共享上下文来度量文档的相似性的机器学习方法常常不能达到我们所要的精确性。

背景

1、短文本的特征

its main characteristic of the text length is very short, no longer than 200 characters

通常情况下，短文本的特征：

稀疏性：

a short text only contains several to a dozen words with a few features, it does not provide enough words co-occurrence or shared context for a good similarity measure. It is difficult to extract its valid language features.
及时性:

short texts are sent immediately and received in real time. In addition, the quantity is very large.
非标准性

The description of the short text is concise, with many misspellings, non-standard terms and noise.
噪声和分布不均衡:

The application background (such as network security) needs to deal with massive amounts of short textual data. However, we may focus on only a small part (detecting objects) among the large-scale data. Therefore, useful instances are limited, and the distribution of short text is imbalanced.
数据量大、标签瓶颈:

It is difficult to manually label all of the large scale instances. Limited labeled instances may only provide limited information（有限的标签实例只能提供有限的信息）. So how to make full use of these labeled instances and other unlabeled instance has become a key problem of short text classification.

2、传统方法的缺点

大部分的传统分类方法（比如：SVM、朴素贝叶斯、KNN算法）是基于术语频率的相似度，同时忽视了短文本的特征，这些传统的方法可能并不能够解决短文本分类。
比方说朴素朴素贝叶斯算法就不能够保证较高的精确度，如果标签的信息不完整的话，
除此之外，一些基于SVM的分类方法可以使用语义信息来提高分类器的性能。

3、短文本分类

文本文档的自动分类在许多应用程序及时、正确地分类和提供适当文档的能力方面发挥着至关重要的作用。
@pic-center
文本分类的过程：
首先，给出一个文档集合D和一个标签集合C，同时定义一个函数F，F将会从C中分配相应的标签给到D中的每一个文档。

例如，在短文本分类中，D可能包含报纸上所有分类广告的集合，因此C可能是同一份报纸上分类部分的标题集合。

许多学习方法，如k近邻(k- nn)，朴素贝叶斯，最大熵模型，支持向量机 (SVMs)，已应用于许多具有不同基准集的分类问题，并取得了满意的结果。但是呢，由于短文本分类的特征以及难点导致传统的分类方法并不擅长于进行短文本分类。

4、短文本分类的难题

如何合理表示和选择特征项，有效降低空间维数和噪声，提高分类精度成为短文本分类的难题。

基于语义分析的短文本分类

1、引入语义分析

目前降低特征空间维度的方法是 “基于语义特征以及语义分析”

because the processing of text classification is generally in Vector Space Model (VSM) ,
which has the basic assumption that the relationships of words are independent, neglected the correlation between texts.
（由于文本分类的过程通常是基于“向量空间模型”的，它有一个基本的假设，就是每个词之间都是相互独立的，同时忽略各个文本之间的联系）
short text has weaker capacity of semantic expression, which is needed this correlationship.
（但是短文本的语义表达能力较弱，因此，对于短文本来讲，它就需要上述的这种文本之间的联系）
While traditional classification cannot distinguish language fuzziness of natural language, cognates and synonyms, all of which are abundant in short text.
（而传统的分类无法区分自然语言、同源词和同义词的语言模糊性，而这些词在短文本中都非常丰富。）
因此传统的分类方法通常不能够实现对于短文本所预想的精确性

2、阐述语义分析的关注点、引出LSA（潜在语义分析）的概念

语义分析更注重概念、内部结构、语义层次以及语篇之间的相关性，从而获得更具表现力和客观性的逻辑结构

潜在语义分析利用统计方法提取潜在语义结构，消除同义影响，降低特征维数和噪声。

3、Short Text Classification Using Latent Semantic Analysis (LSA)——潜在语义分析

首先文章指出了潜在语义分析所基于的假设：

在文本数据中有潜在的语义结构，并且词和文档之间的联系可以在这个语义结构中被重新描述。

LSA可以将向量空间转化为语义空间。
LSA的操作流程如下：
LSA可以通过统计方法，来提取并且量化语义空间，减少词之间的关联性。同时LSA可以减少高维向量矩阵从而构建一个高效描述词与文档之间关系的子空间。
LSA中提出许多降维的方法，比如：“奇异值分解（SVD）”、“半离散分解”、“非负矩阵”。本文中介绍了SVD方法。

基于SVD的LSA的处理方法如下：

1、每一个短文本都被当做为一个向量，因此，词-文档矩阵A_ij中的每一项a_ij 表示词在相应的文档中是否缺失或者在没有缺失的情况下，权重是多少。其中，每一行代表一个词，每一列代表一个短文本。
2、矩阵A通常很稀疏，这个矩阵通常非常稀疏，因为大多数文档只包含整个文档集合中看到的术语总数的一小部分。
3、计算a_ij 的方法如下：
为了关注每个term(或document)的贡献，我们应该计算a_ij的权重。
传统的方法是：

其中，LW_ij 表示局部权重，对术语i在文档j中出现的频率取log
GW_ij 表示全局权重，于词在整个数据集中的熵，熵基于这个术语在每个文档中出现的次数。
4、对于矩阵A的奇异值分解，从上述的有关论述来看，A矩阵是十分稀疏的。
5、除此之外，在这个较大的空间之中，一些文档似乎通过共享共同的单词而更加紧密。下面又提到，但是这些文档可能彼此之间在语义上却并不相关；与此同时，许多因为没有共享任何术语而显得很疏远的文档，实际上关系可能会更紧密。因为相同的概念可能由许多不同的单词来表示，而这些单词是有歧义的。
6、LSA则减小了这个较大的空间，并且有希望捕捉到文本之间的关系。为了实现这个效果，LSA进行对词-文档矩阵的奇异值分解，矩阵的奇异值分解是下面三个矩阵运算的产物

其中u和v表示左右奇异矩阵。σ表示为奇异值的对角矩阵，σ中的对角元素按照大小进行排序。因此，这些矩阵可以通过在σ中设置一个最小值k为0来对这些矩阵进行简化。与σ值对应的T和D列被设置为0，将被删除。

基于LSA的分类，根据SVD算法，减小空间的模型相似于原始矩阵的模型。因此，所有适用于向量空间模型的分类算法也能够适用于LSA分类模型。许多整合了LSA与传统算法分类方法，比如序列分类算法、朴素贝叶斯、KNN、支持向量机，被提出来提升短文本分类的精确度。

LSA的优点

1、减少特征的分散以及噪声。根据LSA，提取K维的语义空间。那么这写语义空间不仅保留了原始向量矩阵大部分信息，同时减少了维度。LDA通过摒弃一些无用的特征来消除噪声。
2、由上述可得，LSA可以有效的处理大规模的短文本数据集。
3、增强语义联系。在具有较高语义表达的相对低维的空间中，分类的性能将通过相似性分析得到提高。
vectors can describe the semantic relationship between terms and documents
5、灵活性。

LSA的缺点

1、由于减小维度而丢失了结构信息。
2、SVD没有严格的数学意义。此外，在高维空间中进行计算的时间和空间复杂度更高
3、文档的意义由向量的线性求和表示，在信息提取阶段忽略了单词的语法信息。
4、LSA只能处理可见变量。然而，隐喻、类比等含义是无法计算的

4、Short Text Classification Using Probabilistic Latent Semantic Analysis (pLSA)

首先指出pLSA是由Hofmann提出的，同时，pLSA的原理性要比LSA更强。它明确提出了“潜在话题”的概念，潜在话题被定义为：在一个随机过程中的潜在变量。

通过对于训练集的拟合，概率模型P被定义为在这里插入图片描述

其中，z是潜在的类变量，d (document) and w(word)是可见的变量，并且他们是条件独立于潜在话题z的。概率模型P用SVD模型的形式表示为

对于特定的训练集，文档d的概率和词w的概率是已知的。但是凡是含有z的条件概率都是未知的。
根据极大似然估计原理，利用期望极大值算法计算对数似然函数的极大值(EM)，以拟合以下模型：
在这里插入图片描述其中f（d_i,w_j）表示词语w_j在文档d_i中出现的概率。

特征向量可以被考虑在分类的过程中作为左奇异值向量（表示文档与潜在因素的联系。）或者右奇异值向量（用来表示词与潜在因素的联系）

相比较LSA，pLSA有以下优点：

1、pLSA在稳定值以及近似效率要比LSA要好
2、pLSA在对于变量的概率分布定义上要比LSA更加清楚。
3、pLSA可以通过使用现存的统计方法来选择最优的k维特征。而LSA却基于试探法，在模型选择方面，需要更大的计算复杂度选择k维特征。

pLSA的缺点:

1、pLSA需要一个标签的先验概率，对于未知的测试语料库其并没有合适的先验概率。
2、参数空间随着pLSA模型训练实例的增加而增加，这可能会导致过度拟合问题。
3、太多离散的特征只适合现在的训练集，但是这些特征并不能正确的描述未知的测试集。

5、Short Text Classification using Latent Dirichlet Allocation (LDA)

首先，潜在狄利克雷分配是一个对输入变量建立线性判别函数的概率生成模型。它寻求一种转换方式来获得类间的最大可分性以及类内的最小差异性。
LDA是一个生成图模型，如下图所示：
在这里插入图片描述
1、它可以用于建模和发现任何类型的离散数据的底层主题结构，其中文本是一个典型的示例。
2、LDA是基于文档生成过程的假设而开发的。

LDA主要的工作的流程省略。。。

最后指出构建LDA模型的问题关键是如何去获取文档内的潜在主题的分布信息

相比较于LSA和pLSA而言，LDA可以发掘到测试语料库中潜在的主题结构和概念结构。

LDA的优点

1、LDA使用的狄利克雷概率分配可以给出未知实例属于一些主题集的概率。
2、LDA直接从主题分布中选取一个适合的主题集，而相比较而言，pLSA还需要对于未知实例的先验概率。
3、DA模型有更强的描述现实语义的能力，同时LDA继承了pLSA的全部优点，更加接近于现实的语义环境。

半监督短文本分类（SEMI-SUPERVISED SHORT TEXT CLASSIFICATION）

文章一开始指出，半监督学习指的是使用有标签和无标签的数据进行训练。其相较于监督学习（即使用全标签数据）和无监督学习（即使用无标签数据）而言，监督学习和无监督学习是从标记和未标记的数据或部分标记/分类的数据中学习。无标签的数据当和一定数量的有标签的数据结合在一起时，可以有效的提升学习的精度。

对于标签数据的生成以及获取需要人工的参与，那么对于使用全标签数据的成本就太高了，从而这种方法不可行。从而，半监督学习变成了一个最可行的方案。半监督学习的成本较低

半监督短文本分类中的通用数据并不要求和训练和测试数据一样拥有相同的格式。

除上述优点之外，在进行评估时，一个主题模型可以应用于多个分类问题，只要这些问题是一致的。

综上，文章应想表述半监督学习的优越性。

半监督算法模型：background knowledge

接下来，介绍了一种利用无标签语料库作为背景知识的半监督短文本分类方法。

background knowledge：
如果一个文章的主题中含有一些比较普遍的字眼，那么我们可以非常直观的进行对它进行分门别类。
如果一个文章主题并不普遍，处理方法是通过相同领域的无标签论文语料库的摘要来进行正确的分类。

background knowledge模型的优点：

可以通过文本语料库来提供包含词的重要性以及词的联合概率的一些信息。

如果实例的特征特别少，一些连接训练集和测试集的背景信息可能找不到，我们可以使用下面的方法。

半监督算法模型：HAL模型

接下来，提到了在HAL空间中建立相关主题的信息流语料库，进行短文本分类。主题中的潜在语义联系由信息流来表示。HAL特征向量从HAL模型中提取出来，同时特征向量HAL对语义信息（尤其是上下文的语义信息）十分敏感。

HAL特征向量的度的计算方式是
在这里插入图片描述
根据动态语料库，建立信息的推理模型

半监督算法模型：DTRs模型

首先DTRs模型是基于上下文信息的算法模型。DTRs通过上下文信息来表示术语，上下文信息由文档出现次数和术语共现次数统计给出。

DTRs模型的优点：

这个算法在一定程度上丰富了算法的表示，这也在一定程度上克服了短文本长度短、离散程度高的缺点。

半监督算法总结

在这里插入图片描述

集成短文本分类（ENSEMBLE SHORT TEXT CLASSIFICATION）

首先，引出单一的分类器通常是基于术语的特征进行分类的，但是对于短文本分类来说很难有很好的预测效果，因为如果特征空间很稀疏的话，很难计算相似度。

提升分类的准确度

接下来指出集成短文本分类的工作方式。通过给弱的分类器分配正确的权重从而得到每一个特征的权重。从而集成短文本分类十分适合解决短文本分类问题。

针对短文本的动态汇编分类算法

reference1指出一种集成短文本分类的算法——针对短文本的动态汇编分类算法。为了解决特征的分散以及不平衡的数据带来的硬性。使用树状的汇编分类器来支持分类，从而减少分散的特征和不平衡的数据带来的影响。在此基础上，一种以自适应的方式动态适应组合结构的策略被提出。

使用少量词的短文本分类方法

Reference32指出一种使用少量词的短文本分类方法。在这种分类方法中，预测标签是搜索结果的多数投票。这是通过搜索一小部分带标签的短文本中与查询词最匹配的结果来获得的预测标签。

基于领域知识的汉语短文本分类

Reference 33 指出一种新的模型—— 基于领域知识的汉语短文本分类，直接测量短文本实例与领域之间的关联性，而不是用权重向量来表示短文本。

首先，获取领域知识（使用长文本的外部语料库来描绘出每一个用户自定义领域的领域知识）。

计算关联性。

如果关联性比一个阈值更好，那么就将这个实例分配到该域中。

解决推特中短文本不能提供充足词共现数

第三种集成短文本分类方法是通过从推特用户头像和发布的文章中提取一小部分特定领域的特征。这种方法可以高效的分类文本到预先定义的一系列泛型中。

大规模短文本的实时分类

首先，指出实时性是短文本的另一个重要特征。同时，阐述了短文本中实时性的要求。最后引出，如何对短文本数据进行实时的分类是一个十分重要的问题。
指出在目前的情况下，朴素贝叶斯算法经常作为在线分类器。紧接着，指出朴素贝叶斯算法分类的依据：
通过计算文本属于每一个分类的概率来进行分类。

在线过滤与离线分类相结合的垃圾邮件过滤系统。

指出该垃圾邮件的过滤系统的工作方式。

①使用朴素贝叶斯算法依据发送行为的特征以及信息的内容对信息进行高效的分类。

②除此之外，该系统同时使用反馈自学习机制，因此，分类器可以根据分类的结果来进行自我提升。

基于朴素贝叶斯算法和支持向量机的垃圾邮件系统

通过利用朴素贝叶斯算法的快速统计的优点以及支持向量机的增量训练的功能，并且实时更新关键词数据库来提升自适应的能力。

短文本分类的评估方法（EVALUATION OF SHORT TEXT CLASSIFICATION）

1、Accuracy ：准确度
在这里插入图片描述

在这里插入图片描述
2、Precision and Recall ：精确度和召回率

3、F-measure：F度量，特征度量
在这里插入图片描述

4、Macro Average and Micro Average ：宏观平均数和微观平均数
在这里插入图片描述

总结

短文本有它自己的特征：
分散性、大规模、及时性、不标准性
因此，由于短文本的分散性，常用的机器学习方法通常不能够精确的表达所想得到准确度。

提出目前短文本分类算法主要关注的领域：
1、减低特征维度，利用语义关系提取特征。
2、使用半监督的分类算法，结合无标签数据来解决标签的瓶颈问题。
3、使用集成分类算法来解决分类的准确度问题
4、结合在线分类和离线分类来解决短文本的分类问题。

提出短文本呢仍然需要解决的问题：
1、设计动态的短文本流分类模型
2、多标签短文本分类
3、评论情绪分类
4、垃圾邮件过滤
5、话题跟踪和控制

标签

#机器学习 #深度学习 #分类