基于统计模型的代价敏感主动学习（Cost-sensitive active learning through statistical methods）——CATS

最新推荐文章于 2024-03-11 20:30:37 发布

原创

最新推荐文章于 2024-03-11 20:30:37 发布 · 2.2k 阅读

标签

#数据挖掘 #机器学习

本文介绍了基于统计模型的代价敏感主动学习算法——CATS，旨在解决在大规模数据集上标签获取的挑战。通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型，CATS算法能有效减少需要标注的实例数量，降低学习成本。文章详细探讨了算法的理论基础和实现步骤，包括实例选择、最佳查询数量的确定以及拆分策略，提供了MATLAB和Java代码实现及实验数据。

基于统计模型的代价敏感主动学习（Cost-sensitive active learning through statistical methods）——CATS

主动学习的标签获取

在许多实际应用中，数据规模庞大但是质量低下，具有精确标记信息的数据尤其稀少。其次，数据分析任务的难度越来越高，许多学习任务仅仅依靠机器已经难以达到实用的效果。因此，人与机器在学习过程中进行交互成为了一种更有效更现实的方案。在这样的背景下，主动学习从传统查询样本标记衍生出更多的查询方式，从用户获取更丰富的监督信息。目前，针对不同的领域，已经出现大量的标签获取方法的研究工作，例如：

1.基于密度聚类的主动学习(ALEC)

通过找到聚类中心，聚类中心的特点是密度高于邻居，与密度较高的实例相距较远。再为每个中心实例构建集群，以递归方式将集群索引分配给非中心实例，最终生成块信息表。该算法需要用户输入半径和阈值，这将降低聚类的准确性，并需要准确找到根节点，一旦错误将会导致分类错误，从而引起代价增加。

2.基于标签均匀分布模型的代价敏感模型(CADU)

考虑错误分类和教师代价来确定查询的标签数量。首先假设数据的模型是均匀分布的，在这种情况下实例数量N通常很大。然后查询许多标签，一旦查询的标签不相同，就将块分成两部分。此外，假如有足够数量的正（负）标签，就可以预测该块的其他标签，直到查询或分类每个实例，此过程终止。该算法是在假设数据都是服从均匀分布的前提下的，但数据并不是都服从均匀分布，所以聚类具有偶然性，可能会增加代价，并且只能用于“类圆形”聚类，不可用于任意形状的聚类。

针对上述不足，本文提出了基于统计模型的代价敏感主动学习：

1.可以降低样本的复杂性，即通过查询需要的标签数量来选择关键实例，达到最小化代价的目的。
2.通过引入集群构建实际标签分布模型，减少了所需标注实例的数量，降低了样本的复杂度。

基于统计模型的代价敏感主动学习

该算法通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型，得到所需要购买的标签数量，以达到降低购买标签所需代价的目的。同时，设计了CATS算法，查询和预测数据集。
在这里插入图片描述

1. 一般模型：
定理1.（离散的一般分布）假设 $∣ X ∣ = n$ 且 $P (i)$ 是X中存在 $i$ 个正实例的概率。所以从 $X$ 中随机抽取 $R$ 个正实例和 $B$ 个负实例的条件概率是：

$P(R∗∣R,B;n)=P(R∗)AR∗RAn−R∗B∑i=0nP(i)AiRAn−iB.P(R^* \left| R, B; n) = \right.\frac{P(R^*) A_{R^*}^R A_{n - R^*}^B}{\sum_{i = 0}^n {P(i) A_i^R A_{n - i}^B}}.$

定理2. 正实例的期望是：

$r‾(n,R,B)=∑i=Rn−BiP(i)AiRAn−iBn∑i=Rn−BP(i)AiRAn−iB.\overline{r}(n, R, B) = \frac{ {\sum_{i = R}^{n - B}{i P(i) A_{i}^R A_{n - i}^B}}}{ {n \sum_{i = R}^{n - B} {P(i) A_i^R A_{n - i}^B}}}.$

同理，负实例的期望是：

$b‾(n,R,B)=∑i=Bn−RiP(i)AiBAn−iRn∑i=Bn−RP(i)AiBAn−iR.\overline{b}(n, R, B) = \frac{ {\sum_{i = B}^{n - R} {i P(i) A_{i}^B A_{n - i}^R}}}{ {n \sum_{i = B}^{n - R} {P(i) A_i^B A_{n - i}^R}}}.$

2. 高斯分布模型
高斯分布是自然界最常见的分布，也是具有最差聚类性能的分布。单个实例服从伯努利分布，大多数数据集的标签分布遵循高斯分布。
假设1. 在 $X$ 中存在 $i$ 个正实例的概率是：

$C_n^i{p^i}{(1 - p)^{(n - i)}}, i = 0, 1, \cdots, n,$

其中： $Cni=n!i!(n−i)!C_n^i = \frac{n!}{i!(n - i)!}$ .

定理3. 假设从 $X$ 中随机抽取的 $R$ 个正实例和 $B$ 个负实例。 $X$ 中存在 $R^*$ 正实例的概率是：

$P(R∗∣R,B;n)=CnR∗(p)R∗(1−p)(n−R∗)AR∗RAn−R∗B∑i=0nCni(p)i(1−p)(n−i)AiRAn−iB.P(R^* \left| R, B; n) = \right.\frac{C_n^{R^*} {(p)^{ {R^*}}}{(1 - p)^{(n - {R^*})}} A_{R^*}^R A_{n - {R^*}}^B} {\sum_{i = 0}^n {C_n^i {(p)^{ {i}}}{(1 - p)^{(n - {i})}} A_i^R A_{n - i}^B}}.$

定理4. 正实例的预期比例是:

$rˉ(n,R,B)=∑i=Rn−BiCni(p)i(1−p)(n−i)AiRAn−iBn∑i=Rn−BCni(p)i(1−p)(n−i)AiRAn−iB.\bar{r}(n, R, B)=\frac{\sum_{i=R}^{n-B} i C_{n}^{i}(p)^{i}(1-p)^{(n-i)} A_{i}^{R} A_{n-i}^{B}}{n \sum_{i=R}^{n-B} C_{n}^{i}(p)^{i}(1-p)^{(n-i)} A_{i}^{R} A_{n-i}^{B}}.$

最低0.47元/天解锁文章