基于统计模型的代价敏感主动学习(Cost-sensitive active learning through statistical methods)——CATS
主动学习的标签获取
在许多实际应用中, 数据规模庞大但是质量低下,具有精确标记信息的数据尤其稀少。其次,数据分析任务的难度越来越高,许多学习任务仅仅依靠机器已经难以达到实用的效果。因此,人与机器在学习过程中进行交互成为了一种更有效更现实的方案。在这样的背景下,主动学习从传统查询样本标记衍生出更多的查询方式,从用户获取更丰富的监督信息。目前,针对不同的领域,已经出现大量的标签获取方法的研究工作,例如:
1.基于密度聚类的主动学习(ALEC)
通过找到聚类中心,聚类中心的特点是密度高于邻居,与密度较高的实例相距较远。再为每个中心实例构建集群,以递归方式将集群索引分配给非中心实例,最终生成块信息表。该算法需要用户输入半径和阈值,这将降低聚类的准确性,并需要准确找到根节点,一旦错误将会导致分类错误,从而引起代价增加。
2.基于标签均匀分布模型的代价敏感模型(CADU)
考虑错误分类和教师代价来确定查询的标签数量。首先假设数据的模型是均匀分布的,在这种情况下实例数量N通常很大。然后查询许多标签,一旦查询的标签不相同,就将块分成两部分。此外,假如有足够数量的正(负)标签,就可以预测该块的其他标签,直到查询或分类每个实例,此过程终止。该算法是在假设数据都是服从均匀分布的前提下的,但数据并不是都服从均匀分布,所以聚类具有偶然性,可能会增加代价,并且只能用于“类圆形”聚类,不可用于任意形状的聚类。
针对上述不足,本文提出了基于统计模型的代价敏感主动学习:
1.可以降低样本的复杂性,即通过查询需要的标签数量来选择关键实例,达到最小化代价的目的。
2.通过引入集群构建实际标签分布模型,减少了所需标注实例的数量,降低了样本的复杂度。
基于统计模型的代价敏感主动学习
该算法通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型,得到所需要购买的标签数量,以达到降低购买标签所需代价的目的。同时,设计了CATS算法,查询和预测数据集。

1. 一般模型:
定理1.(离散的一般分布)假设 ∣X∣=n|X| = n∣X∣=n且P(i)P(i)P(i) 是X中存在 iii 个正实例的概率。所以从XXX中随机抽取RRR个正实例和BBB个负实例的条件概率是:
P(R∗∣R,B;n)=P(R∗)AR∗RAn−R∗B∑i=0nP(i)AiRAn−iB.P(R^* \left| R, B; n) = \right.\frac{P(R^*) A_{R^*}^R A_{n - R^*}^B}{\sum_{i = 0}^n {P(i) A_i^R A_{n - i}^B}}.P(R∗∣R,B;n)=∑i=0nP(i)AiRAn−iBP(R∗)AR∗RAn−R∗B.
定理2. 正实例的期望是:
r‾(n,R,B)=∑i=Rn−BiP(i)AiRAn−iBn∑i=Rn−BP(i)AiRAn−iB.\overline{r}(n, R, B) = \frac{ {\sum_{i = R}^{n - B}{i P(i) A_{i}^R A_{n - i}^B}}}{ {n \sum_{i = R}^{n - B} {P(i) A_i^R A_{n - i}^B}}}.r(n,R,B)=n∑i=Rn−BP(i)AiRAn−iB∑i=Rn−BiP(i)AiRAn−iB.
同理,负实例的期望是:
b‾(n,R,B)=∑i=Bn−RiP(i)AiBAn−iRn∑i=Bn−RP(i)AiBAn−iR.\overline{b}(n, R, B) = \frac{ {\sum_{i = B}^{n - R} {i P(i) A_{i}^B A_{n - i}^R}}}{ {n \sum_{i = B}^{n - R} {P(i) A_i^B A_{n - i}^R}}}.b(n,R,B)=n∑i=Bn−RP(i)AiBAn−iR∑i=Bn−RiP(i)AiBAn−iR.
2. 高斯分布模型
高斯分布是自然界最常见的分布,也是具有最差聚类性能的分布。单个实例服从伯努利分布,大多数数据集的标签分布遵循高斯分布。
假设1. 在XXX中存在iii个正实例的概率是:
P(i∣p)=Cnipi(1−p)(n−i),i=0,1,⋯ ,n,P(i | p) = C_n^i{p^i}{(1 - p)^{(n - i)}}, i = 0, 1, \cdots, n,P(i∣p)=Cnipi(1−p)(n−i),i=0,1,⋯,n,
其中:Cni=n!i!(n−i)!C_n^i = \frac{n!}{i!(n - i)!}Cni=i!(n−i)!n!.
定理3. 假设从XXX中随机抽取的RRR个正实例和BBB个负实例。XXX中存在R∗R^*R∗正实例的概率是:
P(R∗∣R,B;n)=CnR∗(p)R∗(1−p)(n−R∗)AR∗RAn−R∗B∑i=0nCni(p)i(1−p)(n−i)AiRAn−iB.P(R^* \left| R, B; n) = \right.\frac{C_n^{R^*} {(p)^{ {R^*}}}{(1 - p)^{(n - {R^*})}} A_{R^*}^R A_{n - {R^*}}^B} {\sum_{i = 0}^n {C_n^i {(p)^{ {i}}}{(1 - p)^{(n - {i})}} A_i^R A_{n - i}^B}}.P(R∗∣R,B;n)=∑i=0nCni(p)i(1−p)(n−i)AiRAn−iBCnR∗(p)R∗(1−p)(n−R∗)AR∗RAn−R∗B.
定理4. 正实例的预期比例是:
rˉ(n,R,B)=∑i=Rn−BiCni(p)i(1−p)(n−i)AiRAn−iBn∑i=Rn−BCni(p)i(1−p)(n−i)AiRAn−iB.\bar{r}(n, R, B)=\frac{\sum_{i=R}^{n-B} i C_{n}^{i}(p)^{i}(1-p)^{(n-i)} A_{i}^{R} A_{n-i}^{B}}{n \sum_{i=R}^{n-B} C_{n}^{i}(p)^{i}(1-p)^{(n-i)} A_{i}^{R} A_{n-i}^{B}}.rˉ(n,R,B)=n∑i=R

本文介绍了基于统计模型的代价敏感主动学习算法——CATS,旨在解决在大规模数据集上标签获取的挑战。通过构建一般分布、高斯分布、均匀分布、V分布和实际Mincurve分布模型,CATS算法能有效减少需要标注的实例数量,降低学习成本。文章详细探讨了算法的理论基础和实现步骤,包括实例选择、最佳查询数量的确定以及拆分策略,提供了MATLAB和Java代码实现及实验数据。
292

被折叠的 条评论
为什么被折叠?



