《Ensemble deep learning: A review》阅读笔记

最新推荐文章于 2026-05-16 14:23:02 发布

原创

最新推荐文章于 2026-05-16 14:23:02 发布 · 3.6k 阅读

标签

#论文阅读 #论文笔记 #集成学习

论文标题

《Ensemble deep learning: A review》

集成深度学习：综述

作者

M.A. Ganaie 和 Minghui Hu

来自印度理工学院印多尔分校数学系和南洋理工大学电气与电子工程学院

本文写的大而全。

初读

摘要

集成学习思想：

结合几个单独的模型以获得更好的泛化性能。
目前，深度学习架构与浅层或传统模型相比表现更好。深度集成学习模型结合了深度学习模型和集成学习的优点，使最终模型具有更好的泛化性能。
集成模型大致分类：
- 袋装法（bagging）
- 提升法（boosting）
- 堆叠法（stacking）
- 基于负相关的深度集成模型（negative correlation based）
- 显式/隐式集成（explicit/implicit）
- 同质/异质集成（homogeneous/heterogeneous）
- 基于决策融合策略的深度集成模型（decision fusion strategies based deep）
本文贡献：
- 本文回顾了最先进的深度集合模型，从而为研究人员提供了一个广泛的总结。
- 本文还简要讨论了深度集成模型在不同领域的应用。最后，我们总结了这篇文章，并提出了未来的一些研究方向。

结论

这篇文章主要是总结和展望，后面写。

再读

Section 1 Introduction

深度学习（Deep learning）：
- 深度学习架构已成功应用于从图像、视频分类到医疗保健等广泛领域。这些模型的成功归功于多层处理架构更好的特征表示。
- 深度学习模型主要用于分类、回归和聚类问题：
  - **分类（classification）**问题：
    
    分类问题被定义为根据从一组训练数据中学习到的假设 $h$ 对新观察结果进行分类。假设 $h$ 表示输入数据特征到适当目标标签/类别的映射。学习假设 $h$ 的主要目的是尽可能接近真实的未知函数，以减少泛化误差。这些分类算法有多种应用，从医疗诊断到遥感都有。从数学上来看：
    $O_c=h(x,\theta_c),\ O_c\in\Z$
    参数字典：
    - $x$ 是输入特征向量，
    - $O_c$ 是样本 $x$ 的类别，
    - $θ\theta$ 是假设 $h$ 的学习参数集，
    - $Z$ 是类别标签集。
  - **回归（regression）**问题
    
    回归问题处理的是连续决策，而不是离散类别。从数学上来看：
    $O_r=h(x,\theta_r),\ O_r\in\R$
    参数字典：
    - $x$ 是观测向量，
    - $O_r$ 是输出，
    - $θr\theta_r$ 是假设 $h$ 的学习参数集。
  - **聚类（clustering）**问题
    
    从广义上讲，有监督分类、无监督分类、少量分类、一次分类等不同的分类方法。在此，我们只讨论有监督和无监督分类问题。在有监督学习中，假设 $h$ 的建立是基于训练数据样本中提供的已知输出标签进行监督的，而在无监督学习中，由于训练数据中没有已知输出值，因此假设 $h$ 的生成不需要任何监督。这种方法也称为聚类，根据训练数据中存在的相似性和不相似性生成假设 $h$ 。
集成学习（ensemble learning）：
- 机器学习的目的——泛化：
  
  一般来说，在机器学习领域生成假设 $h$ 的目的是，在应用于未知数据时，假设 $h$ 应该表现得更好。模型的性能是根据模型应用的领域来衡量的。
- 集成学习定义：
  
  事实证明，结合多个模型的预测结果是提高模型性能的有效方法。将来自不同模型的几种不同预测结果组合起来进行最终预测，被称为集成学习或集成模型。集成学习涉及多个模型以某种方式（如平均、投票）进行组合，从而使集成模型优于任何单个模型。
- 集成的理论依据：
  
  为了证明集成投票的平均值优于个人模式，孔多塞侯爵（Marquis de Condorcet）提出了一个定理，证明如果每个投票人正确的概率高于 0.5 且投票人是独立的，那么增加更多投票人就会增加多数票正确的概率，直到接近 1。虽然孔多塞侯爵是在政治学领域提出这个定理的，对机器学习领域并不了解，但正是类似的机制导致了集成模型的更好表现。孔多塞侯爵定理的假设也适用于集成。
- 集成学习取得成功的原因包括：统计（statistical）、计算（computational）和表征学习（representation learning）、偏差-方差分解（bias-variance decomposition）和强度-相关性（strength-correlation）。
深度集成学习（deep ensemble learning）：
- 深度方面
  - 在这个机器学习时代，深度学习通过分层特征学习机制自动提取高级特征，其中上层特征是在上一层/上几层的基础上生成的。自 ImageNet 大规模识别挑战赛（ILSVRC）比赛以来，深度学习已成功应用于不同领域，并取得了一流的性能。它在物体检测、语义分割、边缘检测和其他一些领域都取得了可喜的成果。
  - 人们提出了不同的观点来理解深度学习模型如何学习特征，比如通过多层次的表征来学习概念的层次结构。虽然深度学习模型具有来自深度架构的优势，但仍存在一些瓶颈，如梯度消失/爆炸和退化问题，这些都阻碍了深度学习模型实现这一目标。
  - 最近，通过高速公路（Highway）网络和残差（Residual）网络训练深度网络变得可行。这两种网络都能训练非常深度的网络。
- 集成方面：
  - 然而，考虑到计算成本，深度集成集合模型的训练是一项艰巨的任务。
  - 众所周知，集成学习是提高深度学习模型性能的重要原因。因此，深度集成模型的目标是获得集成模型和深度模型的最佳模型。
相关工作：

文献中有许多研究主要集中于集成学习的综述，如分类问题、回归问题和聚类问题中的集成模型学习。
- 文献[23]对分类和回归模型进行了综述。
- 文献[24]全面回顾了集成方法和面临的挑战。虽然[24]提供了一些关于深度集成模型的见解，但未能全面评述深度集成学习，
- 而[25]则评述了生物信息学背景下的集成深度模型。过去十年间，不同的深度学习策略相继问世，促使这些模型在医疗保健、语音、图像分类、预测和其他应用等多个领域进行探索和创新。
本文贡献：
- 从广义上讲，集成学习方法遵循经典方法、通用方法和不同的融合策略，以提高模型的性能。由于深度学习模型需要大量的计算和数据，因此在将多种算法的互补信息整合到一个统一框架中时，需要特别关注集成深度学习模型。
- 集成深度学习模型需要处理多个问题，如如何在基线模型中诱导多样性，如何在实际应用中保持较低的训练时间和模型复杂度，如何融合互补算法的预测结果。多项研究以不同的方式处理了这些问题。
- 在这篇综述论文中，我们全面回顾了用于处理上述问题的不同方法。在本文中，我们将对深度集成模型进行全面评述。据我们所知，这是第一篇关于深度集成模型的全面综述论文。

本文接下来的内容安排如下：第3节讨论了深度集成学习的理论方面，第4节讨论了深度集成策略中使用的不同方法，第5节给出了深度集成方法的应用，最后第6节给出了结论和未来方向。

在这里插入图片描述

Section 2 Research Methodology

本综述中的研究是从谷歌学术（Google Scholar）和斯科普斯（Scopus）搜索引擎中搜索的。这些论文是以集成学习、集成深度学习、深度集成学习、深度集成为关键词的结果。根据标题和摘要对文章进行筛选，然后筛选全文版本。这些文章基于集成学习和深度学习方法进行阐述。

Section 3 Theory

3.1 Bias-Variance Decomposition

偏差-方差分解

最初，人们从理论上研究了针对回归问题的集成方法是否成功。

Krogh 和 Vedelsby、Brown 等人通过模糊分解证明，与分类器的单个预测因子相比，适当的集成分类器能保证较小的平方误差。模糊性分解是针对基于单一数据集的集合方法给出的。
后来，[27, 28, 29, 30] 中引入了多数据集偏差-方差-协方差分解，其公式为：
$\begin{align} E[o-t]^2&=bias^2+\frac{1}{M}var+(1-\frac{1}{M})covar,\\ bias&=\frac{1}{M}\sum_i(E[o_i-t]),\\ var&=\frac{1}{M}\sum_iE[o_i-E[o_i]]^2,\\ covar&=\frac{1}{M(M-1)}\sum_i\sum_{i\ne j}E[o_i-E[o_i]][o_j-E[o_j]], \end{align}$

最低0.47元/天解锁文章