人工智能“学习”范式大全(24种)

将人工智能领域所有主流的“学习”范式,按照 “核心思想 -> 关键特点 -> 典型方法” 的提纲重新整合与梳理,并按当前流行度与应用广度进行排序。


第一梯队:基石与主流范式

1. 监督学习- “老师手把手教”
  • 核心思想:利用已标注(输入-输出对)的数据集,学习从输入到输出的映射函数。

  • 关键特点

    • 目标明确,直接优化预测准确性。

    • 依赖大量高质量标注数据。

    • 理论成熟,是大多数应用的基础。

  • 典型方法:线性/逻辑回归、支持向量机、决策树、深度神经网络。

2. 无监督学习 - “自己整理图书馆”
  • 核心思想:从未标注的数据中发现内在的结构、模式或分布,无需人工干预。

  • 关键特点

    • 探索性分析,无明确预测目标。

    • 处理海量无标签数据。

    • 常用于数据预处理和理解。

  • 典型方法:K-means/层次聚类、主成分分析、自编码器、关联规则。

3. 自监督学习- “自己出题考自己”
  • 核心思想:从数据本身构造“伪标签”或“前置任务”,让模型通过完成这些任务学习通用的高质量数据表示。

  • 关键特点

    • 无需人工标注,利用海量无标签数据。

    • 核心是“预测数据的一部分”或“对比学习”。

    • 已成为大模型预训练的事实标准。

  • 典型方法:掩码语言建模、对比学习、图像修补、时序预测。

4. 强化学习- “在游戏中通关晋级”
  • 核心思想:智能体通过与环境交互,根据获得的奖励或惩罚信号,学习达成长期目标的最优行为策略。

  • 关键特点

    • 关注序列决策和延迟奖励。

    • 核心是“探索”与“利用”的权衡。

    • 适用于动态、交互式环境。

  • 典型方法:Q-learning、深度确定性策略梯度、近端策略优化、演员-评论家架构。

5. 迁移学习- “举一反三”
  • 核心思想:将在源任务或领域上学到的知识(模型参数、特征表示),迁移并应用于一个新的、相关的目标任务或领域。

  • 关键特点

    • “站在巨人肩膀上”。

    • 解决目标领域数据稀缺问题。

    • “预训练-微调”是主流范式。

  • 典型方法:特征提取、模型微调、领域自适应。

6. 半监督学习 - “老师点拨,学生自学”
  • 核心思想:同时利用少量标注数据和大量未标注数据进行训练,以提升模型性能。

  • 关键特点

    • 在标注成本高昂的场景下提高数据利用效率。

    • 假设未标注数据与标注数据共享分布信息。

    • 利用未标注数据平滑决策边界。

  • 典型方法:自训练、一致性正则化、伪标签、图神经网络。


第二梯队:重要研究与前沿范式

7. 多任务学习- “一石多鸟”
  • 核心思想:一个模型同时学习多个相关任务,通过在任务间共享表示,使各个任务相互促进、共同提升。

  • 关键特点

    • 提升模型的泛化能力和数据效率。

    • 参数共享引入有效的归纳偏置。

    • 可部署为统一的多功能模型。

  • 典型方法:硬参数共享、软参数共享、任务关系学习。

8. 元学习- “学会如何学习”
  • 核心思想:让模型“学会如何学习”,即在大量任务上训练后,获得快速适应全新、少量样本任务的能力。

  • 关键特点

    • 目标是学习过程本身,而非特定任务。

    • 核心是两阶段训练:元训练和元测试。

    • 解决小样本学习问题的关键。

  • 典型方法:模型无关元学习、基于记忆的网络、基于度量的方法。

9. 上下文学习 - "看例子,照样子做"
  • 核心思想:模型仅通过当前输入中提供的少量任务示例(上下文),就能在不更新参数的情况下,即时理解并执行新任务。

  • 关键特点

    • 学习发生在模型推理过程中,模型参数保持冻结

    • 完全依赖输入中的示例来推断任务模式,没有长期记忆

    • 是大模型预训练阶段内化的"元学习"能力的直接体现

    • 示例的数量、质量和顺序对效果影响显著

  • 典型方法:Few-shot提示(在输入中提供示例)、演示校准(优化示例选择和排列)

10. 联邦学习- “数据不出门,模型共成长”
  • 核心思想:多个参与方在本地数据上训练模型,仅交换模型更新(而非原始数据),共同构建一个全局模型,保护数据隐私。

  • 关键特点

    • “数据不动模型动”,满足隐私合规要求。

    • 处理非独立同分布数据是关键挑战。

    • 通信效率是核心考量。

  • 典型方法:联邦平均、联邦蒸馏、安全聚合。

11. 对比学习- “在比较中认识世界”
  • 核心思想:通过拉近相似样本(正样本对)、推开不相似样本(负样本对)的方式,学习数据的有效表示。

  • 关键特点

    • 是自监督学习的一种强大实现方式。

    • 对数据增强策略非常敏感。

    • 在多模态对齐中表现出色。

  • 典型方法:SimCLR、MoCo、InfoNCE损失、孪生网络。

12. 提示学习 - "给AI读使用说明书"
  • 核心思想:通过设计自然语言提示(任务描述、指令、示例等),引导预训练大模型完成特定任务而无需更新参数。

  • 关键特点

    • 将传统任务转化为大模型能理解的"填空"或"续写"格式

    • 通过调整输入而非参数来适配任务,参数效率极高

    • 为不同任务提供统一的自然语言交互接口

    • 提示的设计质量对任务性能影响巨大

  • 典型方法:离散提示工程(人工设计模板)、连续提示(可训练的提示向量)、指令微调(用指令对微调模型)

13. 持续学习 / 终身学习 - “学而不忘,终身成长”
  • 核心思想:模型在不遗忘旧知识的前提下,持续、顺序地学习新任务或新数据,像人类一样终身成长。

  • 关键特点

    • 核心挑战是克服“灾难性遗忘”。

    • 需要平衡“稳定性”与“可塑性”。

    • 适用于数据流和任务流场景。

  • 典型方法:弹性权重巩固、经验回放、动态架构扩展、知识蒸馏。


第三梯队:专项与应用导向范式

14. 在线学习 - “在游泳中学会游泳”
  • 核心思想:数据以流式顺序到达,模型每收到一个(或一小批)样本就立即更新,并通常丢弃该样本,实现实时适应。

  • 关键特点

    • 内存和计算效率高。

    • 能够跟踪数据分布的动态变化。

    • 无法重新访问全部历史数据。

  • 典型方法:在线梯度下降、感知机、Bandit算法。

15. 小样本学习- “窥一斑而知全豹”
  • 核心思想:模型在仅看到极少数(如每类1-5个)样本的情况下,就能识别或学习新类别。

  • 关键特点

    • 评估场景,关注模型从少量样本中泛化的能力。

    • 与元学习高度相关,但侧重点不同。

    • 适用于标注极其困难的领域。

  • 典型方法:原型网络、关系网络、基于微调的预训练模型。

16. 零样本学习 - “闻所未闻,也能识别”
  • 核心思想:模型能够识别或处理在训练阶段从未见过类别的样本,通常依赖类别的语义描述。

  • 关键特点

    • 依赖可见类与不可见类之间的语义关联。

    • 通常使用属性、词向量等作为中间桥梁。

    • 实现真正的开放世界识别。

  • 典型方法:基于属性的分类、语义嵌入空间映射、生成式方法。

17. 模仿学习- “有样学样”
  • 核心思想:通过观察专家(如人类)的示范行为来学习策略,而无需手工设计奖励函数。

  • 关键特点

    • 降低强化学习中奖励函数的设计难度。

    • 可以直接复制行为,但可能存在分布漂移问题。

    • 分为行为克隆和逆强化学习。

  • 典型方法:行为克隆、逆强化学习、生成对抗式模仿学习。

18. 生成对抗学习- “真假博弈,共同进化”
  • 核心思想:通过生成器和判别器两个网络的对抗博弈,生成器学习产生逼真数据,判别器学习区分真实与生成数据。

  • 关键特点

    • 训练过程不稳定,需要精细调参。

    • 能学习复杂的数据分布,生成高质量新样本。

    • 存在模式崩溃等经典问题。

  • 典型方法:原始GAN、Wasserstein GAN、条件GAN、StyleGAN。

19. 集成学习- “三个臭皮匠,顶个诸葛亮”
  • 核心思想:结合多个基学习器的预测结果,通过集体决策获得比任何单一组件更优的性能。

  • 关键特点

    • “三个臭皮匠,顶个诸葛亮”。

    • 有效降低方差或偏差,提高鲁棒性。

    • 训练和推理成本较高。

  • 典型方法:Bagging、Boosting、Stacking、随机森林。

20. 主动学习- “不懂就问,高效学习”
  • 核心思想:模型主动选择对提升自身性能最有价值的未标注样本,交由专家标注,以最大化标注数据的利用效率。

  • 关键特点

    • 核心是设计样本价值的“查询策略”。

    • 旨在用最少的标注成本达到最佳性能。

    • 适用于标注成本极高的领域。

  • 典型方法:不确定性采样、委员会查询、基于模型的预期误差降低。


第四梯队:其他相关范式

  • 19.弱监督学习- “雾里看花,但也能看清轮廓”
  • 使用不完整、不精确或有噪声的标签进行训练。典型方法:多实例学习。

  • 20.课程学习- “循序渐进的教学法”
  • 模仿人类,从简单样本开始学习,逐步增加难度。典型方法:自步学习。

  • 21.对抗性学习- “在攻防演练中变强”
  • 通过在训练中引入精心构造的对抗样本,提高模型的鲁棒性。典型方法:对抗训练。

  • 22.神经符号学习 - “理性与感性的结合”
  • 结合神经网络的感知能力与符号系统的逻辑推理能力。典型方法:神经定理证明、符号引导的神经网络。

  • #学习范式核心比喻核心思想关键特点典型方法
    基石与主流范式
    1监督学习老师手把手教利用标注数据学习输入到输出的映射。目标明确,依赖标注数据,理论成熟。深度神经网络、SVM、决策树。
    2无监督学习自己整理图书馆从无标签数据中发现内在结构或模式。探索性分析,无需标注,用于预处理。K-means, PCA, 自编码器。
    3自监督学习自己出题考自己设计前置任务,从数据本身生成监督信号。无需人工标注,大模型预训练核心。掩码语言建模, 对比学习。
    4强化学习在游戏中通关晋级通过环境交互与奖励信号学习最优策略。关注序列决策,探索与利用的权衡。Q-learning, DDPG, PPO。
    5迁移学习站在巨人肩膀上将源任务知识迁移应用于新目标任务。解决数据稀缺,“预训练-微调”是范式。模型微调, 领域自适应。
    6半监督学习老师点拨,学生自学同时利用少量标注和大量未标注数据。提高标注数据效率,利用数据分布。自训练, 一致性正则化。
    重要研究与前沿范式
    7多任务学习一石多鸟一个模型同时学习多个相关任务,共享知识。提升泛化与效率,需平衡任务损失。硬/软参数共享。
    8联邦学习数据不出门,模型共成长多方本地训练,仅交换模型更新以保护隐私。隐私保护,处理非独立同分布数据。联邦平均, 安全聚合。
    9上下文学习 

    看例子,照样子做

    仅凭输入中的几个示例,即时理解并执行新任务。无需更新参数,依赖上下文示例,元学习能力的体现。Few-shot提示, 演示校准
    10对比学习在比较中认识世界拉近相似样本,推远不相似样本以获得表示。自监督的强大分支,对数据增强敏感。SimCLR, MoCo, InfoNCE。
    11元学习学会如何学习在大量任务上训练,获得快速适应新任务的能力。解决小样本问题,分元训练与元测试。MAML, 基于记忆的网络。
    12示学习给AI读说明书通过设计提示词(指令/示例),引导大模型完成特定任务。调整输入而非参数,高效适配,依赖提示质量。提示工程, 指令微调。
    13持续学习学而不忘,终身成长持续学习新任务而不遗忘旧知识。克服“灾难性遗忘”,平衡稳定与可塑。弹性权重巩固, 经验回放。
    14在线学习在游泳中学会游泳数据流式到达,模型即时更新并适应变化。内存效率高,适应概念漂移。在线梯度下降, Bandit算法。
    专项与应用导向范式
    15小样本学习窥一斑而知全豹用极少数样本(每类1-5个)学习新类别。评估泛化能力,与元学习紧密相关。原型网络, 关系网络。
    16零样本学习闻所未闻,也能识别识别训练中未出现过的类别,依赖语义描述。开放世界识别,依赖语义关联。基于属性的分类, 语义嵌入。
    17模仿学习有样学样通过观察专家示范行为来学习策略。避免设计奖励函数,可能受限于演示数据。行为克隆, 逆强化学习。
    18生成对抗学习真假博弈,共同进化生成器与判别器对抗博弈以生成逼真数据。训练不稳定,能生成高质量样本。GAN, WGAN, StyleGAN。
    19集成学习三个臭皮匠,顶个诸葛亮结合多个基学习器的预测以获得更优结果。提升稳定性与性能,增加计算成本。Bagging, Boosting, 随机森林。
    20主动学习不懂就问,高效学习模型主动选择最有价值的样本请求标注。最大化标注效率,核心是查询策略。不确定性采样, 委员会查询。
    其他重要范式
    21弱监督学习雾里看花,但也能看清轮廓使用不完整、不精确或带噪声的标签进行训练。降低标注成本,从弱信号中学习可靠模型。多实例学习, 带噪标签学习。
    22课程学习循序渐进的教学法从简单样本开始学习,逐步增加难度。符合认知规律,可加速收敛,需定义难度。自步学习, 难度调度。
    23对抗性学习在攻防演练中变强加入对抗样本训练,以提高模型鲁棒性。专注于安全与可靠性,分攻击与防御。对抗训练, FGSM/PGD攻击。
    24神经符号学习理性与感性的结合结合神经网络的感知与符号系统的推理。追求可解释AI,融合学习与推理。神经定理证明, 符号引导的神经网络。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值