理解机器学习中监督学习,无监督学习和强化学习区别

在CDGA(数据治理工程师)的知识体系中,理解监督学习、无监督学习和强化学习,关键在于把握它们学习方式的差异——即模型从什么样的数据中、通过怎样的反馈来“学习”。

 

简单来说,它们的核心区别在于是否有“标准答案”以及如何获得反馈。

 

1. 监督学习:有“标准答案”的学习

 

这就像一位有老师指导的学习过程。你提供给模型的数据是带标签的,即同时输入了“问题”和对应的“正确答案”。模型通过学习这些样本,找出输入到输出之间的映射关系,最后用来预测新数据的标签。

 

· 核心特点:依赖高质量标注数据,预测目标明确,效果通常较好。

· CDGA关注点:在应用监督学习(如信用评分)时,数据的准确性、一致性至关重要。如果训练数据的标签错误,模型也会跟着出错。

· 常见任务:

  · 回归:预测连续值,如预测销售额。

  · 分类:预测离散类别,如判断客户是否会流失。

· 应用场景:信用风险评估(用历史好坏客户数据训练模型,判断新客户风险)、客户流失预测、垃圾邮件过滤。

 

2. 无监督学习:无“标准答案”的探索

 

这更像一个自学过程。提供给模型的数据是无标签的,没有“正确答案”。模型需要自己从数据中探索内在规律和结构,把相似的东西聚在一起。

 

· 核心特点:无需人工标注数据,主要用于探索性分析,但结果需人为解读。

· CDGA关注点:输入数据的质量直接影响聚类结果的可靠性。同时,数据治理需关注其结果的可解释性,比如客户分群的依据是什么。

· 常见任务:

  · 聚类:将相似样本自动分组,如客户分群。

  · 关联规则:发现“买了A的人也常买B”的规律。

· 应用场景:客户画像与分群(根据消费行为自动划分客群,实现精准营销)、异常检测(识别出不属于任何一类的离群点,如欺诈行为)、购物篮分析。

 

3. 强化学习:通过“试错与奖励”学习

 

这就像一个“猜数字”游戏。一个智能体(Agent)在与环境的互动中,根据环境给予的奖励或惩罚(强化信号)来调整自身行为,目标是最大化累积奖励。它没有直接的“正确答案”,只有行为后的反馈。

 

· 核心特点:通过“试错”机制学习序列决策,关注长期收益。

· CDGA关注点:模型在学习过程中会不断产生新数据(互动轨迹),需要治理好这些过程数据以确保可复现。同时,初期探索阶段的决策可能包含随机性。

· 应用场景:动态定价与推荐(系统不断调整价格或推荐策略,观察用户点击或购买这个“奖励”来优化长期收益)、机器人流程自动化、自动驾驶。

 

总结对比

 

· 学习方式:监督学习是从标注数据中学习;无监督学习是从数据本身探索规律;强化学习是在试错中学习策略。

· 有无标签:监督学习有;无监督学习无;强化学习无(但有奖励信号)。

· 反馈机制:监督学习是每次预测与标签对比;无监督学习是无直接反馈;强化学习是延迟的奖励。

· 典型场景:监督学习用于风控、预测;无监督学习用于分群、异常检测;强化学习用于动态决策、游戏AI。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值