机器学习基础问题解析与案例详解

最新推荐文章于 2026-06-14 14:50:45 发布

原创

最新推荐文章于 2026-06-14 14:50:45 发布 · 1.1k 阅读

文章标签：

#机器学习 # 监督学习 # 无监督学习

1、对于以下每个场景，说明它是监督学习还是无监督学习的示例。解释你的答案。若存在歧义，选择一种并解释原因。a. 社交网络上为用户推荐潜在朋友的推荐系统 b. 新闻网站将新闻分类的系统 c. 谷歌句子自动补全功能 d. 在线零售商根据用户过去的购买历史向用户推荐购买商品的推荐系统 e. 信用卡公司捕捉欺诈交易的系统

a. 既是监督学习也是无监督学习。
- 监督学习 ：为特定用户构建分类模型，将其他用户标记为潜在朋友（正标签）或非潜在朋友（负标签）。
- 无监督学习 ：对用户进行聚类，向特定用户推荐其所在聚类中的其他用户作为潜在朋友。

b. 既是监督学习也是无监督学习。
- 监督学习 ：构建分类模型，将每篇新闻文章标记为特定主题，如政治、体育或科学。
- 无监督学习 ：对文章进行聚类，手动检查每个聚类中的主题是否相似，若相似则手动为每个聚类标记最常见的主题，也可使用潜在狄利克雷分配等高级无监督学习技术。

c. 更倾向于监督学习任务。
- 监督学习 ：构建分类模型，特征为用户输入的最后几个单词，标签为用户接下来要输入的单词，模型的预测即为推荐给用户的单词。

d. 可视为监督学习或无监督学习问题。
- 监督学习 ：为特定用户构建分类模型预测其是否会购买某个产品，也可构建回归模型预测用户在该产品上的花费。
- 无监督学习 ：对用户或产品进行聚类，若用户购买了某产品，向其所在聚类中的其他用户推荐该产品或同类产品。

e. 更倾向于监督学习任务。
- 监督学习 ：构建分类模型，根据交易特征预测某笔交易是否为欺诈交易。
- 无监督学习 ：对交易进行聚类，离群的交易更有可能是欺诈交易。

2、对于以下机器学习应用，你会使用回归还是分类来解决？解释你的答案。若有歧义，选择一种方法并解释原因。a. 在线商店预测用户在其网站上的消费金额；b. 语音助手将语音解码并转换为文本；c. 买卖某家公司的股票；d. YouTube 为用户推荐视频。

a. 回归，因为预测用户消费金额是一个连续的数值，回归适用于预测连续值。

b. 回归和分类都不是，这是语音识别问题，是将语音信号映射为文本序列，不属于回归或分类任务。

c. 若预测预期收益或风险，用回归；若预测是否购买股票，用分类。

d. 若预测用户观看视频的时长来推荐，用回归；若预测用户是否会观看视频，用分类。

3、你的任务是制造一辆自动驾驶汽车。请给出至少三个在制造过程中需要解决的机器学习问题的例子。在每个例子中，说明你使用的是监督学习还是无监督学习；如果是监督学习，说明使用的是回归还是分类。如果你使用的是其他类型的机器学习方法，请说明是哪些方法以及原因。

基于图像判断是否有行人、停车标志、车道、其他车辆等的分类模型。
- 这属于 监督学习 中的分类，是 计算机视觉 领域。
基于汽车各种传感器（如激光雷达等）的信号判断汽车周围物体的分类模型。
- 同样属于 监督学习 中的分类。
寻找到达期望目的地最近路径的机器学习模型。
- 这不属于精确的 监督学习 或 无监督学习 。
- 可使用一些经典的人工智能算法，如 A* （A-star）搜索算法。

4、一个网站训练了一个线性回归模型来预测用户在该网站上花费的分钟数。得到的公式是 tˆ = 0.8d + 0.5m + 0.5y + 0.2a + 1.5，其中 tˆ 是预测的时间（分钟），d、m、y 和 a 是指示变量（即它们只取 0 或 1 的值），定义如下：d 表示用户是否使用桌面设备；m 表示用户是否使用移动设备；y 表示用户是否年轻（21 岁以下）；a 表示用户是否是成年人（21 岁及以上）。示例：如果一个 30 岁的用户使用桌面设备，那么 d = 1，m = 0，y = 0，a = 1。如果一个 45 岁的用户通过手机浏览网站，他们预计会在网站上花费多长时间？

在此情况下，各变量的值如下：

d = 0 ，因为用户未使用桌面设备
m = 1 ，因为用户使用的是移动设备
y = 0 ，因为用户不在 21 岁以下
a = 1 ，因为用户超过 21 岁

将这些值代入公式，可得：

tˆ = 0.8×0 + 0.5×1 + 0.5×0 + 0.2×1 + 1.5 = 2.2

这意味着模型预测该用户将在网站上花费 2.2 分钟 。

5、假设我们在一个医疗数据集上训练了一个线性回归模型。该模型用于预测患者的预期寿命。模型会为数据集中的每个特征分配一个权重。a) 对于以下特征，判断你认为与之关联的权重是正数、负数还是零。注意：如果你认为权重是一个非常小的数（无论是正数还是负数），可以说它为零。1. 患者每周锻炼的小时数 2. 患者每周吸烟的数量 3. 有心脏病问题的家庭成员数量 4. 患者的兄弟姐妹数量 5. 患者是否曾住院治疗 b) 该模型还有一个偏差。你认为这个偏差是正数、负数还是零？

a) 
1. **正数**。锻炼多的患者预期寿命比不锻炼的类似患者长。
2.

最低0.47元/天解锁文章