数值预测:回归入门
在机器学习中,预测数值是一项重要任务,本文将介绍最近邻回归和线性回归这两种方法,以及相关的统计指标。
1. 最近邻回归与统计指标
1.1 最近邻回归步骤
之前讨论过最近邻分类,其步骤如下:
1. 描述示例对之间的相似度。
2. 选择几个最相似的示例。
3. 将选择的示例组合成一个答案。
当从预测类别转向预测数值时,步骤1和2保持不变,但步骤3需要调整。不能简单地对候选答案进行投票,而是要将数值组合成一个具有代表性的答案。这就需要用到统计指标,下面介绍中位数和均值这两种常用的统计指标。
1.2 中位数
中位数是一组按顺序排列的数字中的中间数。例如,对于有序数组 [1, 8, 10] ,中位数是8,因为它上面和下面各有一个数字。如果数字个数为偶数,如 [1, 2, 3, 4] ,通常取中间两个数(2和3)的平均值,得到中位数2.5。
中位数具有鲁棒性,即当对排序数据的开头或结尾的数值进行调整时,中位数保持不变。例如,将 [1, 8, 10] 记录为 [2, 8, 11] ,中位数仍然是8。
以下是计算中位数的示例代码:
import numpy as np
values = np.array([1, 8, 10])
print(np.median(values))
values_with_fuzzy_tails = np.
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



