机器学习概念（一）

原创

已于 2025-05-26 23:22:29 修改 · 1.6k 阅读

于 2024-03-15 14:58:18 首次发布

本文介绍了机器学习中的监督学习、回归（包括线性回归）和分类方法，以及无监督学习中的聚类和降维技术。重点讲解了成本函数和损失函数的概念，以及优化算法如梯度下降在模型训练中的应用，还讨论了特征缩放技术在处理不同特征值范围时的重要性，如多项式回归的非线性拟合。

机器学习

是一门使计算机在没有明确编程的情况下具备学习能力的研究领域。

监督学习（Supervised learning）

监督学习算法

通过学习输入（x）到输出（y）的映射关系。在监督学习中，你需要为算法提供一些带有正确答案（正确的y值）的样本来进行学习。

回归（Regression）

回归是监督学习的一种类型，任务是预测一个连续的数值。例如，根据房屋面积预测房价。在这个问题中，我们可以使用不同的算法来拟合数据（例如线性回归或曲线拟合）。

在这里插入图片描述

分类（Classification）

分类是监督学习的另一种类型，任务是将输入数据分配到有限数量的类别中，输出是离散值。例如，根据电子邮件内容判断是否为垃圾邮件，预测离散数值。

input X	output Y	Application
email	是垃圾？ 0/1	垃圾分类
英文语音	中文文字翻译	机器语音翻译软件
英语	日语	机器翻译
广告、客户信息	click？0/1	在线广告策略分析
图片、雷达等	与其他车的位置关系	自动驾驶

二分类问题

输出只有两个类别，肿瘤良性或恶性

多分类问题

输出有多个类别，肿瘤可能被诊断为良性、恶性类型1或恶性类型2

输入特征

监督学习算法使用一或多个输入特征进行预测

边界线

在分类问题中，学习算法需要找到一个边界线，将不同类别的数据点分开。

非监督学习（Unsupervised Learning）

无监督学习

与监督学习不同，无监督学习算法不需要输出标签。它们的目标是从未标记的数据中找到某种结构、模式或者有趣的信息。

在这里插入图片描述

聚类算法（Clustering）

将未标记的数据分为不同的群组或簇。新闻归类、DNA 数据分析、市场细分

其他类型方法

异常检测（Anomaly Detection）

异常检测是一种用于检测数据中异常或罕见事件的方法。它在诸如金融欺诈检测、网络入侵检测和设备故障预测等领域有广泛应用。

降维（Dimensionality Reduction）

降维是一种将高维数据压缩到低维数据的方法，同时尽量保留原始数据中的信息。降维可以用于数据可视化、提高算法性能、减少存储需求等。常见的降维方法有主成分分析（PCA）、t-分布邻域嵌入算法（t-SNE）等。

生成模型（Generative Models）

生成模型是一类可以生成新数据的无监督学习方法。最近，生成对抗网络（GANs）和变分自编码器（VAEs）等生成模型在图像生成、文本生成和风格迁移等领域取得了显著的成功。

回归模型（Regression Model）

线性回归模型（Linear Regression with One Variable）

通过拟合一条直线来描述数据之间的关系。

在这里插入图片描述

数据表示及基本概念

关于数据表示，我们通常用小写的x表示输入变量，也称为特征；用小写的y表示输出变量，也称为目标变量。数据集中的每一行代表一个训练样本。我们用小写的m表示训练样本的总数。为了表示特定的训练样本，我们使用带上标的表示法，如x^(i)和y(i)，上标i表示第i个训练样本。

==训练集（Training Set）==是用于训练模型的数据集合。它通常是一个包含输入特征和对应输出值（或目标变量）的数据集，模型使用这些数据来学习如何将输入特征映射到正确的输出值。

==单个训练样本（Single Training Example）==指的是用于训练机器学习模型的单个输入数据样本。在监督学习中，单个训练样本通常包含一个输入特征向量和一个对应的输出标签或目标变量。

在这里插入图片描述

函数 f：模型Model 、

变量 X：特征 Feature 、

输出 y-hat（ $y^\widehat{y}$ ）：预测值

算法（单变量线性回归）从训练集数据 X、Y 中学习并生成最佳拟合线 f(x)=wx+b。

函数 f(x) 的作用是使用 x 的直线函数预测 y-hat。

成本函数（Cost function）

是指机器学习模型中用于衡量预测结果与实际结果之间差异的函数。成本函数通常用于优化机器学习模型的参数。

线性函数

线性回归的基本形式是$ f_{w, b}(x) = wx + b$，其中 b是截距（y-intercept），w是斜率（slope）。通过训练数据来学习这个模型的参数b和w，使得模型能够对新的输入数据进行准确的预测。

参数（w 和 b）：机器学习模型中可以在训练过程中调整的变量，有时也称为系数或权重。

平方误差成本函数（Squared error cost function）

是一种用于衡量模型预测结果与真实结果之间误差大小的函数。在一元线性回归模型中，通常使用平方误差成本函数作为优化目标，目的是最小化预测值与真实值之间的平方误差。我们可以找到合适的参数 w 和 b，使得模型能够更好地拟合训练数据。

在这里插入图片描述

J(w,b)表示损失函数，m表示训练集中样本的数量， $y^{(i)}$ 表示第i个样本的真实标签值， $x^{(i)}$ 表示第i个样本的输入特征，w和b分别表示模型的参数。
平方误差成本函数的意义是，对于所有的训练样本，计算模型预测值与真实值之间的差值，取差值的平方后再求平均值。最小化平方误差成本函数的过程，就是找到使预测值与真实值之间误差最小的模型参数。