《图解机器学习-第三章》：训练、验证、测试：三分数据，缺一不可！

原创已于 2026-06-14 14:51:37 修改 · 247 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #计算机视觉 #深度学习

于 2026-06-14 14:50:45 首次发布

图解机器学习专栏收录该内容

7 篇文章

订阅专栏

在这里插入图片描述

🎯 博主简介

CSDN 「新星创作者」，人工智能技术领域博主，码龄 5 年，累计发布 190+ 篇原创 文章，博客总访问量 30万+ 浏览。

🚀 持续更新 AI 前沿实战知识，专注于 AI 技术实战、RAG 系统、Agent 应用开发与大模型工程化落地。

目前主要更新方向包括：

🦞 最新 OpenClaw 教程 —从入门到精通｜AI 智能助手/自动化/Skills 实战（原 Clawdbot/Moltbot）
✨ Agent 记忆系统 — 长期记忆、上下文管理与个性化智能体设计
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥以下系列正在火热更新中🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
📘 图解机器学习合集 — 用图解方式系统梳理机器学习核心概念，持续更新中
同时也会持续分享 AI 编程、Java 后端、Spring 生态、Transformer、大模型基础、计算机视觉 等方向内容，内容会尽量结合自己的学习记录、项目实践和踩坑经验来整理。
📱GZH： 安逸Ai (科技前沿新闻，Github热门项目，最新免费资料…)
网页观看完整系列合集：🌐 Anyi AI 学习资源站

在这里插入图片描述

训练、验证、测试：三分数据，缺一不可

上篇我们讲了数据和特征的关系，知道机器学习是从数据中提取规律的过程。但问题来了——拿到一堆数据之后，直接全部扔给模型训练，行不行？

不行。

很多人第一次训练模型时会遇到这个困惑：明明在训练数据上效果很好，测试时却一塌糊涂。准确率90%，一上线用户不买账。

问题很可能出在——根本没有正确划分数据。

为什么不能把所有数据都用来训练？

先问一个问题：机器学习到底在学什么？

不是为了考试。是为了在实际中也能用。

模型需要在没见过的数据上也能表现好。这种能力叫泛化能力。

如果把全部数据都拿去训练，会发生什么？

模型会"死记硬背"。

它不是在理解规律，是在背答案。

这像什么？像考试前把习题集答案全背下来。遇到新题就傻眼。

真正的学习不是这样的。真正的学习是理解解题思路，遇到没见过的题也能做对。

机器学习也一样。训练数据只是"教材"，模型要从中提取规律，而不是记住每一个样本。

所以，必须留出"没见过的数据"，用来检验模型到底是真的懂了，还是在背题。

三分天下：训练集、验证集、测试集

那么，数据到底怎么划分？

答案是：三分天下。

训练集：模型的"教材"。模型从中学习规律，反复调整参数。

验证集：训练过程中的"模拟题"。用来调整超参数，比如学习率、网络层数。

测试集：最终的"正式考试"。从未见过，用来评估模型的真实水平。

三者缺一不可。

在这里插入图片描述

打个比方更清楚。

想象一个学生的学习过程：

看教材学习 → 做模拟题找薄弱点、调整复习策略 → 参加正式考试

对应到机器学习：

训练集训练模型 → 验证集调整超参数 → 测试集最终评估

三个环节，缺一不可。

	训练集	验证集	测试集
作用	学习规律	调整超参数	评估真实水平
使用时机	训练过程中反复用	训练过程中用	训练完成后用一次
模型是否"见过"	反复学习	见过（用于调参）	从未见过