数据挖掘——初步

最新推荐文章于 2026-07-01 18:00:00 发布

原创最新推荐文章于 2026-07-01 18:00:00 发布 · 1.8k 阅读

43 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

数据挖掘

绪论

为什么要用数据挖掘

进化阶段	商业问题	支持技术	产品厂家	产品特点
数据搜集(60年代)	“过去五年中我的总收入是多少？”	计算机、磁带和磁盘	IBMCDC	提供历史性的、静态的数据信息
数据访问(80年代)	“在新英格兰的分部去年三月的销售额是多少？”	关系数据库(RDBMS)结构化查询语言(SQL)ODBC	OracleSybaseInformixIBMMicrosoft	在记录级提供历史性的、动态数据信息
数据仓库决策支持(90年代)	“在新英格兰的分部去年三月的销售额是多少？波士顿据此可得出什么结论？”	联机分析处理(OLAP)多维数据库数据仓库	PilotComshareArborCognosMicrostrategy	在各种层次上提供回溯的、动态的数据信息
数据挖掘（正在流行）	“下个月波士顿的销售会怎么样？为什么？”	高级算法多处理器计算机海量数据库	PilotLockheedIBMSGI其他初创公司	提供预测性的信息

科学发展范式

科学发展阶段	时间	研究论断
经验科学	Before-1600	两个铁球同时落地
理论科学	1600-1950s	集合论、图论、数论和概率论
计算科学	1950s-1990s	人工智能1.0（简单的优化、贪婪算法）
数据科学	1990-now	数据挖掘、人工智能3.0（以数据为基础的强化学习）

数据挖掘的定义

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘是多学科交叉的产物，融合了数据库、统计学、可视化、高性能计算、机器学习、人工智能

大语言模型（LLM）是一种基于深度学习技术构建的人工智能模型，专门用于处理和生成自然语言文本。

通过在海量文本数据上进行训练，学习语言的模式、语法、语义和上下文关系，从而能够理解和生成自然语言文本。

数据挖掘为大语言模型提供了数据支持；大语言模型可以增强数据挖掘在文本数据处理方面的效率和深度。

数据挖掘过程

在这里插入图片描述

数据挖掘的主要内容

关联规则挖掘
非监督式机器学习-聚类
监督式机器学习
- 离散标签预测-标签分类
- 连续标签预测-数值预测

在这里插入图片描述

数据、信息、知识、智慧四者概念辨析

数据（Data）
- 定义：原始的、未经加工的事实和数字，以文本、数字、图像等形式记录客观事物的属性或现象。例如：北京7月1日气温30℃、某企业季度销售额500万元。
- 特征：客观性、离散性、无意义性。数据本身不传递价值，需通过处理赋予意义
信息（Information）
- 定义：经过加工的数据，具有时效性、逻辑性和上下文关联，能够回答“是什么”“何时”等问题。例如：“北京7月平均气温30℃，高于12月的3℃”
- 特征：结构化、有针对性、时效性。信息需依赖数据生成，但可能因时效失效而贬值
知识（Knowledge）
- 定义：通过归纳、演绎等方法从信息中提炼的系统性认知，能指导行动并回答“为什么”“怎么做”。例如：通过多年气温数据总结出“北京四季分明”的规律
- 特征：系统性、可验证性、可迁移性。知识需结合经验与逻辑，是动态积累的结果
智慧（Wisdom）
- 定义：基于知识与经验，对复杂问题进行判断、创新和决策的能力。例如：结合气候数据与城市规划，提出应对气候变化的策略
- 特征：主观性、创造性、前瞻性。智慧强调对知识的灵活应用与情境化解决能力

数据→信息：通过定义、格式化赋予意义。例：原始温度数值（数据）→ 结合日期和地点的天气报告（信息）
信息→知识：通过分析规律形成系统性认知。例：多城市气温对比→ 地理气候学理论（知识）
知识→智慧：通过实践与创新实现价值转化。例：气候知识→ 制定可持续发展政策（智慧）

认识数据

数据对象(Object)

一个数据对象代表一个实体，一个数据对象就是数据表中的一行；别名：对象，记录、样品，示例，实例，数据点，元组（tuple）。

数据集是数据对象的集合

数据库由数据集组成

数据属性（attribute）

数据表中的一列就是一个属性，数据属性是一个数据字段，代表一个数据对象的特征或功能，用于刻画对象基本特性的描述。别名：变量、特性、字段、特征或维度。高维属性指的是数据属性很多

所谓特征选择，是指从数据中，选择有代表性的属性

属性与度量（补充）

属性是对象的性质或特征，它因对象而异，或随时间变化。

属性值：定义属性的特定的特征或参数

给属性赋值：属性并非天生是数字或符号，为了对其进行精确的定量/定性分析，需要测量标度（刻画）。

测量标度（measurement scale）：将数值或符号值与对象的属性相关联的规则（函数）

属性（ ID ）的性质：不可运算，即不可加减乘除
属性的值（整数）的性质：可运算，即可以进行加减乘除。

属性的类型

标称属性（相异性操作= ≠）

标称属性的值：符号或实物名称，每个值代表某种类别、编码或者状态。

标称属性的值仅仅只是不同的名字，即标称值只提供足够的信息以区分对象。

标称属性的值不必具有顺序性，并且不是定量的。

发色 = {黑色，棕色，金色，红色，红褐色，灰色，白色}

婚姻状况，职业，身份证号码，邮政编码

二元属性（= ≠）

二元属性是一种标称属性，其属性值只有2个类别或状态（0和1，true和false）

对称二元属性：两种状态具有同等价值，即两种类别或状态同等重要。性别

非对称二元属性：只有非零属性值才是重要的属性。

新型冠状病毒肺炎测试（阳性-1与阴性-0）

用户购物小票中购买的商品 vs 用户购物小票中未购买的商品

序数属性（< > ）

序数属性的值提供足够的信息确定对象的序，序数属性的值之间具有有意义的序，但相继值之间的差是未知的。

面积={小，中，大}

等级={优，良，中，差}

服务质量={很不满意-0，不太满意-1，一般-2，满意-3，非常满意-4}

序数属性可以通过将数据的值域划分为有限个序类别，通过将数值属性离散化而得到。

标称属性、二元属性和序数属性都是定性的，只描述样本的特征，而不给出实际大小或数量。

区间属性（+ - ）

以相等的单位尺度度量，值是有序的。比如温度、日历等。

对于区间属性，值之间的差是有意义的，倍数没有意义。比如我们平常通常不说2000年是1000年的2倍。

比率属性（ * / ）

对于比率属性的值，差和比率都是有意义的。比如身高、长度、重量，字数、工龄等

区间属性和比率属性都是定量属性，用整数或实数值表示，是可度量的量。

属性类型		描述	例子	操作
分类的定性的	标称	标称属性的值仅仅只是不同的名字，即标称值只提供足够的信息以区分对象（=，≠）	邮政编码、雇员ID号、眼球颜色、性别	众数、熵、列联相关、卡方检验
	序数	序数属性的值提供足够的信息确定对象的序（<，>）	矿石硬度、{好，较好，最好}、成绩、街道号码	中值、百分位、秩相关、游程检验、符号检验
数值的定量的	区间	对于区间属性，值之间的差是有意义的，即存在测量单位（+，-）	日历日期、摄氏或华氏温度	均值、标准差、皮尔逊相关、t和F检验
	比率	对于比率变量，差和比率都是有意义的（+，-，*，/）	绝对温度、货币量、计数、年龄、质量、长度、电流	几何平均、调和平均、百分比变差