数据挖掘——初步

绪论

为什么要用数据挖掘

进化阶段商业问题支持技术产品厂家产品特点
数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBMCDC提供历史性的、静态的数据信息
数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS)结构化查询语言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态数据信息
数据仓库决策支持(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)多维数据库数据仓库PilotComshareArborCognosMicrostrategy在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法多处理器计算机海量数据库PilotLockheedIBMSGI其他初创公司提供预测性的信息

科学发展范式

科学发展阶段时间研究论断
经验科学Before-1600两个铁球同时落地
理论科学1600-1950s集合论、图论、数论和概率论
计算科学1950s-1990s人工智能1.0(简单的优化、贪婪算法)
数据科学1990-now数据挖掘、人工智能3.0(以数据为基础的强化学习)

数据挖掘的定义

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘是多学科交叉的产物,融合了数据库、统计学、可视化、高性能计算、机器学习、人工智能

大语言模型(LLM)是一种基于深度学习技术构建的人工智能模型,专门用于处理和生成自然语言文本。

通过在海量文本数据上进行训练,学习语言的模式、语法、语义和上下文关系,从而能够理解和生成自然语言文本。

数据挖掘为大语言模型提供了数据支持;大语言模型可以增强数据挖掘在文本数据处理方面的效率和深度。

数据挖掘过程

在这里插入图片描述

数据挖掘的主要内容

  • 关联规则挖掘

  • 非监督式机器学习-聚类

  • 监督式机器学习

    • 离散标签预测-标签分类
    • 连续标签预测-数值预测

在这里插入图片描述

数据、信息、知识、智慧四者概念辨析

  1. 数据(Data)
    • 定义:原始的、未经加工的事实和数字,以文本、数字、图像等形式记录客观事物的属性或现象。例如:北京7月1日气温30℃、某企业季度销售额500万元。
    • 特征:客观性、离散性、无意义性。数据本身不传递价值,需通过处理赋予意义
  2. 信息(Information)
    • 定义:经过加工的数据,具有时效性、逻辑性和上下文关联,能够回答“是什么”“何时”等问题。例如:“北京7月平均气温30℃,高于12月的3℃”
    • 特征:结构化、有针对性、时效性。信息需依赖数据生成,但可能因时效失效而贬值
  3. 知识(Knowledge)
    • 定义:通过归纳、演绎等方法从信息中提炼的系统性认知,能指导行动并回答“为什么”“怎么做”。例如:通过多年气温数据总结出“北京四季分明”的规律
    • 特征:系统性、可验证性、可迁移性。知识需结合经验与逻辑,是动态积累的结果
  4. 智慧(Wisdom)
    • 定义:基于知识与经验,对复杂问题进行判断、创新和决策的能力。例如:结合气候数据与城市规划,提出应对气候变化的策略
    • 特征:主观性、创造性、前瞻性。智慧强调对知识的灵活应用与情境化解决能力
  • 数据→信息:通过定义、格式化赋予意义。例:原始温度数值(数据)→ 结合日期和地点的天气报告(信息)
  • 信息→知识:通过分析规律形成系统性认知。例:多城市气温对比→ 地理气候学理论(知识)
  • 知识→智慧:通过实践与创新实现价值转化。例:气候知识→ 制定可持续发展政策(智慧)

认识数据

数据对象(Object)

一个数据对象代表一个实体,一个数据对象就是数据表中的一行;别名:对象,记录、样品,示例,实例,数据点,元组(tuple)。

数据集是数据对象的集合

数据库由数据集组成

数据属性(attribute)

数据表中的一列就是一个属性,数据属性是一个数据字段,代表一个数据对象的特征或功能,用于刻画对象基本特性的描述。别名:变量、特性、字段、特征或维度。高维属性指的是数据属性很多

所谓特征选择,是指从数据中,选择有代表性的属性

属性与度量(补充)

属性是对象的性质或特征,它因对象而异,或随时间变化。

属性值:定义属性的特定的特征或参数

给属性赋值:属性并非天生是数字或符号,为了对其进行精确的定量/定性分析,需要测量标度(刻画)。

测量标度(measurement scale):将数值或符号值与对象的属性相关联的规则(函数)

  • 属性( ID )的性质:不可运算,即不可加减乘除
  • 属性的值(整数)的性质:可运算,即可以进行加减乘除。

属性的类型

标称属性(相异性操作= ≠)

标称属性的值:符号或实物名称,每个值代表某种类别、编码或者状态。

标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。

标称属性的值不必具有顺序性,并且不是定量的。

发色 = {黑色,棕色,金色,红色,红褐色,灰色,白色}

婚姻状况,职业,身份证号码,邮政编码

二元属性(= ≠)

二元属性是一种标称属性,其属性值只有2个类别或状态(0和1,true和false)

对称二元属性:两种状态具有同等价值,即两种类别或状态同等重要。性别

非对称二元属性:只有非零属性值才是重要的属性。

新型冠状病毒肺炎测试(阳性-1与阴性-0)

用户购物小票中购买的商品 vs 用户购物小票中未购买的商品

序数属性(< > )

序数属性的值提供足够的信息确定对象的序,序数属性的值之间具有有意义的序,但相继值之间的差是未知的。

面积={小,中,大}

等级={优,良,中,差}

服务质量={很不满意-0,不太满意-1,一般-2,满意-3,非常满意-4}

序数属性可以通过将数据的值域划分为有限个序类别,通过将数值属性离散化而得到。

标称属性、二元属性和序数属性都是定性的,只描述样本的特征,而不给出实际大小或数量。
区间属性(+ - )

以相等的单位尺度度量,值是有序的。比如温度、日历等。

对于区间属性,值之间的差是有意义的,倍数没有意义。比如我们平常通常不说2000年是1000年的2倍。

比率属性( * / )

对于比率属性的值,差和比率都是有意义的。比如身高、长度、重量,字数、工龄等

区间属性和比率属性都是定量属性,用整数或实数值表示,是可度量的量。
属性类型描 述例 子操作
分类的定性的标称标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,≠)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、卡方检验
序数序数属性的值提供足够的信息确定对象的序(<,>)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验
数值的定量的区间对于区间属性,值之间的差是有意义的,即存在测量单位(+,-)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验
比率对于比率变量,差和比率都是有意义的(+,-,*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差

性质与操作是向上包含的。比如比率包含区间的合法操作,区间包含序数的合法操作…

区间属性和比率属性的区别

以温度为例,能否说2是1的两倍?

温度可以是区间属性也可以是比率属性,取决于测量标度

当温度用绝对标度测量时,从物理意义上讲, 2K的温度是1K的两倍(K开尔文)如果温度用华氏或摄氏标度测量时还能这么说吗?因此,华氏或摄氏温度的比率并无物理意义,华氏或摄氏温度不是比率属性。

数据探索

对数据进行初步研究,可以更好地理解它的特殊性质。

数据探索的主要动机包括:

  • 更好地理解数据:集中趋势,分布
  • 帮助选择合适的数据预处理和数据分析技术
  • 利用人类的能力来识别模式

人们可识别出数据分析工具没有发现的模式

汇总统计:是量化的,用单个数或数的小集合捕获可能很大的值集的各种特征。汇总统计可以看作是产生数据的基本分布的统计参数的估计。家庭平均收入 ~ 均值,成绩差异程度 ~ 标准差

可视化:直方图 散点图

中性化趋势度量:均值、中位数和众数

频率:给定一个在v1,⋯,vi,⋯,vk{v_1 ,⋯, v_i,⋯ ,v_k}v1,,vi,,vk上取值的分类属性 x 和 m 个对象的集合,值 viv_ivi 的频率定义为:frequency(vi)=具有属性值vi对象数mfrequency(v_i)=\dfrac{具有属性值v_i对象数}{m}frequency(vi)=m具有属性值vi对象数

众数:分类属性的众数是具有最高频率的值。

对于连续数据,均值和中位数是两个使用最广泛的值集位置的度量。

均值(mean)又称算数平均数。 均值对离群值很敏感。 对于包含离群值的数据,中位数可以再次更稳健的提供值集中间的估计。

中位数(median):如果有奇数个值,则中位数是中间值;如果有偶数个值,则中位数是中间两个值的平均值。

在这里插入图片描述

对于有序的或连续的属性,考虑值集的百分位数更有意义。

百分位数计算

  • 第1步:以递增顺序排列原始数据(即从小到大排列)。
  • 第2步:计算指数 i = n * p% (其中n为值的个数)
  • 第3步:
    • 若 i 不是整数,将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。
    • 若 i 是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。

离散度度量

四分位数

在这里插入图片描述

1. 四分位数(Quartiles)
  • Q1(第25百分位):将一组数据从小到大排序后,处于数据前25%位置的数值。

  • Q3(第75百分位):将一组数据从小到大排序后,处于数据前75%位置的数值。

  • 四分位数极差(IQR):IQR = Q3 - Q1,它衡量了数据中间50%部分的离散程度。

2. 五点概况(Five - number Summary)

包含数据集的五个关键统计量:

  • min:数据集中的最小值。
  • Q1:第25百分位数。
  • median:中位数,即第50百分位数,将数据集分为数量相等的两部分。
  • Q3:第75百分位数。
  • max:数据集中的最大值。
3. 盒状图(Boxplot)能够分析多个属性数据的离散度差异性
  • 构成:盒状图通过五个点来展示数据的分布情况,分别是min、Q1、median、Q3、max 。其中,盒子的上下边界分别是Q1和Q3,盒子中间的横线表示median。
  • 离群点表示:单独添加胡须(即从盒子延伸出去的线段)来表示离群点。离群点是指那些明显偏离整体数据分布的数据点。
4. 离群点的判断

通常情况下,如果一个数据点的值高于Q3 + 1.5×IQR或者低于Q1 - 1.5×IQR,那么这个数据点就被认为是离群点。用公式表示为:

  • 最大值(max):Q3 + 1.5×IQR
  • 最小值(min):Q1 - 1.5×IQR

通过以上这些概念和工具,可以更好地理解数据的分布特征,识别数据中的异常值,为进一步的数据分析和建模提供基础。

数据可视化

直方图用来分析单个属性在各个区间变化分布,直方图可视化发现特征对类别的区分度。

散点图用来显示两组数据的相关性分布

度量数据的相似性和相异性:

相似度Similarity:度量两个数据对象有多相似,值越大就表示数据对象越相似,通常取值范围为 [0,1]

相异度Dissimilarity (e.g., distance):度量两个数据对象的差别程度,值越小就表示数据越相似,最小相异度通常为0

邻近性Proximity:指相似度或者相异度

标称属性的邻近性度量

简单匹配系数(Simple Matching Coefficient, SMC):用于衡量两个对象在所有标称属性上完全匹配的比例。

  1. 对于每个属性,检查两个对象是否具有相同的取值。
  2. 统计匹配的属性数量。
  3. 将匹配数量除以总属性数,得到 SMC 值。

优点

  • 简单直观,计算方便。
  • 适用于对称的标称属性(即每个属性的取值没有重要性差异)。

缺点

  • 无法区分不同属性的重要性,所有属性权重相同。
二值属性的邻近性度量

对称二元属性定义:属性的两个状态(如0和1)重要性相同,例如性别(男/女)、婚姻状况(已婚/未婚)等。

构建邻接表如下:

比较维度1(匹配为1)0(匹配为0)总和
对象iqsq+s
对象jtrt+r
总计q+tr+sp=q+r+s+t

对称属性距离公式:d(i,j)=r+sq+r+sd(i,j) = \frac{r+s}{q+r+s}d(i,j)=q+r+sr+s

为什么不是d(i,j)=r+sq+r+s+td(i,j) = \frac{r+s}{q+r+s+t}d(i,j)=q+r+s+tr+s

因为通常不具备特征用户占大多数,因此t远大于q,使得t作为分母,将导致值非常小,而失去比较意义

非对称属性距离公式(Jaccard系数):J(i,j)=qq+s+tJ(i,j) = \frac{q}{q+s+t}J(i,j)=q+s+tq

数值属性的邻近性度量

闵可夫斯基距离:
d(i,j)=∣xi1−xj1∣h+∣xi2−xj2∣h+...+∣xip−xjp∣hh d(i,j) = \sqrt[h]{{|x_{i1} - x_{j1}|}^h + {|x_{i2} - x_{j2}|}^h + ... +{|x_{ip} - x_{jp}|}^h} d(i,j)=hxi1xj1h+xi2xj2h+...+xipxjph
性质:

  • d(i, j) > 0 if i ≠ j, and d(i, i) = 0 (正定性)
  • d(i, j) = d(j, i) (对称性)
  • d(i, j) ≤ d(i, k) + d(k, j) (三角不等性)

h = 1时,该式等于曼哈顿距离

h = 2时,该式等于欧式距离

h →\rightarrow ∞时,该式等于上确界距离

文本文档分析——余弦相似性

文档用词频向量表示的原理是通过统计文本中词语的出现频率,将文本转化为数值向量例如,词汇表为 ["苹果", "香蕉", "橘子"],文档内容为“苹果香蕉苹果”,则对应的词频向量为 [2, 1, 0]

余弦相似性就是通过计算两个向量在空间中夹角的余弦值来衡量其方向相似度的指标。对于文档处理,则可以将文档1和文档2的词频向量算出来后通过计算余弦相似度来判断两个文档的相似度

从数值上判断样本间相似性采用曼哈顿距离或者欧式距离,从方向或者趋势上判断时采用余弦相似性度量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值