《R语言数据挖掘:实用项目解析》——2.7 列联表、二元统计及数据正态性检验

简介:

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.7节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.7 列联表、二元统计及数据正态性检验

列联表是由两个或多个分类变量及每个分类所占比例构成的频率表。频率表展示的是一个分类变量,而列联表用来展示两个分类变量。

我们以Cars93数据集为例,来解读列联表、二元统计和数据正态性:

image

前面已给出过汽车的两个分类变量AirBags和Type各自的频率表:

image
image

如上面的代码所示,conTable对象保存了两个变量的交叉表。每个单元的百分比显示在下列代码中。如果需要计算行百分比或列百分比,则需要指定相应参数的值:

image

若要计算行百分比,则应将值设为1。若要计算列百分比,则应将值设为2。代码如下:

image

列联表的概览(summary)用于实现两个分类变量的独立性检验(卡方检验):

image

对所有因子的卡方独立性检验在之前讲过了。卡方近似值有可能因列联表中存在空值或少于5个值而不准确。在之前的例子中,对于汽车类型和安全气囊这两个随机变量,如果一个变量的概率分布不影响另一个变量的概率分布,则说明它们是独立的。对于卡方独立性检验的零假设是两个变量相互独立。因为此检验的p值小于0.05,我们有5%的显著性水平否定两个变量是独立的零假设。所以结论是汽车类型和安全气囊不是相互独立的,即它们相关或依赖。

如果不是两个变量,我们给列联表再加一维会怎么样?取Origin,列联表的代码会显示如下:

image

对所有因子的独立性检验结果执行summay命令可检验零假设:

image

除了之前讨论的绘图方法,R语言中还有一些数值统计检验可用于查看一个变量是否呈正态分布。有个名为norm.test的库可用于执行数据正态性检验,该库中一系列用于检验数据正态性的函数如下所示:

image
image

我们来对Cars93数据集中的Price变量进行正态检验:

image

由以上的检验得知,因所有统计检验的p值都小于0.05,可知Price变量不是正态分布。如果给二元关系再增加一个维度,即变成多元分析。我们来试着理解一下Cars93数据集中马力(horsepower)和车长(length of car)之间的关系:

image

当纳入更多变量时,这就变成多元关系了。下面给出一个Cars93数据集中多变量之间多元关系的示意图:

image
image
image

有多种方法可作为参数传递给关联绘图。它们是"circle""square""ellipse""number""shade""color"和"pie"。

相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
412 12
|
7月前
|
数据采集 机器学习/深度学习 算法
R语言数据挖掘:从“挖井”到“淘金”
R语言数据挖掘:从“挖井”到“淘金”
170 9
|
8月前
|
机器学习/深度学习 数据采集 人工智能
从数据海洋中“淘金”——数据挖掘的魔法与实践
从数据海洋中“淘金”——数据挖掘的魔法与实践
202 13
|
9月前
|
数据采集 JSON 数据可视化
JSON数据解析实战:从嵌套结构到结构化表格
在信息爆炸的时代,从杂乱数据中提取精准知识图谱是数据侦探的挑战。本文以Google Scholar为例,解析嵌套JSON数据,提取文献信息并转换为结构化表格,通过Graphviz制作技术关系图谱,揭示文献间的隐秘联系。代码涵盖代理IP、请求头设置、JSON解析及可视化,提供完整实战案例。
600 4
JSON数据解析实战:从嵌套结构到结构化表格
|
9月前
|
JSON 监控 网络协议
Bilibili直播信息流:连接方法与数据解析
本文详细介绍了自行实现B站直播WebSocket连接的完整流程。解析了基于WebSocket的应用层协议结构,涵盖认证包构建、心跳机制维护及数据包解析步骤,为开发者定制直播数据监控提供了完整技术方案。
|
9月前
|
数据采集 传感器 算法
从数据中挖掘洞见:初探数据挖掘的艺术与科学
从数据中挖掘洞见:初探数据挖掘的艺术与科学
233 11
|
9月前
|
机器学习/深度学习 JSON 算法
淘宝拍立淘按图搜索API接口系列的应用与数据解析
淘宝拍立淘按图搜索API接口是阿里巴巴旗下淘宝平台提供的一项基于图像识别技术的创新服务。以下是对该接口系列的应用与数据解析的详细分析
|
10月前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
279 4
|
9月前
|
缓存 监控 搜索推荐
【实战解析】smallredbook.item_get_video API:小红书视频数据获取与电商应用指南
本文介绍小红书官方API——`smallredbook.item_get_video`的功能与使用方法。该接口可获取笔记视频详情,包括无水印直链、封面图、时长、文本描述、标签及互动数据等,并支持电商场景分析。调用需提供`key`、`secret`和`num_iid`参数,返回字段涵盖视频链接、标题、标签及用户信息等。同时,文章提供了电商实战技巧,如竞品监控与个性化推荐,并列出合规注意事项及替代方案对比。最后解答了常见问题,如笔记ID获取与视频链接时效性等。
|
9月前
|
存储 缓存 监控
如何高效爬取天猫商品数据?官方API与非官方接口全解析
本文介绍两种天猫商品数据爬取方案:官方API和非官方接口。官方API合法合规,适合企业长期使用,需申请企业资质;非官方接口适合快速验证需求,但需应对反爬机制。详细内容涵盖开发步骤、Python实现示例、反爬策略、数据解析与存储、注意事项及扩展应用场景。推荐工具链包括Playwright、aiohttp、lxml等。如需进一步帮助,请联系作者。

推荐镜像

更多
  • DNS