R语言实战:用rpart包5分钟搞定分类决策树(附完整代码)

R语言实战:5分钟构建你的第一个分类决策树模型

如果你刚接触R语言,面对机器学习算法时,可能会觉得理论复杂、步骤繁琐。今天,我们不谈深奥的数学推导,直接上手,用最核心的rpart包,在5分钟内跑通一个完整的分类决策树模型。整个过程就像搭积木一样清晰,你将亲手使用真实的医疗数据集,完成从数据加载、模型训练、可视化到预测的全流程。这篇文章专为初学者设计,目标是让你在最短时间内获得第一个可运行的模型,建立直观理解,消除对机器学习实践的畏难情绪。

我们将使用R内置的kyphosis数据集,它记录了81名接受脊柱矫正手术儿童的情况,目标是预测术后是否会出现后凸畸形。这个案例小而典型,非常适合快速入门。你会发现,用R实现一个基础但完整的机器学习流程,代码可以非常简洁。

1. 环境准备与数据初探

在开始建模之前,我们需要确保环境就绪,并对即将使用的数据有一个基本的认识。这一步是任何数据分析项目的起点,能帮助我们避免后续因数据问题导致的错误。

首先,启动你的RStudio或R控制台。rpart包是R的核心包之一,通常已随基础安装包含。为了确保可用并加载其增强可视化功能,我们执行以下命令:

# 加载必要的包
library(rpart)       # 核心决策树算法包
library(rpart.plot)  # 用于绘制美观的决策树图

如果系统提示rpart.plot未安装,只需运行 install.packages("rpart.plot") 即可。接下来,我们载入并查看数据:

# 载入数据
data(kyphosis)
# 查看数据结构
str(kyphosis)

运行str(kyphosis)后,控制台会输出数据框的结构信息。你会看到类似下面的内容:

'data.frame':   81 obs. of  4 variables:
 $ Kyphosis: Factor w/ 2 levels "absent","present": 2 2 1 1 1 2 1 2 1 1 ...
 $ Age     : int  71 158 128 2 1 1 61 37 113 59 ...
 $ Number  : int  3 3 4 5 4 2 2 3 2 6 ...
 $ Start   : int  5 14 5 1 15 16 17 16 16 12 ...

这告诉我们,kyphosis数据框共有81行(观测)和4列(变量)。其中:

  • Kyphosis:是我们的目标变量(响应变量),是一个因子(Factor),包含两个水平:“absent”(未出现后凸)和“present”(出现后凸)。这是一个典型的二分类问题。
  • Age:年龄(以月计),整数型。
  • Number:手术涉及的椎骨数目,整数型。
  • Start:手术开始的椎骨编号,整数型。

为了对数据分布有一个更直观的印象,我们可以快速查看前几行数据,并计算目标变量的类别分布:

# 查看前6行数据
head(kyphosis)

# 查看目标变量“Kyphosis”的类别分布
table(kyphosis$Kyphosis)

table

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值