数据分析（一）理解数据

最新推荐文章于 2026-05-31 09:53:55 发布

原创

最新推荐文章于 2026-05-31 09:53:55 发布 · 1.6k 阅读

·

19

·

1. 描述性统计（summary）

对于一个新数据集，首先通过观察来熟悉它，可以打印数据相关信息来大致观察数据的常规特点，比如数据规模（行数列数）、数据类型、类别数量（变量数目、取值范围）、缺失值、异常值等等。然后通过描述性统计来了解数据的统计特性、属性间关联关系、属性与标签的关联关系等。

数据集一般是按照行列组织的，每行代表一个实例，每列代表一个属性。

import pandas as pd

import sys

import numpy as np

import pylab

import matplotlib.pyplot as plt

data = pd.read_csv(r"C:\work\PycharmProjects\machine_learning\filename.csv", index_col=0)

# summary

nrow, ncol = data.shape

print(f"行数：{nrow}，列数：{ncol}")

summary = data.describe()

print(summary)

# 箱线图

data_array = data.iloc[:, :3].values

pylab.boxplot(data_array)

plt.xlabel("Attribute Index")

plt.ylabel(("Quartile Ranges"))

pylab.show()

# 标准化后的箱线图

dataNormalized = data.iloc[:, :3]

for i in range(2):

mean = summary.iloc[1, i]

sd = summary.iloc[2, i]

dataNormalized.iloc[:, i:(i + 1)] = (dataNormalized.iloc[:, i:(i + 1)] - mean) / sd

array3 = dataNormalized.values

pylab.boxplot(array3)

plt.xlabel("Attribute Index")

plt.ylabel(("Quartile Ranges - Normalized "))

pylab.show()

colArray = np.array(list(data.iloc[:, 0]))

colMean = np.mean(colArray)

colsd = np.std(colArray)

sys.stdout.write("Mean = " + '\t' + str(colMean) + '\t\t' +

"Standard Deviation = " + '\t ' + str(colsd) + "\n")

# calculate quantile boundaries(四分位数边界)

ntiles = 4

percentBdry = []

f

标签

#数据分析

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Trisyp 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。