1. 描述性统计(summary)
对于一个新数据集,首先通过观察来熟悉它,可以打印数据相关信息来大致观察数据的常规特点,比如数据规模(行数列数)、数据类型、类别数量(变量数目、取值范围)、缺失值、异常值等等。然后通过描述性统计来了解数据的统计特性、属性间关联关系、属性与标签的关联关系等。
数据集一般是按照行列组织的,每行代表一个实例,每列代表一个属性。
import pandas as pd
import sys
import numpy as np
import pylab
import matplotlib.pyplot as plt
data = pd.read_csv(r"C:\work\PycharmProjects\machine_learning\filename.csv", index_col=0)
# summary
nrow, ncol = data.shape
print(f"行数:{nrow}, 列数:{ncol}")
summary = data.describe()
print(summary)
# 箱线图
data_array = data.iloc[:, :3].values
pylab.boxplot(data_array)
plt.xlabel("Attribute Index")
plt.ylabel(("Quartile Ranges"))
pylab.show()
# 标准化后的箱线图
dataNormalized = data.iloc[:, :3]
for i in range(2):
mean = summary.iloc[1, i]
sd = summary.iloc[2, i]
dataNormalized.iloc[:, i:(i + 1)] = (dataNormalized.iloc[:, i:(i + 1)] - mean) / sd
array3 = dataNormalized.values
pylab.boxplot(array3)
plt.xlabel("Attribute Index")
plt.ylabel(("Quartile Ranges - Normalized "))
pylab.show()
colArray = np.array(list(data.iloc[:, 0]))
colMean = np.mean(colArray)
colsd = np.std(colArray)
sys.stdout.write("Mean = " + '\t' + str(colMean) + '\t\t' +
"Standard Deviation = " + '\t ' + str(colsd) + "\n")
# calculate quantile boundaries(四分位数边界)
ntiles = 4
percentBdry = []
f

392

被折叠的 条评论
为什么被折叠?



