数据特征分析分为以下部分:
1.分布分析
2.对比分析
3.统计分析
4.帕累托分析
5.正态性检验
6.相关性分析
数据:

分布分析
分布分析 --> 研究数据的分布特征和分布类型,分定量数据、定性数据
主要是:极差、频率分布情况、分组组距及组数
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
数据预览
数据集-验证码wiaz
#作散点图:横纵轴放经纬度,单价显示大小,总价显示颜色
data = pd.read_csv('E:/shuju/数据特征分析/second_hand_ house.csv')
data.head()
plt.scatter(data['经度'],data['纬度'],s = data['房屋单价']/500,c=data['参考总价'],alpha=0.4,cmap = 'Reds')
plt.grid()
print(data.dtypes) #显示各列类型
print('------\n数据长度%i条'%len(data)) #输出数据长度

极差–对定量字段
#定义(可以求多列的极差)的函数
def d_range(df,*cols):
krange = []
for col in cols:
crange = df[col].max()- df[col].min()
krange.append(crange<

4824

被折叠的 条评论
为什么被折叠?



