Python数据清洗与预处理

原创于 2026-04-11 11:42:53 发布 · 382 阅读

64 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#github #python

Python数据清洗与预处理

后端转 Rust 的萌新，ID "第一程序员"——名字大，人很菜（暂时）。正在跟所有权和生命周期死磕，日常记录 Rust 学习路上的踩坑经验和"啊哈时刻"，代码片段保证能跑。保持学习，保持输出。欢迎大佬们轻喷，也欢迎同好一起进步。

前言

最近在学习数据科学的过程中，我发现数据清洗与预处理是数据分析和机器学习的重要环节。作为一个从后端转 Rust 的萌新，我认为了解 Python 的数据清洗与预处理技术是非常有必要的，它可以帮助我们处理和准备数据，为后续的分析和建模做准备。

Python 提供了多种库和工具来进行数据清洗与预处理，如 pandas、NumPy、scikit-learn 等。今天，我就来分享一下 Python 数据清洗与预处理的相关知识和实战经验，希望能帮到和我一样的萌新们。

数据清洗的基本概念

什么是数据清洗

数据清洗是指对原始数据进行处理，去除噪声、处理缺失值、纠正错误等，使数据更加干净、可靠。

数据清洗的重要性

提高数据质量：确保数据的准确性和完整性
提高模型性能：干净的数据可以提高机器学习模型的性能
减少分析错误：避免因数据问题导致的分析错误
节省时间：在数据清洗阶段解决问题，避免后续分析中出现问题

数据清洗的常见任务

1. 处理缺失值

import pandas as pd
import numpy as np

# 创建包含缺失值的数据框
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, 7, 8],
    'C': [9, 10, 11, 12]
})

# 查看缺失值
print(df.isnull())

# 删除包含缺失值的行
df_dropna = df.dropna()
print(df_dropna)

# 填充缺失值
df_fillna = df.fillna(0)
print(df_fillna)

# 使用均值填充缺失值
df_fillna_mean = df.fillna(df.mean())
print(df_fillna_mean)

2. 处理重复值

# 创建包含重复值的数据框
df = pd.DataFrame({
    'A': [1, 2, 2, 4],
    'B': [5, 6, 6, 8],
    'C': [9, 10, 10, 12]
})

# 查看重复值
print(df.duplicated())

# 删除重复值
df_drop_duplicates = df.drop_duplicates()
print(df_drop_duplicates)

3. 处理异常值

import numpy as np
import pandas as pd

# 创建包含异常值的数据框
df = pd.DataFrame({
    'A': [1, 2, 3, 100, 5],
    'B': [5, 6, 7, 200, 9]
})

# 使用 IQR 方法检测异常值
def detect_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers

# 检测异常值
outliers_A = detect_outliers_iqr(df, 'A')
print(outliers_A)

# 处理异常值（删除）
df_clean = df[(df['A'] >= 0) & (df['A'] <= 10)]
print(df_clean)

4. 数据类型转换

# 创建数据框
df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': ['5', '6', '7', '8'],
    'C': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04']
})

# 查看数据类型
print(df.dtypes)

# 转换数据类型
df['B'] = df['B'].astype(int)
df['C'] = pd.to_datetime(df['C'])

# 查看转换后的数据类型
print(df.dtypes)

数据预处理的常见任务

1. 特征缩放

from sklearn.preprocessing import StandardScaler, MinMaxScaler
import numpy as np

# 创建数据
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 标准化（均值为0，标准差为1）
scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)
print(X_standardized)

# 归一化（缩放到0-1之间）
scaler = MinMaxScaler()
X_normalized = scaler.fit_transform(X)
print(X_normalized)

2. 特征编码

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import pandas as pd

# 创建数据
df = pd.DataFrame({
    'color': ['red', 'blue', 'green', 'red', 'blue']
})

# 标签编码
encoder = LabelEncoder()
df['color_encoded'] = encoder.fit_transform(df['color'])
print(df)

# 独热编码
encoder = OneHotEncoder()
color_encoded = encoder.fit_transform(df[['color']]).toarray()
color_df = pd.DataFrame(color_encoded, columns=encoder.get_feature_names_out(['color']))
df = pd.concat([df, color_df], axis=1)
print(df)

3. 特征选择

from sklearn.feature_selection import SelectKBest, f_regression
import numpy as np
import pandas as pd

# 创建数据
X = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
y = np.array([13, 14, 15])

# 选择K个最好的特征
selector = SelectKBest(f_regression, k=2)
X_new = selector.fit_transform(X, y)
print(X_new)

# 查看选中的特征索引
print(selector.get_support(indices=True))

实战案例：销售数据清洗与预处理

1. 加载数据

import pandas as pd
import numpy as np

# 加载数据
df = pd.read_csv('sales.csv')
print(df.head())

2. 数据清洗

# 处理缺失值
df = df.dropna()

# 处理重复值
df = df.drop_duplicates()

# 处理异常值
df = df[(df['sales'] >= 0) & (df['sales'] <= 10000)]

# 转换数据类型
df['date'] = pd.to_datetime(df['date'])
df['sales'] = df['sales'].astype(float)

3. 数据预处理

from sklearn.preprocessing import StandardScaler, LabelEncoder

# 特征编码
encoder = LabelEncoder()
df['product_encoded'] = encoder.fit_transform(df['product'])
df['region_encoded'] = encoder.fit_transform(df['region'])

# 特征缩放
scaler = StandardScaler()
df[['sales_scaled']] = scaler.fit_transform(df[['sales']])

# 特征工程
df['month'] = df['date'].dt.month
df['day_of_week'] = df['date'].dt.dayofweek

print(df.head())