头歌平台数据挖掘之数据预处理

最新推荐文章于 2026-03-19 00:10:06 发布

原创

最新推荐文章于 2026-03-19 00:10:06 发布 · 3.6k 阅读

本文介绍了在数据预处理中使用中位数填充缺失值的方法，通过离散化将年龄转换为离散区间，以及如何通过最小-最大规范化将数据缩放到0-1范围。此外，还提及了计算皮尔森相关系数以评估变量间的线性关系。

第一关：使用中位数填充中位值

任务描述

本关任务：使用中位数填充缺失值。

相关知识

根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们，通常使用能代表变量中心趋势的值进行填补，代表变量中心趋势的指标包括平均值、中位数、众数等，本次任务使用中位数填充缺失值

代码

# -*- coding: utf-8 -*-
def fill_median(data):
    """填充数据中的缺失值
    参数:
        data - pandas.dataframe格式，原始数据

    返回值：
        processed_data - 填充后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    processed_data = data.copy()  # 复制原始数据，避免原始数据丢失
    processed_data.fillna(processed_data.median(), inplace=True) #中位数填充缺失值

    #********** End ***********#
    return processed_data

解释相关代码：

fillna函数可以将缺失值填充为指定数值，这里指定的数值是processed_data.median()中位数。

inplace=True 可以让填充立马生效，也就是直接填充不用再创建新的对象。

第二关：离散化