数学建模实战：基于NIPT数据的胎儿Y染色体浓度与孕妇指标相关性分析及模型构建

最新推荐文章于 2026-06-14 20:54:22 发布

原创

最新推荐文章于 2026-06-14 20:54:22 发布 · 783 阅读

文章标签：

#数学建模 #NIPT数据分析 #相关性分析 #回归模型

1. 从数据到洞察：NIPT数据预处理与探索性分析

大家好，我是Tina表姐。在数学建模竞赛里摸爬滚打了这么多年，我见过太多队伍在拿到数据后，二话不说就直接上模型，结果往往事倍功半。今天，我想和你聊聊一个非常具体的实战项目：基于NIPT数据，分析胎儿Y染色体浓度与孕妇各项指标的关系，并构建预测模型。这不仅是2025年高教社杯国赛C题的核心，更是一个绝佳的、能让你完整走一遍数据分析流程的案例。咱们不玩虚的，就从最“脏”最“乱”的原始数据开始，一步步把它变成清晰的洞察。

首先，你得明白NIPT数据是什么。简单说，它就是通过抽取孕妇的外周血，分析其中游离的胎儿DNA。对于怀有男胎的孕妇，我们能在母体血液里检测到来自胎儿的Y染色体片段，其浓度（通常以百分比表示）是一个关键指标。我们的目标，就是看看这个浓度和孕妇自身的状况——比如怀孕多少周了（孕周）、身体质量指数（BMI）、年龄、身高、体重——到底有没有关系，有怎样的关系。

拿到数据后，千万别急着跑代码。第一步永远是数据预处理，这步做不好，后面全是白费功夫。原始数据通常是个Excel或CSV文件，里面可能混杂着怀男胎和女胎的孕妇数据（因为女胎没有Y染色体，其浓度值为空），孕周可能写着“12+3”这样的文本（表示12周零3天），还可能存在一些明显不合理的异常值，比如BMI为5或者80，这在实际中几乎不可能。

我常用的预处理流程是这样的。首先，用Pandas加载数据，然后筛选出男胎样本，也就是“Y染色体浓度”这一列不为空的数据。这是后续所有分析的基础。接着，处理“孕周”这个棘手的字段。我们需要写一个小函数，把“12+3”这样的字符串转换成数值，比如12.43周（12 + 3/7）。这个转换至关重要，因为后续的相关系数计算和模型构建都需要数值型数据。

import pandas as pd
import numpy as np

def parse_gestational_week(week_str):
    """将‘周+天’格式的字符串转换为以周为单位的浮点数"""
    if pd.isna(week_str):
        return np.nan
    try:
        # 处理如 '12+3', '12.5' 等多种可能格式
        if isinstance(week_str, str) and '+' in week_str:
            weeks, days = week_str.split('+')
            return float(weeks) + float(days)/7.0
        else:
            # 如果已经是数字或其它格式，尝试直接转换
            return float(week_str)
    except Exception as e:
        # 转换失败，返回空值，后续会剔除
        return np.nan

# 假设df是读取的原始DataFrame
male_data = df[df['Y染色体浓度'].notna()].copy()
male_data['孕周_数值'] = male_data['孕周'].apply(parse_gestational_week)

然后，我们要进行数据清洗。剔除关键变量（Y染色体浓度、转换后的孕周数值、BMI）存在缺失值的样本。同时，根据医学常识设定合理的范围，过滤掉异常值。比如，Y染色体浓度理论上应为正数，BMI的正常范围通常在18到35之间，我们可以适当放宽到15-50进行初筛。这一步需要谨慎，既要排除明显错误，又不能武断地删除过多数据，最好能结合箱线图观察后再决定。

预处理完成后，就进入了非常有趣的**探索性数据分析（EDA）**阶段。这个阶段的目标不是建立模型，而是用眼睛“看”数据，发现一些初步的模式和线索。我习惯先看描述性统计：均值、标准差、最小值、最大值、四分位数。这能让你对数据的分布有个整体感觉。比如，Y染色体浓度的平均值是多少？波动大不大？孕周主要集中在哪个阶段？

接下来是可视化，这是EDA的灵魂。我会画一系列散点图，把Y染色体浓度分别和孕周、BMI、年龄等指标一一对应画出来。

import matplotlib.pyplot as plt
import seaborn as sns

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
# Y染色体浓度 vs 孕周
axes[0,0].scatter(male_data['孕周_数值'], male_data['Y染色体浓度'], alpha=0.6, s=20)
axes[0,0].set_xlabel('孕周 (周)')
axes[0,0].set_ylabel('Y染色体浓度 (%)')
axes[0,0].set_title('Y染色体浓度随孕周变化趋势')
# 可以尝试添加趋势线
z = np.polyfit(male_data['孕周_数值'].dropna(), male_data['Y染色体浓度'].dropna(), 1)
p = np.poly1d(z)
axes[0,0].plot(male_data['孕周_数值'], p(male_data['孕周_数值']), "r--", linewidth=2)

# Y染色体浓度 vs BMI
axes[0,1].scatter(mal

最低0.47元/天解锁文章