Notebook到生产环境的ML模型部署实战指南

原创于 2026-07-02 14:02:16 发布 · 637 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

经验记录

1. 项目概述：当模型走出Jupyter，真正开始呼吸真实世界空气

“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题本身就像一句暗号，懂的人一眼就明白：这不是又一篇讲如何用sklearn拟合鸢尾花的教程，而是站在悬崖边，手握刚在本地跑通的模型，正低头凝视脚下那片布满数据管道、服务接口、资源争抢与业务反馈的真实土壤。我带过六支不同行业的AI落地团队，从制造业设备预测性维护，到零售业动态定价引擎，再到医疗影像辅助筛查系统，几乎每支队伍都卡在“Part 3”和“Part 4”之间：模型在Notebook里AUC 0.92，一上线就掉到0.78；训练时内存占用2GB，部署后每秒请求就把服务器拖进swap风暴；特征工程脚本本地跑得飞快，放到Kubernetes里却因时区、编码、路径权限集体罢工。Part 4，说白了，就是把那个被精心呵护在Jupyter沙盒里的“实验室宠物”，训练成能在生产环境里独立觅食、抗压、自愈的“工作犬”。它不谈算法创新，只解决三件事： 怎么让模型稳定活下来、怎么让它准确吐出结果、怎么让它在业务节奏里不掉队 。关键词“Notebook to Production”、“ML in the Real World”直指核心矛盾——不是模型好不好，而是它能不能在没有你盯着的情况下，连续72小时不报错、不漂移、不拖垮下游系统。这篇文章面向的不是刚学完pandas的新人，而是已经能把模型训出来、却在部署环节反复碰壁的工程师、数据科学家，或是技术决策者——你需要的不是概念图谱，而是今天下午就能改配置、加监控、重启服务的实操清单。

2. 内容整体设计与思路拆解：为什么“直接打包Notebook”是条死路

2.1 从Notebook到服务：本质是一次范式迁移，而非简单搬运

很多人以为“Notebook转生产”就是把.ipynb文件导出为.py，再用Flask包一层API，扔进Docker就完事。我试过三次这种“快捷方式”，每次都在上线第三天凌晨接到告警电话。根本原因在于，Notebook和Production是两种完全不同的计算范式。Notebook是 交互式、状态化、单用户、弱依赖管理 的环境：你手动加载一次数据，缓存进内存，后续所有cell都复用这个DataFrame；你import一个库，版本混用也没关系；你调参时反复运行同一段代码，靠的是Jupyter内核的变量持久化。而Production是 无状态、高并发、多租户、强依赖隔离 的战场：每个HTTP请求进来，都要从零初始化模型、加载特征、执行推理、释放内存；100个并发请求意味着100次独立的初始化流程；线上服务要求所有依赖版本锁定，差一个小数点都可能触发底层C库ABI不兼容。把Notebook代码直接搬过去，等于让一个习惯在自家客厅赤脚走路的人，突然穿上冰刀去参加F1方程式比赛——姿势再优雅，也挡不住物理规律的惩罚。

2.2 Part 4的核心架构选择：为什么我们放弃Flask+Gunicorn，转向FastAPI+Uvicorn+Triton

在多个客户现场踩坑后，我们最终锁定了三层服务架构： FastAPI作为API网关层，Uvicorn作为ASGI服务器，Triton Inference Server作为模型执行层 。这个组合不是跟风，而是被现实逼出来的选择。

为什么不用Flask？ Flask的WSGI模型天生是同步阻塞的。当一个请求在做模型推理（比如加载大模型权重、执行GPU计算）时，整个worker进程就被锁死，其他请求只能排队。我们曾在一个电商推荐场景中，用Flask部署一个BERT-based召回模型，QPS超过15就出现平均延迟飙升至3秒以上。换成FastAPI后，同样硬件下QPS轻松突破80，P95延迟稳定在120ms内。关键差异在于FastAPI基于Python异步生态（async/await），Uvicorn用uvloop替代默认event loop，能高效处理I/O密集型任务（如数据库查询、日志写入），把CPU密集型的模型推理交给Triton。
为什么引入Triton？ 这是最关键的一步。早期我们用PyTorch原生 model.eval() + torch.no_grad() 做推理，结果发现GPU显存利用率常年低于30%，大量时间浪费在Python解释器开销和CUDA上下文切换上。Triton通过将模型编译为优化的CUDA kernel，支持动态batching（把多个小请求自动合并成一个大batch送入GPU）、模型流水线（preprocess → model → postprocess分阶段并行）、以及多模型共享GPU资源。在某金融风控项目中，单卡A10部署3个XGBoost+1个LSTM模型，Triton使吞吐量提升4.2倍，显存占用反而下降18%。它的配置文件（config.pbtxt）强制你定义输入输出shape、数据类型、动态batch策略——这看似增加了初期工作量，实则倒逼你提前暴露所有隐含假设，比如“特征向量长度是否恒定”、“缺失值如何填充”，这些恰恰是生产环境最易崩塌的薄弱点。
架构分层的价值：解耦即安全
FastAPI只负责HTTP协议解析、参数校验、JSON序列化/反序列化；Uvicorn专注网络IO调度；Triton专精模型计算。当某天业务方要求增加JWT鉴权，你只需在FastAPI层加几行装饰器，完全不影响Triton的模型配置；当GPU驱动升级导致Triton报错，你甚至可以临时切回CPU模式（通过Triton配置），而API网关和业务逻辑毫发无损。这种解耦不是为了炫技，而是让每一次变更的影响面可控——在生产环境，可控性比性能更重要。

2.3 拒绝“一次性部署”：为什么CI/CD流水线必须覆盖模型全生命周期

很多团队把CI/CD理解为“代码提交→自动测试→部署到测试环境”。在ML场景下，这远远不够。一个模型的生命周期包含至少五个可变实体： 训练代码、训练数据、特征工程脚本、模型权重文件、推理服务配置 。任何一个变化都可能引发线上事故。我们曾因特征工程脚本中一个 fillna(0) 被误改为 fillna(-1) ，导致线上评分全部偏移，但因为该脚本未纳入Git版本控制，问题排查耗时6小时。因此，Part 4的CI/CD必须强制做到：

数据版本化 ：使用DVC（Data Version Control）或Delta Lake管理训练数据集，每次训练都记录数据commit hash；
特征脚本可重现 ：所有特征生成逻辑封装为独立Python模块，通过 pip install -e . 安装，版本号随代码发布；
模型注册中心化 ：用MLflow Model Registry或自建MinIO+S3存储桶，模型上传时强制绑定训练代码commit、数据hash、特征版本；
服务配置即代码 ：Triton的config.pbtxt、FastAPI的uvicorn启动参数、K8s的Deployment YAML全部存入Git，通过Argo CD自动同步；
金丝雀发布自动化 ：新模型上线前，自动将5%流量路由至新服务，对比A/B指标（延迟、错误率、业务指标如转化率），达标后才全量。

这套流程初看繁琐，但某次线上事故中，我们仅用2分钟就完成回滚：找到上一版模型的registry ID，修改K8s ConfigMap指向旧版本，整个过程无需人工登录服务器。所谓“稳定性”，本质是把所有不确定性，都转化为可追溯、可回放、可自动化的确定性步骤。

3. 核心细节解析与实操要点：从代码到容器的每一处暗礁

3.1 Notebook代码的“外科手术式”重构：剥离一切非必要依赖

直接运行 jupyter nbconvert --to python model.ipynb 得到的Python文件，离生产可用还有十万八千里。我们必须像外科医生一样，对代码进行精准切除：

切除全局变量污染 ：Notebook中常见 df_train = pd.read_csv(...) 放在开头，后续所有函数都隐式依赖它。生产代码中，必须将数据加载、预处理、模型加载全部封装为有明确输入输出的函数。例如：

# ❌ 危险：隐式依赖全局df
df = pd.read_parquet("data/train.parquet")
def train_model():
    X, y = df.drop("target", axis=1), df["target"]
    return LogisticRegression().fit(X, y)

# ✅ 安全：显式传参，无状态
def load_data(path: str) -> Tuple[pd.DataFrame, pd.Series]:
    df = pd.read_parquet(path)
    return df.drop("target", axis=1), df["target"]

def train_model(X: pd.DataFrame, y: pd.Series) -> Pipeline:
    return Pipeline([
        ("scaler", StandardScaler()),
        ("clf", LogisticRegression())
    ]).fit(X, y)

这样做的好处是：训练时可传入 load_data("data/train.parquet") ，推理时可传入 load_data("data/inference_batch.parquet") ，逻辑完全隔离。

切除硬编码路径与配置 ：所有路径（数据路径、模型保存路径）、超参数（learning_rate、max_depth）、服务端口，必须通过环境变量或配置文件注入。我们采用Pydantic BaseSettings统一管理：
```
from pydantic import BaseSettings

class Settings(BaseSettings):
    DATA_PATH: str = "/app/data"
    MODEL_VERSION: str = "v2.1.0"
    API_PORT: int = 8000
    # 自动从.env文件或环境变量读取
    class Config:
        env_file = ".env"

settings = Settings()
```
部署时，Docker run命令只需 -e MODEL_VERSION=v2.1.0 ，无需修改任何代码。
切除Jupyter专属魔法命令 ： %matplotlib inline 、 %%time 、 !pip install 等必须全部删除。特别是 !pip install ，它会污染容器基础镜像的依赖树，导致不同模型间版本冲突。正确做法是：所有依赖写入 requirements.txt ，构建镜像时 pip install -r requirements.txt 一次性安装。

提示：重构后务必运行 pylint --disable=all --enable=unused-argument,unused-variable model.py 检查未使用变量，这是隐式依赖的典型信号。

3.2 Docker镜像构建：为什么基础镜像选 `nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu22.04` 而非 `python:3.9-slim`

镜像大小不是唯一指标， 启动速度、依赖兼容性、安全基线 才是生产核心。我们对比过三种基础镜像：

镜像类型	启动时间（冷启动）	CUDA支持	安全漏洞（Trivy扫描）	维护成本
`python:3.9-slim`	1.2s	❌ 需手动装CUDA驱动	低（仅OS层）	高（需自行维护CUDA/cuDNN版本）
`nvidia/pytorch:23.07-py3`	3.8s	✅ 开箱即用	中（含PyTorch二进制）	中（NVIDIA定期更新）
`nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu22.04`	0.9s	✅ 纯runtime，无框架	最低（仅CUDA运行时）	低（NVIDIA长期支持）

选择CUDA runtime镜像的关键理由： 它只包含GPU计算必需的库（libcudart.so、libcudnn.so），不含PyTorch/TensorFlow等框架 。这样，我们可以在requirements.txt中精确指定 torch==2.0.1+cu118 ，确保框架版本与CUDA版本严格匹配。而 nvidia/pytorch 镜像内置了特定PyTorch版本，一旦业务需要升级PyTorch，就必须等待NVIDIA发布新镜像，失去自主权。我们的Dockerfile采用多阶段构建：

# 构建阶段：安装编译依赖
FROM nvidia/cuda:11.8.0-cudnn8-devel-ubuntu22.04 AS builder
RUN apt-get update && apt-get install -y python3-dev gcc
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 运行阶段：极简镜像
FROM nvidia/cuda:11.8.0-cudnn8-runtime-ubuntu22.04
# 复制构建好的包，不复制编译工具链
COPY --from=builder /usr/local/lib/python3.9/site-packages /usr/local/lib/python3.9/site-packages
COPY app/ /app/
WORKDIR /app
CMD ["uvicorn", "main:app", "--host", "0.0.0.0:8000", "--port", "8000"]

最终镜像大小仅1.2GB，比单阶段构建小40%，且规避了 apt-get install 残留的 /var/lib/apt/lists/ 等无用文件。

3.3 Triton模型仓库结构：一个config.pbtxt文件如何决定生死

Triton的模型仓库（model repository）是纯文件结构，但其严谨性堪比银行金库。以一个XGBoost二分类模型为例，标准结构如下：

model_repository/
└── xgb_risk_score/
    ├── config.pbtxt          # 必须！定义模型元信息
    ├── 1/                    # 版本目录，数字越大越新
    │   └── model.bst         # XGBoost模型文件（.bst格式）
    └── 2/
        └── model.bst

config.pbtxt 是灵魂，写错一行就无法加载。以下是经过生产验证的最小可行配置：

name: "xgb_risk_score"
platform: "xgboost"
max_batch_size: 128
input [
  {
    name: "features"
    data_type: TYPE_FP32
    dims: [ 24 ]  # 特征维度必须与训练时完全一致！
  }
]
output [
  {
    name: "probabilities"
    data_type: TYPE_FP32
    dims: [ 2 ]   # 二分类输出[0,1]概率
  }
]
dynamic_batching { max_queue_delay_microseconds: 100 }

关键细节解析：

dims: [24] ：必须与训练时 X.shape[1] 完全相等。我们曾因特征工程脚本新增一列但未更新此值，Triton报错 unexpected shape ，日志却只显示 Failed to load model ，排查耗时2小时。解决方案：在训练脚本末尾自动写入 print(f"FEATURE_DIMS={X.shape[1]}") ，CI流程中提取该值生成config.pbtxt。
dynamic_batching ：开启后，Triton会将多个小请求（如batch_size=1）自动合并。 max_queue_delay_microseconds: 100 表示最多等待100微秒凑够batch，平衡延迟与吞吐。实测在QPS 50时，平均batch size达8.3，GPU利用率从35%升至72%。
platform: "xgboost" ：Triton原生支持XGBoost/LightGBM/Sklearn，无需自己写推理代码。但注意：XGBoost模型必须用 model.save_model("model.bst") 保存，不能用 pickle.dump() ，否则Triton无法识别。

注意：Triton启动时会扫描整个model_repository目录，若存在语法错误的config.pbtxt（如少一个括号），它会静默跳过该模型，不报错也不警告！务必在启动前用 tritonserver --model-repository=/path/to/repo --strict-model-config=false --log-verbose=1 验证。

4. 实操过程与核心环节实现：从本地调试到K8s集群的完整链路

4.1 本地开发调试：用Triton Client模拟真实请求流

在把代码推到Git前，必须在本地100%验证端到端流程。我们搭建了一个轻量级本地环境，包含三部分： FastAPI服务、Triton服务、Mock数据生成器 。

首先，启动Triton（使用Docker）：

docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 \
  -v $(pwd)/model_repository:/models \
  nvcr.io/nvidia/tritonserver:23.07-py3 \
  tritonserver --model-repository=/models --strict-model-config=false

注意端口映射：8000是HTTP API，8001是GRPC API，8002是Metrics（Prometheus格式）。然后启动FastAPI：

# 在app/目录下
uvicorn main:app --reload --host 0.0.0.0:8000

此时两个服务并行运行，但FastAPI还不会调用Triton——我们需要一个可靠的客户端。官方 tritonclient 库虽全，但过于厚重。我们用更轻量的 httpx 直接调用Triton HTTP API：

import httpx
import numpy as np

def predict_risk(features: np.ndarray) -> np.ndarray:
    # Triton HTTP API格式：POST /v2/models/{model}/infer
    url = "http://localhost:8000/v2/models/xgb_risk_score/infer"
    payload = {
        "inputs": [{
            "name": "features",
            "shape": [1, 24],  # batch_size=1, features=24
            "datatype": "FP32",
            "data": features.tolist()  # 必须是Python list，不能是np.array
        }],
        "outputs": [{"name": "probabilities"}]
    }
    response = httpx.post(url, json=payload, timeout=30)
    response.raise_for_status()
    result = response.json()
    return np.array(result["outputs"][0]["data"]).reshape(-1, 2)

# 测试
test_features = np.random.rand(1, 24).astype(np.float32)
probs = predict_risk(test_features)
print(f"Risk probability: {probs[0, 1]:.3f}")

这个脚本的价值在于：它复现了生产环境中FastAPI调用Triton的 完整网络链路 ，包括JSON序列化、HTTP头设置、错误码处理。我们把它作为 test_local.py ，每次代码变更后必跑，确保本地调试与线上行为一致。

4.2 K8s部署实战：StatefulSet vs Deployment，谁更适合模型服务？

在K8s中部署Triton，很多人直接用Deployment，但这是个危险陷阱。Triton的模型加载是 有状态操作 ：首次加载模型时，它会将模型权重解压到GPU显存，并建立CUDA context。如果Pod被驱逐（如节点升级），新Pod启动后需重新加载，造成首请求延迟高达5-10秒，业务方无法接受。解决方案是使用 StatefulSet + Local PV ，确保Pod始终调度到同一节点，复用已加载的模型缓存。

我们的StatefulSet配置关键片段：

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: triton-server
spec:
  serviceName: "triton-headless"
  replicas: 1
  selector:
    matchLabels:
      app: triton-server
  template:
    metadata:
      labels:
        app: triton-server
    spec:
      # 关键：绑定GPU节点
      nodeSelector:
        kubernetes.io/os: linux
        nvidia.com/gpu.present: "true"
      tolerations:
      - key: "nvidia.com/gpu"
        operator: "Exists"
        effect: "NoSchedule"
      containers:
      - name: triton
        image: nvcr.io/nvidia/tritonserver:23.07-py3
        args: [
          "tritonserver",
          "--model-repository=/models",
          "--strict-model-config=false",
          "--log-verbose=1",
          "--cuda-memory-pool-byte-size=0:536870912"  # 为GPU 0预分配512MB内存池，避免首次推理OOM
        ]
        volumeMounts:
        - name: model-storage
          mountPath: /models
        resources:
          limits:
            nvidia.com/gpu: 1
          requests:
            nvidia.com/gpu: 1
      volumes:
      - name: model-storage
        persistentVolumeClaim:
          claimName: triton-model-pvc  # 指向Local PV
---
# Local PV声明（需管理员预先创建）
apiVersion: v1
kind: PersistentVolume
metadata:
  name: triton-model-pv
  labels:
    type: local
spec:
  capacity:
    storage: 10Gi
  accessModes:
    - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  storageClassName: local-storage
  local:
    path: /mnt/triton-models  # 节点本地路径
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
        - key: kubernetes.io/hostname
          operator: In
          values:
          - gpu-node-01  # 固定绑定到GPU节点

这个配置确保：即使集群自动扩缩容，Triton Pod永远在 gpu-node-01 上重启，模型缓存不丢失。同时， --cuda-memory-pool-byte-size 参数预分配GPU内存池，避免首次推理时因内存碎片导致OOM。

4.3 监控与告警：用Prometheus+Grafana盯住模型的每一次心跳

生产环境没有“差不多”，只有“0或100%”。我们为Triton和FastAPI分别部署监控：

Triton Metrics ：Triton内置Prometheus endpoint（ /v2/metrics ），暴露关键指标：
- nv_gpu_utilization{device="0"} ：GPU利用率，持续>95%需扩容；
- nv_gpu_memory_used_bytes{device="0"} ：显存使用量，突增可能预示内存泄漏；
- triton_inference_request_success{model="xgb_risk_score"} ：请求成功率，跌破99.5%立即告警；
- triton_inference_queue_duration_us{model="xgb_risk_score"} ：请求排队时间，>100ms说明动态batching失效。

FastAPI Metrics ：用 prometheus-fastapi-instrumentator 库自动埋点：

from prometheus_fastapi_instrumentator import Instrumentator
instrumentator = Instrumentator(
    should_group_status_codes=True,
    should_ignore_untemplated=True,
    should_respect_env_var=True,
    excluded_handlers=["/health", "/metrics"],
)
instrumentator.instrument(app).expose(app)

暴露 /metrics 端点，提供 http_request_duration_seconds_bucket （P95延迟）、 http_requests_total （QPS）等。

Grafana仪表盘我们固化了三个核心视图：

健康总览 ：GPU利用率+请求成功率+平均延迟三指标同屏，绿色=正常，橙色=预警，红色=故障；
流量热力图 ：按小时展示QPS与错误率，识别业务高峰与异常时段；
模型漂移追踪 ：将Triton输出的 probabilities 通过Kafka发送到Drift Detection服务，计算KS统计量，当 KS > 0.1 时触发告警——这比等业务指标下跌后再分析快48小时。

实操心得：所有告警必须配置“抑制规则”。例如，当GPU节点宕机时，会同时触发 nv_gpu_utilization=0 和 triton_inference_request_success=0 告警。我们设置：若 nv_gpu_utilization=0 告警激活，则抑制所有相关模型的 request_success 告警，避免告警风暴。这需要在Alertmanager配置中精细编写 inhibit_rules 。

5. 常见问题与排查技巧实录：那些凌晨三点教会我的事

5.1 典型问题速查表：从现象到根因的快速定位

现象	可能根因	排查命令/步骤	解决方案
Triton启动失败，日志显示 `Failed to load model 'xxx'`	config.pbtxt语法错误或路径错误	`tritonserver --model-repository=/models --log-verbose=1`	用在线protobuf校验器检查config.pbtxt；确认模型文件在 `/models/xxx/1/` 下且权限为644
FastAPI调用Triton超时（HTTP 504）	Triton未启动或网络不通	`curl -v http://triton-service:8000/v2/health/ready` ； `kubectl exec -it fastapi-pod -- ping triton-service`	检查K8s Service名称是否匹配；确认StatefulSet的headless service配置正确
GPU利用率<10%，但QPS很低	动态batching未生效	`curl http://triton:8000/v2/models/xxx/stats` 查看 `inference_count` 和 `execution_count` 比值	调小 `max_queue_delay_microseconds` ；检查客户端是否发送batch_size=1的请求
模型输出概率全为0或NaN	特征数据类型不匹配	在FastAPI中打印 `features.dtype` ，对比config.pbtxt中 `data_type`	强制转换： `features = features.astype(np.float32)` ；在config.pbtxt中明确 `data_type: TYPE_FP32`
K8s Pod反复CrashLoopBackOff	GPU资源请求不足	`kubectl describe pod triton-pod` 查看Events	将 `resources.requests.nvidia.com/gpu` 从 `1` 改为 `1` （确保与limits一致）；检查节点GPU驱动版本是否匹配镜像CUDA版本

5.2 独家避坑技巧：那些文档里不会写的血泪经验

技巧1：用 tritonserver --model-control-mode=explicit 禁用自动加载
默认情况下，Triton启动时会自动加载所有模型。但在灰度发布时，你可能只想先加载v1模型，等验证通过再加载v2。启用 explicit 模式后，必须通过HTTP API手动加载：
```
curl -X POST http://localhost:8000/v2/repository/models/xgb_risk_score/load
```
这让我们实现了“模型热加载”，无需重启Triton服务。

技巧2：在FastAPI中捕获Triton底层错误
Triton返回的HTTP错误码有时很模糊（如500 Internal Error）。我们在FastAPI中增加重试与错误解析：

from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=1, max=10))
async def call_triton(features: np.ndarray):
    try:
        response = await httpx_client.post(
            "http://triton:8000/v2/models/xgb_risk_score/infer",
            json=payload,
            timeout=30
        )
        response.raise_for_status()
        return response.json()
    except httpx.HTTPStatusError as e:
        if e.response.status_code == 500:
            # 解析Triton详细错误
            error_detail = e.response.json().get("error", "")
            if "CUDA out of memory" in error_detail:
                raise RuntimeError("GPU OOM: increase --cuda-memory-pool-byte-size")
        raise

技巧3：用 nvidia-smi dmon 实时监控GPU微观行为
当遇到GPU利用率忽高忽低时， nvidia-smi 的秒级采样太粗糙。我们用 nvidia-smi dmon -s u -d 1 （每秒采集GPU利用率），配合 kubectl top pods ，发现某次事故是因Triton的CUDA context初始化与业务日志写入竞争GPU，导致context创建失败。解决方案：在Triton启动参数中添加 --cuda-memory-pool-byte-size=0:1073741824 （1GB），彻底隔离内存池。
技巧4：为Notebook保留“生产快照”
工程师常抱怨：“我在Notebook里调好参数，但生产环境结果不一样。”根源是Notebook中随机种子未固定。我们在Notebook顶部强制添加：
```
import numpy as np
import torch
import random
SEED = 42
np.random.seed(SEED)
torch.manual_seed(SEED)
random.seed(SEED)
# 并在训练代码中显式传递
model = XGBClassifier(random_state=SEED)
```
同时，用 mlflow.log_param("seed", SEED) 记录，确保可复现。

最后分享一个小技巧：我们给每个模型服务配置一个 /health/live 和 /health/ready 端点，但 /ready 不仅检查进程存活，还执行一次真实推理（用预存的 test_sample.npy ）。这样，K8s的readiness probe能真实反映“模型是否准备好服务”，而不是“进程是否在跑”。有一次，Triton进程活着但GPU显存被占满， /ready 探针失败，K8s自动将流量从该Pod摘除，避免了用户请求失败。所谓生产就绪，就是把所有“可能出问题”的地方，都变成“可探测、可自动响应”的确定性环节。