用 Argo Rollouts + Prometheus 指标驱动金丝雀发布自动验收

最新推荐文章于 2026-07-02 09:48:33 发布

原创最新推荐文章于 2026-07-02 09:48:33 发布 · 408 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

业务

一、背景：为什么我们需要更智能的金丝雀发布

金丝雀发布作为一种经典的渐进式交付策略，其核心思路并不复杂——将新版本先暴露给一小部分真实流量，观察没有问题后再逐步扩大范围，最终完成全量发布。

但在实际落地中，很多团队的金丝雀发布停留在“手动模式”：运维人员在每个阶段盯着监控大盘，凭经验判断新版本是否健康，然后手动执行 kubectl argo rollouts promote。这种方式不仅效率低下，而且高度依赖个人经验，无法真正实现“数据驱动”的发布决策。

我们真正想要的，是一个能够自动根据实时指标数据决定是否继续发布的闭环系统。Argo Rollouts 正好提供了这样的能力。

二、Argo Rollouts 简介

Argo Rollouts 是一个 Kubernetes 控制器和一组 CRD（自定义资源定义），为 Kubernetes 提供更高级的部署能力，包括蓝绿部署、金丝雀发布、金丝雀分析、实验和渐进式交付等功能[reference:0]。

与原生 Deployment 不同，Argo Rollouts 的核心 CRD 是 Rollout 资源，它替代了传统的 Deployment 对象，并通过精细化的步骤定义来控制发布节奏。此外，Analysis 相关的 CRD 允许用户在部署过程中定义和执行自动化分析任务，基于监控数据对新版本的运行状况进行健康检查[reference:1]。

从架构上看，Argo Rollouts 的核心组件包含控制器（负责处理发布逻辑和状态协调）、Rollout 资源（定义部署策略）、流量路由模块（通过 Service Mesh 或 Ingress 控制流量权重）以及分析引擎（执行指标分析和质量门控）[reference:2]。

整个系统的典型工作流程如下图所示：

三、核心概念：AnalysisTemplate 与 AnalysisRun

在深入实战之前，先理解两个核心概念：

AnalysisTemplate 是一个可复用的分析模板，定义了如何收集指标、成功率条件、失败阈值等。AnalysisRun 则是 AnalysisTemplate 的实例化运行对象，类似于 Kubernetes Job，最终会以 Successful、Failed 或 Inconclusive 状态完成，其运行结果将直接影响 Rollout 的后续行为——继续、中止或暂停[reference:3]。

Argo Rollouts 支持多种指标提供者，包括 Prometheus、Web（HTTP GET）、Job、Datadog、New Relic 等[reference:4]。本文以 Prometheus 为例进行讲解。

四、环境准备与安装

4.1 安装 Argo Rollouts Controller

# 创建命名空间
kubectl create namespace argo-rollouts

# 安装 Argo Rollouts 控制器
wget https://github.com/argoproj/argo-rollouts/releases/latest/download/install.yaml
kubectl -n argo-rollouts apply -f install.yaml

# 验证安装
kubectl -n argo-rollouts get all

4.2 安装 kubectl 插件（推荐）

kubectl 插件提供了命令行管理和可视化 Dashboard 的能力，对于调试和观察发布过程非常方便[reference:5]。

# 下载插件
curl -LO https://github.com/argoproj/argo-rollouts/releases/latest/download/kubectl-argo-rollouts-linux-amd64

# 安装
chmod +x kubectl-argo-rollouts-linux-amd64
mv kubectl-argo-rollouts-linux-amd64 /usr/local/bin/kubectl-argo-rollouts

# 验证
kubectl argo rollouts version

4.3 确保 Prometheus 可访问

Argo Rollouts 控制器需要能够访问 Prometheus 的 HTTP API 端点。假设 Prometheus 部署在 monitoring 命名空间中，服务名为 prometheus-server，内网访问地址为 http://prometheus-server.monitoring.svc.cluster.local:9090。稍后在 AnalysisTemplate 中需要配置这个地址。

五、实战案例：电商订单服务金丝雀发布

我们以一个电商订单服务（order-service）为例，展示完整的配置过程。该服务有以下特点：

核心 API：/api/orders（下单接口）、/api/health（健康检查）
关键指标：HTTP 请求错误率、P99 延迟
发布目标：从 v1.0.0 升级到 v1.1.0

5.1 定义 AnalysisTemplate：配置 Prometheus 指标查询

首先定义一个 AnalysisTemplate，配置两个核心质量指标。

apiVersion: argoproj.io/v1alpha1
kind: AnalysisTemplate
metadata:
  name: order-service-health
  namespace: production
spec:
  args:
    - name: service-name
      value: order-service
    - name: canary-hash
  metrics:
    # 指标 1：HTTP 5xx 错误率
    - name: error-rate
      interval: 30s
      successCondition: result[0] < 0.01
      failureLimit: 3
      provider:
        prometheus:
          address: http://prometheus-server.monitoring.svc.cluster.local:9090
          query: |
            (
              sum(rate(http_requests_total{
                service="{{args.service-name}}",
                rollouts_pod_template_hash="{{args.canary-hash}}",
                status=~"5.."
              }[1m]))
              /
              sum(rate(http_requests_total{
                service="{{args.service-name}}",
                rollouts_pod_template_hash="{{args.canary-hash}}"
              }[1m]))
            ) or vector(0)
    # 指标 2：P99 延迟（对比金丝雀与稳定版本）
    - name: p99-latency-comparison
      interval: 30s
      successCondition: result[0] <= 1.2
      failureLimit: 3
      provider:
        prometheus:
          address: http://prometheus-server.monitoring.svc.cluster.local:9090
          query: |
            histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket{
              service="{{args.service-name}}",
              rollouts_pod_template_hash="{{args.canary-hash}}"
            }[1m])) by (le)) 
            / 
            histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket{
              service="{{args.service-name}}",
              rollouts_pod_template_hash!="{{args.canary-hash}}"
            }[1m])) by (le))

这段配置的含义：

error-rate：每 30 秒查询一次金丝雀版本的 HTTP 5xx 错误率，要求错误率低于 1%（< 0.01），连续 3 次失败则触发回滚[reference:6]。
p99-latency-comparison：对比金丝雀版本与稳定版本的 P99 延迟，要求金丝雀版本的延迟不超过稳定版本的 1.2 倍（即 20% 的容忍范围）。

5.2 定义 Rollout 资源：集成分析与金丝雀步骤

接下来创建 Rollout 资源，定义金丝雀发布的各个阶段，并在每个阶段后台运行自动化分析。

apiVersion: argoproj.io/v1alpha1
kind: Rollout
metadata:
  name: order-service
  namespace: production
spec:
  replicas: 10
  selector:
    matchLabels:
      app: order-service
  template:
    metadata:
      labels:
        app: order-service
    spec:
      containers:
        - name: order-service
          image: order-service:v1.1.0
          ports:
            - containerPort: 8080
          env:
            - name: JAVA_OPTS
              value: "-Xms512m -Xmx1024m"
  strategy:
    canary:
      steps:
        # 阶段 1：2% 金丝雀流量，观察 5 分钟
        - setWeight: 2
        - pause: {duration: 5m}
        # 阶段 2：10% 金丝雀流量，同时启动自动化分析
        - setWeight: 10
        - pause: {duration: 10m}
        # 阶段 3：50% 金丝雀流量，继续分析
        - setWeight: 50
        - pause: {duration: 15m}
        # 阶段 4：全量发布
        - setWeight: 100
      # 后台分析：从第 2 步开始，持续运行到发布结束
      analysis:
        templates:
          - templateName: order-service-health
        startingStep: 2
        args:
          - name: service-name
            value: order-service
          - name: canary-hash
            valueFrom:
              podTemplateHashValue: Latest

关键配置解读：

steps 序列：定义了金丝雀发布的四个阶段，流量权重逐步从 2% → 10% → 50% → 100% 递增[reference:7]。
analysis：配置后台分析（background analysis），从第 2 步（索引从 0 开始，因此 startingStep: 2 对应 10% 阶段）开始启动，分析将持续运行直到整个 Rollout 完成[reference:8][reference:9]。
args：动态参数传入 AnalysisTemplate，canary-hash 通过 podTemplateHashValue 自动获取金丝雀版本的 Pod 模板哈希，用于 Prometheus 查询中的标签过滤。

5.3 流量路由配置（以 Istio 为例）

为了使流量按权重正确分配，需要配合流量路由配置。这里以 Istio 服务网格为例：

apiVersion: networking.istio.io/v1beta1
kind: VirtualService
metadata:
  name: order-service-vs
  namespace: production
spec:
  hosts:
    - order-service
  http:
    - route:
        - destination:
            host: order-service-stable
            port:
              number: 8080
          weight: 100
        - destination:
            host: order-service-canary
            port:
              number: 8080
          weight: 0

Argo Rollouts 控制器会自动更新 VirtualService 中的 weight 字段，实现流量的渐进式切换[reference:10]。

5.4 完整发布流程示意图

时间线:
├─ T+0:  镜像更新 v1.1.0 → 创建金丝雀 Pod
├─ T+5s: 金丝雀 Pod Ready
├─ T+6s: 阶段 1 (2% 流量，无分析)
├─ T+5m: 阶段 1 完成 → 阶段 2 (10% 流量)
├─ T+5m: 启动后台分析 (error-rate + p99-latency-comparison)
│         └─ 每 30 秒查询一次 Prometheus
├─ T+15m: 所有指标通过 → 阶段 3 (50% 流量，分析继续)
├─ T+30m: 所有指标通过 → 阶段 4 (100% 流量)
├─ T+30m: 分析完成 (状态: Successful)
└─ T+30m: Rollout 完成，稳定版本更新为 v1.1.0

下图展示了各阶段流量比例的变化趋势：

阶段1（2%流量，5分钟）：

阶段2（10%流量，10分钟）：

阶段3（50%流量，15分钟）：

阶段4（100%流量，全量发布）：

六、运行与观察

6.1 触发发布

通过更新 Rollout 的镜像版本触发金丝雀发布：

kubectl argo rollouts set image order-service order-service=order-service:v1.1.0

6.2 查看发布状态

kubectl argo rollouts get rollout order-service -n production

输出示例：

Name:            order-service
Namespace:       production
Status:          ॥ Paused
Message:         Canary analysis step 2/4 (10% weight)
Strategy:        Canary
  Step:          2/4
  SetWeight:     10
  PauseDuration: 10m
Analysis:
  Name:            order-service-health-5x7f9
  Status:          Running
  Message:         Running (1/2 metrics successful)

6.3 查看分析详情

kubectl describe analysisrun -n production -l rollout-name=order-service

6.4 Dashboard 可视化

通过 kubectl 插件启动本地 Dashboard 进行可视化观察：

kubectl argo rollouts dashboard -n production

访问 http://localhost:3100 即可查看 Rollout 的实时状态、流量权重和 AnalysisRun 详情[reference:11]。

6.5 发布结果

发布成功：所有阶段指标全部通过，金丝雀版本被提升为新的稳定版本，旧版本 Pod 自动缩容。
自动回滚：如果 AnalysisRun 失败（例如连续 3 次 error-rate > 1%），Rollout 自动中止并回滚到上一个稳定版本，用户无需手动干预。

七、高阶实践：多维验证与高级配置

7.1 多维指标组合验证

在实际生产环境中，单一指标往往不足以全面评估新版本的健康状况。建议组合使用以下维度的指标：

指标类型	查询示例	成功条件
错误率	`rate(http_5xx_total[1m])`	`< 0.01` (1%)
P99 延迟	`histogram_quantile(0.99, rate(...))`	`< 500ms`
吞吐量	`rate(http_requests_total[1m])`	`> 100 req/s`
金丝雀 vs 稳定对比	`canary_error_rate / stable_error_rate`	`<= 1.5`

多维验证的核心思路是：既要看绝对值（错误率低于阈值），也要看相对值（金丝雀不比稳定版本差太多），同时通过多轮测量避免因单次瞬时报错而导致误回滚[reference:12]。

7.2 Inline Analysis vs Background Analysis

Argo Rollouts 提供两种分析模式[reference:13]：

Inline Analysis：在每个金丝雀步骤中运行分析，分析完成后才进入下一步。适合需要严格质量门控的场景。
Background Analysis：分析在后台持续运行，不影响步骤的定时推进。适合需要持续监控的场景。

本文采用的 background analysis 更适合生产环境——它在整个发布周期内持续验证，同时不阻塞流量权重的自动提升。

7.3 处理 Inconclusive 状态

在实际使用中需要注意，当 AnalysisTemplate 配置了 inconclusiveLimit: 0 时，Argo Rollouts 控制器可能无法正确处理分析结果为 “不确定（Inconclusive）” 的状态，导致部署在不满足条件的情况下继续推进。官方正在修复此问题，当前阶段建议设置合理的 failureLimit 和 count 参数来规避[reference:14]。

7.4 最佳实践建议

预发布环境先手动验证：在预发环境使用 kubectl argo rollouts promote 命令手动推进阶段，生产环境再配置全自动渐进流程[reference:15]。
将 SLI 定义为 Prometheus Recording Rule：将用于分析的 PromQL 表达式预先定义为 Recording Rule，确保 Dashboard、告警和 Argo Rollouts 使用完全相同的查询逻辑，避免“仪表板看着正常但分析失败”的偏差[reference:16]。
合理设置 analysis 的 startingStep：不要从一开始就运行分析，等待金丝雀 Pod 完全就绪且流量稳定后再启动。
定义合适的 failureLimit：避免单次瞬时报错就触发回滚，建议设置为 3-5 次。
监控 Argo Rollouts 自身的指标：Argo Rollouts 控制器暴露 /metrics 端点（端口 8090），可以接入 Prometheus 监控控制器的健康状态和性能[reference:17]。