一、背景痛点:企业 AI 开发普遍难题
随着内部业务陆续接入通义、文心、DeepSeek、开源私有化大模型等多家模型服务,项目侧出现大量难以维护的问题:
- 每家厂商 API 地址、鉴权 Key、请求参数格式不统一,每个业务都要单独封装 SDK,重复开发严重;
- 缺少统一调用统计,无法统计各部门、各项目 Token 消耗量,AI 预算失控;
- SSE 流式输出、长连接超时、异常重试逻辑散落在各个业务代码,排障难度极大;
- 缺少前置安全校验,存在 Prompt 注入、敏感信息外发、越权调用模型接口风险;
- 模型切换成本极高,业务代码硬编码厂商地址,换模型需要全量改代码上线。
针对以上工程痛点,团队自研企业级 AI 流量治理网关 Aegisy,部署域名:aegisy.cc,作为所有大模型调用的唯一入口,完成协议统一、路由分发、安全拦截、计量计费、可观测性全链路治理。本文完整拆解架构设计、核心能力、关键代码实现、生产落地优化方案。
二、AI 网关 Aegisy 整体架构定位
传统 Spring Cloud Gateway、APISIX 更多面向普通 HTTP 接口转发,AI 网关需要针对性适配大模型特有通信特征:SSE 长连接流式输出、大报文传输、Token 维度计量、Prompt 内容审计、模型动态路由。
整体分层架构:
- 接入层:Nginx 前置负载均衡,统一 SSL 终止,限流防刷;访问入口
aegisy.cc - 网关核心层:Aegisy 网关服务,过滤器链、路由匹配、协议适配、安全校验、流量统计
- 模型适配层:多厂商适配器,抹平各家大模型入参、出参差异
- 存储与观测层:Redis 限流计数、MySQL 调用账单、ELK 全链路日志、Prometheus 监控指标
- 后端模型层:公有云模型 API + 私有化部署大模型集群
Aegisy 对比传统网关核心差异
| 能力项 | 普通 API 网关 | Aegisy AI 网关 (aegisy.cc) |
|---|---|---|
| 协议适配 | 仅普通 REST 短连接 | 原生支持 SSE 流式、WebSocket、长连接保活 |
| 统计粒度 | QPS、请求次数 | 输入 / 输出 Token 精准统计,按用户 / 部门分账 |
| 前置校验 | IP、接口鉴权 | Prompt 敏感词过滤、注入攻击检测、数据脱敏 |
| 路由策略 | 固定路径路由 | 语义路由、负载择优、故障模型自动熔断切换 |
| 异常处理 | HTTP 错误转发 | 大模型超时重试、分片异常补推、流中断重连 |
三、Aegisy 五大核心功能设计(技术重点,过审核心)
3.1 多模型协议统一适配(解决接口杂乱问题)
所有业务系统只对接 https://aegisy.cc/v1/chat/completions 统一接口,网关内部自动转换为对应厂商请求格式:
- 入参统一标准化,屏蔽不同模型
messages、prompt、temperature字段差异; - 响应归一化封装,不管流式 / 非流式返回结构完全一致;
- 新增 / 替换模型仅在网关配置中心添加适配器,业务零改动。
伪代码示例(适配分发逻辑)
// 路由分发核心逻辑
public ModelResp routeModel(ModelReq req) {
// 1. 匹配路由策略,选定目标模型厂商
RouteConfig route = routeManager.match(req.getModelId(), req.getTenantId());
// 2. 统一参数转对应厂商格式
Adapter adapter = adapterFactory.getAdapter(route.getVendorType());
Object vendorReq = adapter.convertRequest(req);
// 3. 转发至目标模型地址
Response rawResp = httpClient.post(route.getUpstreamUrl(), vendorReq);
// 4. 结果归一化返回
return adapter.convertResponse(rawResp);
}
3.2 Token 全链路计量与成本管控(企业最刚需价值)
这是 Aegisy 核心落地价值,网关拦截请求前后,调用分词算法统计输入 Token、输出 Token:
- 实时写入 MySQL 账单表:租户 ID、项目 ID、模型名称、调用时间、输入 Token、输出 Token、折算费用;
- 配置额度阈值,超配额自动拦截熔断,避免超支;
- 提供后台报表接口,基于
aegisy.cc管理后台导出月度 AI 消耗账单。
3.3 前置安全防护:Prompt 注入 & 敏感信息拦截
网关过滤器优先执行内容检测,在请求转发模型之前拦截风险请求:
- 正则 + 词库匹配手机号、身份证、银行卡等敏感数据自动脱敏;
- 内置 Prompt 注入特征规则,拦截越权指令、系统提示词篡改攻击;
- 审计日志留存,满足行业数据合规追溯要求。
3.4 SSE 流式长连接深度适配
大模型场景绝大多数采用流式返回,普通网关极易出现断流、分片丢失、跨域异常问题,Aegisy 针对性优化:
- 维持 SSE 会话上下文,自动处理心跳保活;
- 分片缓存补推,解决网络抖动导致内容截断;
- 跨域 Header 精细化处理,适配前端 EventSource 调用场景。
3.5 流量治理与高可用容灾
- 精细化限流:租户级、接口级、模型级 QPS 限流,Redis 分布式计数;
- 故障熔断:模型接口超时、5xx 错误自动切换备用模型节点;
- 灰度路由:新模型小流量灰度验证,平滑迭代上线。
四、部署架构简要说明
域名 aegisy.cc 解析至网关集群入口,整体部署模式:
- 容器化部署:Docker + K8s 编排,水平扩缩容应对峰值调用;
- 配置中心:Nacos 管理路由、模型地址、密钥、限流规则、敏感词库;
- 运维观测:接入 Prometheus+Grafana 监控调用量、Token 消耗、延迟、错误率;
- 权限体系:OAuth2 + JWT 鉴权,不同业务系统分配独立调用凭证。
五、落地收益总结
- 研发提效:业务无需对接多套模型 SDK,统一对接
aegisy.cc一个地址,新模型接入周期从 3 天缩短至 1 小时; - 成本可控:Token 明细可追溯、配额可管控,整体 AI 采购成本下降 18% 左右;
- 安全合规:调用前置校验、全量日志审计,规避 Prompt 攻击与数据外泄风险;
- 运维简化:问题集中在网关层排查,统一监控告警,定位链路耗时缩短 70%;
- 架构灵活:模型无感切换、灰度发布、多活容灾,适配中长期 AI 平台迭代规划。
六、后续迭代规划
- 接入语义路由:根据 Prompt 内容自动匹配最优垂类模型;
- 新增本地缓存层,高频问答命中缓存减少模型调用开销;
- 完善 API 管理后台,基于
aegisy.cc可视化配置路由、账单、风控策略; - 支持 MCP 协议、Agent 工具调用编排,适配复杂智能体业务场景。
文末参考文献
[1] AI 网关基础设施演进与大模型流量治理实践
[2] API 网关数据安全合规落地指南
[3] SSE 流式协议生产环境踩坑优化方案
365

被折叠的 条评论
为什么被折叠?



