OmniRoute:一个端点聚合 236+ AI 提供商的免费智能路由网关
📌 核心观点
OmniRoute 是一个开源的免费 AI 网关,通过统一的单一端点(http://localhost:20128/v1),将 Claude Code、Cursor、Cline、Copilot 等主流 AI 编程工具接入 236+ 家 AI 提供商(含 50+ 免费),实现智能路由、自动降级与 Token 压缩,让开发者永不因限速或额度耗尽而中断工作。
🔑 关键信息
1. 免费额度聚合
| 指标 | 数值 |
|---|---|
| 每月稳定免费 Token | ~1.6B |
| 首月含注册积分 | 最高 ~2.1B |
| 支持提供商总数 | 236+ |
| 免费提供商数量 | 50+(其中 11 家永久免费) |
| 永久免费提供商举例 | Kiro、Qoder、Pollinations、LongCat |
⚠️ 统计方法:每个共享免费池只计算一次,避免虚报(若按速率上限 24×7 计算可达 ~100 亿,但官方不采用此口径)。
2. 四级自动降级策略(Auto-Fallback)
Tier 1: SUBSCRIPTION(Claude Code / Codex / Copilot 订阅)
↓ 额度耗尽
Tier 2: API KEY(DeepSeek / Groq / xAI 等付费 API)
↓ 预算触发
Tier 3: CHEAP(GLM $0.5 / MiniMax $0.2 等低价模型)
↓ 预算触发
Tier 4: FREE(Kiro / Qoder / Pollinations 等永久免费)
切换在毫秒级完成,对上层工具完全透明。
3. Token 压缩:RTK + Caveman 双层压缩
| 压缩技术 | 说明 |
|---|---|
| RTK(Repetitive Token Kompression) | 去除重复 Token |
| Caveman | 进一步精简冗余内容 |
| 节省比例 | 15%–95%(工具密集型会话平均 ~89%) |
| 典型场景 | git diff、grep、日志等大量工具输出 |
4. 智能路由:Auto-Combo 引擎
零配置用法:将模型设为 auto 或其变体即可自动组合路由:
| 模型 ID | 优化目标 |
|---|---|
auto | 默认均衡(LKGP,粘性上次可用提供商) |
auto/coding | 代码质量优先 |
auto/fast | 最低延迟优先 |
auto/cheap | 最低成本优先 |
auto/offline | 最大剩余额度优先 |
auto/smart | 质量优先 + 10% 探索发现更优模型 |
自定义路由策略(17 种):
| 目标 | 策略 |
|---|---|
| 先榨干订阅再付费 | priority / fill-first |
| 负载均衡 | round-robin · weighted · p2c · least-used |
| 始终最低成本 | cost-optimized · auto/cheap |
| 长上下文跨模型接力 | context-relay · context-optimized |
| 隐私/随机路由 | random · strict-random |
| 多模型合并评判 | fusion |
| 按剩余额度路由 | reset-window · headroom |
5. 三层弹性保障
| 层级 | 作用范围 | 说明 |
|---|---|---|
| 🔌 熔断器(Circuit Breaker) | 整个提供商 | 检测上游故障,自动停止请求并探活恢复 |
| 💤 连接冷却(Connection Cooldown) | 单个账号/Key | 跳过限速中的 Key,其他 Key 继续服务 |
| 🎯 模型封锁(Model Lockout) | 提供商+模型 | 精细化隔离问题模型 |
6. 兼容工具与运行环境
- 兼容 CLI / 编程 Agent:Claude Code、Codex、Cursor、Cline、GitHub Copilot、Antigravity 等 16+
- 运行环境:本地、Docker、桌面应用、PWA
- 协议支持:OpenAI API ↔ Claude API ↔ Gemini API ↔ Responses API 互转
- 其他能力:MCP(87 个工具)、A2A、多模态 API、记忆、护栏、评估、TLS 隐身代理
💻 代码/示例
架构示意
┌──────────────────────────────────────────────────────┐
│ Your IDE / CLI (Claude Code, Cursor, Cline…) │
└─────────────────────┬────────────────────────────────┘
│ http://localhost:20128/v1
▼
┌──────────────────────────────────────────────────────┐
│ OmniRoute — Smart Router │
│ RTK + Caveman压缩 · 17种路由策略 │
│ 熔断器 · TLS隐身 · MCP · A2A · 护栏 │
└─────────────────────┬────────────────────────────────┘
┌────────────┼────────────┬────────────┐
▼ ▼ ▼ ▼
Tier 1 Tier 2 Tier 3 Tier 4
SUBSCRIPTION API KEY CHEAP FREE
快速接入示例(OpenAI SDK 兼容)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:20128/v1",
api_key="any" # OmniRoute 统一管理 Key
)
response = client.chat.completions.create(
model="auto/coding", # 自动选最优编程模型
messages=[{"role": "user", "content": "帮我写一个快速排序"}]
)
💡 个人启发
"聚合"思维的价值:OmniRoute 不创造新的 AI 能力,而是通过聚合和调度已有资源,将碎片化的免费额度组织成可靠、连续的服务——这种资源整合的工程思路值得借鉴。
Token 压缩是被低估的优化点:大多数开发者只关注选哪个模型,却忽视了输入本身的冗余性。RTK + Caveman 最高 95% 的压缩率提醒我们,优化输入质量与优化模型选择同样重要。
韧性设计的分层原则:三层弹性保障(提供商级/账号级/模型级)体现了良好的故障隔离设计——每一层只管自己的粒度,不互相耦合,是微服务容错设计的优秀范本。
🔭 延伸思考
免费额度的可持续性:当大量用户通过 OmniRoute 聚合使用免费 Tier 时,各提供商是否会收紧政策?这种"寄生式"免费聚合模式长期是否可持续,还是会倒逼提供商调整免费策略?
Token 压缩的精度代价:RTK + Caveman 在压缩
git diff、日志等工具输出时,是否会因过度压缩导致模型丢失关键上下文?压缩率与准确率之间如何做到自适应权衡?单一端点的安全风险:所有 AI 工具的请求都经过本地 OmniRoute 中转,意味着所有 API Key 和对话内容都汇聚于此——在企业或多人协作场景下,如何防止 Key 泄露和对话数据被拦截,是否有足够的安全审计机制?
462

被折叠的 条评论
为什么被折叠?



