大模型 API 的费用,比你感觉到的贵得多。不是你用的模型贵——是用法的细节在漏钱。
翻了两天调用日志,揪出五个吞金的口子:system prompt 浪费、模型档位错配、输出长度失控、重复调用、忽略 Flash 档。堵住之后同样的调用量同样的功能,费用直接砍掉一大截。
下面一条条拆开讲,每一条都附上改前改后的对比数据。
Token 计费:你以为的"调用一次"和实际扣的钱不是一回事
大模型 API 不是按"调用次数"收费,是按 Token 收费——而且输入 Token 和输出 Token 是分开计价的。比如 DeepSeek-V3,输入价格大约是 2 元/百万 Token,输出价格是 8 元/百万 Token——输出比输入贵 4 倍。
这意味着什么?你每次调用如果让模型输出 2000 字的回复,光输出 Token 就要吃掉一大口。我拿 6 月中旬的实际数据举个例子:
| 场景 | 输入 Token | 输出 Token | 单次费用 |
|---|---|---|---|
| 代码生成(简短) | 300 | 800 | ~¥0.006 |
| 代码审查(完整文件) | 3500 | 2000 | ~¥0.023 |
| 长文摘要 | 8000 | 1500 | ~¥0.028 |
| 带上下文的多轮对话 | 12000 | 3000 | ~¥0.048 |
单个调用看起来不贵。但一天跑 300 次代码审查级别的调用,一个月就是 200 多块——这还只是一个模型、一个场景。
直连各家原厂 vs 走聚合平台,到底差多少
我拿团队的实际情况算了一笔明账。
我们日常用三个模型:DeepSeek-V3 负责代码生成、Qwen3.6-Max 负责技术文档和长文处理、Kimi K2 用来做代码审查(长上下文优势明显)。如果直连每家原厂:
-
DeepSeek 原厂:充值 ¥100,扣完再充
-
阿里百炼(Qwen):单独注册、单独充值、单独对账
-
Moonshot(Kimi):同上,再来一套
三套账户、三套计费标准、三套账单系统。一个月下来,DeepSeek 花 ¥280、Qwen 花 ¥190、Kimi 花 ¥150,合计 ¥620。这还只是 API 费用,没算我的时间成本——每个月对账就要花半小时。
换成聚合平台统一充值之后,同一个账户、同一套计费、同一张账单。模型调用量没变,但因为平台按批量采购定价,实际扣费比原厂零售价低一截。6 月第二周开始换过去,下半月三个模型合计只花了 ¥55,折算满月约 ¥120。
差的不只是钱。不用切后台查账这件事,对只有两三个人的小团队来说,省掉的心力比钱值钱。
5 条 Token 优化技巧,每条我都实测过
下面这些不是网上抄的通用建议,是我排查账单时一条条验证过的。
1. system prompt 别写小作文
我之前给 DeepSeek 配了一个 600 字的 system prompt,里面塞了角色设定、输出格式要求、代码风格规范、禁止事项……每次调用都把这 600 字原封不动塞进输入 Token。一天 500 次调用,光 system prompt 就吃掉 30 万 Token——每天 ¥0.6,一个月 ¥18,全是冤枉钱。
改成一版 80 字的精简版,功能完全没降级。system prompt 应该是一张"工作证",不是一本"员工手册"。
2. max_tokens 设一个合理上限
很多人在代码里写 max_tokens=4096 或者干脆不设。模型不会自动省着输出,你给了多大空间它就往多大写。
我的实际数据:代码生成场景,90% 的回复输出在 600-1200 Token 之间。把 max_tokens 从 4096 砍到 1500 之后,单次调用费用从 ¥0.012 降到 ¥0.008,降了三分之一。只碰到过一次超限截断(生成一个完整的 API 封装类),加了个重试逻辑就兜住了。
3. 对话历史别无限叠加
多轮对话最容易爆 Token。用户问一个问题,你把前 10 轮对话全塞进上下文,每轮 800 Token,10 轮就是 8000 Token 的输入——明明最后一轮只需要前面 2 轮就够了。
我的处理方式:超过 4 轮历史时,让模型自己对前几轮做一句摘要,然后只传最近 2 轮完整上下文 + 前面历史的摘要。输入 Token 直接砍掉 60%,回复质量完全不受影响。
4. 不是所有任务都需要 Max 档位
DeepSeek 有 V4 Pro/Flash、Qwen 有 Max/Plus/Flash——不同档位价格能差 5-10 倍。
我 6 月初的账单里,60% 的调用是"写一段注释""格式化这段 JSON""这个变量名好不好"这种轻量任务,但全跑在 DeepSeek-V3 上。后来做了一个分流:轻量任务走 Qwen3.6-Flash(价格大约是 DeepSeek-V3 的 1/20),重度任务再走主模型。单这一项,月费降了 ¥70。
5. 关掉不需要的 reasoning tokens
DeepSeek-R1、Kimi K2-Thinking 这类推理模型,会在输出里带一大段"思考过程"。如果你只是要最终答案,这部分 Token 就是纯浪费——而且价格通常比普通输出还贵。
我的做法:日常开发用 DeepSeek-V3(无推理开销),只有遇到复杂 Bug 排查或架构设计时才切到推理模型。一个月只有 15-20 次调用需要推理模型,而不是之前的一天 50 次。
一条策略:先跑 Flash 档位挡一刀
额外说一个组合拳,省得最多。
我在代码里加了一个简单的分流层:所有请求默认先走 Flash 档位(Qwen3.6-Flash),如果模型返回质量不够(通过后处理检测到代码有语法错误、回复太短、或用户手动触发了"重试"),再自动升级到 Max 档位重新生成。
实测下来,78% 的请求在 Flash 档位就满足了。只有 22% 需要升级到 Max。综合费用比全程跑 Max 降了 55%,用户感知到的质量差异几乎为零——因为那 22% 自动兜底了。
这个策略在 器灵模型广场 上做特别自然,因为所有模型走同一个接口,切换只改 model 参数,不用改鉴权逻辑也用不着引入多套 SDK。
一个 Key 统一计费,账单的隐藏价值
这件事之前我没当回事,经历了 6 月那次排查才意识到。
多模型、多账户、多计费标准的时候,你根本搞不清楚钱花在哪了。DeepSeek 支出 ¥280,是哪些场景吃掉的?Qwen 花了 ¥190,有几成是无效调用?——对不出来的。
统一计费之后,一张账单拉出来,每个模型的日消费、每小时调用量、单次平均费用一目了然。6 月下半月我每天看一眼,发现有两次凌晨 2 点的调用峰值——排查下来是一个定时脚本忘记关掉了。
不知道钱花在哪,就永远省不了钱。
汇总:五条优化实际效果
| 优化措施 | 月费降幅 |
|---|---|
| 精简 system prompt | ¥18 |
| 限制 max_tokens | ¥25 |
| 对话历史截断 | ¥35 |
| 轻量任务走 Flash 档位 | ¥70 |
| 减少推理模型使用 | ¥55 |
| 合计 | ~¥203 |
实际月费从 ¥620 降到 ¥120 左右,降了 80%。调用量没减,功能没砍,体验没变——只是把漏钱的口子堵上了。
如果你只有一个下午,先做这三件事
不急着一口气全改。优先级排序:
-
看一眼上个月的账单——哪个模型吃掉了最多的钱?是不是大材小用了?
-
把 system prompt 精简到 100 字以内——这是零成本、立刻见效的操作。
-
给所有调用设一个合理的 max_tokens 上限——别让模型敞开了输出。
做完这三件事,大概率就能省掉 30%-40% 的费用。剩下的技巧,每个月迭代一条就够了。
本文所有费用数据基于 DeepSeek-V3、Qwen3.6 系列、Kimi K2 在 2026 年 6 月的公开定价,实际价格以各平台当前定价页为准。模型调用通过 器灵模型广场 的统一接口完成,所有数据来自实际账单记录。
323

被折叠的 条评论
为什么被折叠?



