Test-Time Compute Scaling（TTCS / TTS）推理时计算缩放

原创于 2026-07-02 00:02:46 发布 · 348 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

大数据

概念 - 传统训练缩放、TTCS

Test-Time Compute Scaling 推理时计算缩放 / 测试阶段算力扩展，业内简称：TTS
模型权重完全固定、不重新训练、不微调，仅在推理 / 测试阶段主动增加算力消耗，换取更高推理准确率
算力投入越多，任务效果越好，存在可量化的缩放定律（缩放定律）

传统 Pre-training Scaling（预训练缩放）

提升效果靠堆训练算力：
加大模型参数量、扩充训练数据、延长训练步数；成本极高，模型一旦训练完成，推理时只能单次前向，无法再提升能力

Test-Time Compute Scaling（TTCS）

训练完全结束，模型权重不变；
只在用户提问推理时额外消耗算力，让模型 “多思考、多试错、多验证”，显著提升数学、代码、逻辑推理能力
（OpenAI o1、DeepSeek R1、Gemini Deep Think 底层核心技术）

Pre-training Scaling vs Test-time Scaling（预训练缩放 vs 推理时算力缩放）

participants pɑːˈtɪsɪpənt
n. 参加者，参与者
adj. 参与的
在这里插入图片描述
quo 拉丁语，原形 quod，本义：状态、情形、现状。日常英语几乎不会单独用，只固定出现在短语 status quo 里，现状/现传统/当前既定模式

最左侧：Status Quo Foundation Model（传统基座模型现状）
把算力切分成两块：大块 Training Time（预训练耗时）、小块 Test Time（推理 / 测试耗时）
传统方案只在「预训练阶段」堆算力；而图里分成两条技术路线做对比：

上方黄色框：Pre-training Scaling 预训练缩放
下方蓝色框：Test-time Scaling 推理时计算缩放（TTCS）

Pre-training Scaling 传统预训练扩容方案

算力分配
Training Time：占用绝大部分算力（长条填充）
Test Time：推理阶段只分配极少算力（窄条）

5 个短板
Limited Participants（人群头像）
提升效果只能靠实验室 / 企业自己花钱堆卡做预训练，普通用户、下游使用者无法参与优化模型，参与主体受限。
Resource Inefficient（负重小人）
资源效率极低：预训练烧海量算力、数据、资金，成本巨大，性价比差。
Performance bounded（性能曲线红点在上）
性能天花板被锁死：模型训练完成后，推理阶段算力固定，效果上限无法突破，曲线很快收敛。
Updated Slowly（蜗牛）
迭代更新极慢：重新预训练大模型动辄几周 / 数月，迭代周期漫长。

Test-time Scaling 推理时算力扩容（TTCS）

算力分配
Training Time：预训练算力保持不变（和传统方案一样长）
Test Time：大幅扩充推理阶段算力（填充条变宽，核心区别）

Extended Participants（地球）
参与主体无限扩大：所有终端用户推理时都能参与 “算力扩容”，每个人提问时都可以额外分配算力做思考、采样、搜索，不再局限于训练方。
Resource efficient（轻装快跑小人）
资源利用高效：不用重复重训模型，只在推理时按需消耗算力，不用一次性投入巨额预训练成本。
Great Potential（性能曲线红点在下）
性能潜力巨大：推理算力越高，效果持续上涨，没有预训练带来的固定性能天花板；算力投入和效果正相关。
Updated Quickly（火箭）
迭代速度极快：不需要重新训练模型权重，只修改推理解码逻辑（CoT、多采样、自校验、MCTS 等），上线、调优、迭代速度飞快。

算力增量全部发生在用户发提问、模型生成答案的瞬间，不在训练机房。

对比

这里的TTCS是云端扩容
在这里插入图片描述

小结

传统思路（Pre-training Scaling）：把所有资源砸在模型训练阶段，推理阶段几乎不分配算力，成本高/迭代慢/性能有上限、只有大厂能参与优化
TTCS 新思路（Test-time Scaling）：训练算力不变，大幅增加推理时算力，让终端推理成为提升模型能力的核心环节
TTCS 是更优路线：资源利用率更高、所有人都能参与提升模型、效果上限更高、迭代更新速度远快于重新预训练

贴合行业实例
OpenAI o1、DeepSeek R1、Gemini Advanced 都是典型 TTCS 落地：
模型权重固定，推理时加长思维链、多路径采样、树搜索，靠推理算力换取更强逻辑能力，不用重新预训练大模型

在这里插入图片描述

四大主流实现方式（怎么 “增加推理算力”）

上下文缩放（Internal Scaling）

延长 CoT 思维链，生成更长推理步骤，让模型分步推导；算力消耗随思考 token 线性上涨。

并行采样缩放（Batch Scaling / Best-of-N）

一次 prompt 并行生成 N 条答案，用打分器 / 模型自校验选出最优解；N 越大算力越高、正确率越高。

迭代精调缩放（Turn Scaling / Self-refine）

模型写完答案后，多次自查、修正、重写，多轮迭代优化输出。

搜索类缩放（MCTS / Beam Search）

对解题路径做树搜索，遍历多条推理分支，选出最优路径，算力消耗最大、提升最明显。

行业共识

同等算力下，TTCS 效果优于单纯堆大模型：小模型搭配充足推理算力，性能可超过参数大十几倍的原生模型
存在缩放收益递减：算力加到一定阈值后，准确率提升微乎其微，甚至出现 “过度思考（overthinking）” 反而答错
任务强相关：数学、竞赛代码、多跳逻辑收益极大；闲聊、简单分类几乎无提升
工程权衡：算力↑ → 准确率↑、延迟↑、吞吐量↓；生产环境需要自适应 TTCS，简单问题少分配算力，难题多分配算力

TTCS = Test-Time Compute Scaling（完整全称）
TTS = Test-Time Scaling（通用简称）
Inference-time scaling：同义，工程侧更常用

举例

同样 7B 开源模型：
普通推理：单次生成答案，GSM8K 数学正确率 62%
TTCS 开启（Best-of-16 + 长 CoT）：多路径采样 + 长思考，算力翻 16 倍，正确率冲到 80%+
全程不重新训练模型，仅修改推理解码逻辑

附录

MCTS 含义

Monte Carlo Tree Search，蒙特卡洛树搜索

定义

一种启发式树搜索算法，结合随机采样（蒙特卡洛模拟）+ 树分支推演，用来在海量可选路径里找到最优决策；是大模型 Test-Time Scaling（推理时缩放）的核心技术之一

四大标准执行步骤（循环迭代）
Selection 选择
从根节点出发，按 UCB 公式挑选最有潜力的子节点，走到未完全探索的叶子
Expansion 扩展
给当前叶子新增一条 / 多条未尝试的分支（对应模型下一步可能输出的 token、推理步骤）
Simulation 模拟（蒙特卡洛随机推演）
从新节点快速随机走完一整条完整推理路径，得到这条分支的最终得分（比如数学题是否答对、逻辑是否通顺）
Backpropagation 反向传播
把模拟得到的分数回传给这条路径上所有祖先节点，更新每个分支的平均收益、访问次数，后续选择时优先高分路径
循环重复以上 4 步，算力投入越多，搜索越充分，答案越精准

和大模型 TTCS 的关系
传统单条 CoT、Best-of-N 只是简单并行采样；MCTS 是结构化深度搜索：