Test-Time Compute Scaling(TTCS / TTS)推理时计算缩放

概念 - 传统训练缩放、TTCS

Test-Time Compute Scaling 推理时计算缩放 / 测试阶段算力扩展,业内简称:TTS
模型权重完全固定、不重新训练、不微调,仅在推理 / 测试阶段主动增加算力消耗,换取更高推理准确率
算力投入越多,任务效果越好,存在可量化的缩放定律(缩放定律)

传统 Pre-training Scaling(预训练缩放)

提升效果靠堆训练算力:
加大模型参数量、扩充训练数据、延长训练步数;成本极高,模型一旦训练完成,推理时只能单次前向,无法再提升能力

Test-Time Compute Scaling(TTCS)

训练完全结束,模型权重不变;
只在用户提问推理时额外消耗算力,让模型 “多思考、多试错、多验证”,显著提升数学、代码、逻辑推理能力
(OpenAI o1、DeepSeek R1、Gemini Deep Think 底层核心技术)

Pre-training Scaling vs Test-time Scaling(预训练缩放 vs 推理时算力缩放)

participants pɑːˈtɪsɪpənt
n. 参加者,参与者
adj. 参与的
在这里插入图片描述
quo 拉丁语,原形 quod,本义:状态、情形、现状。日常英语几乎不会单独用,只固定出现在短语 status quo 里,现状/现传统/当前既定模式

最左侧:Status Quo Foundation Model(传统基座模型现状)
把算力切分成两块:大块 Training Time(预训练耗时)、小块 Test Time(推理 / 测试耗时)
传统方案只在「预训练阶段」堆算力;而图里分成两条技术路线做对比:

  • 上方黄色框:Pre-training Scaling 预训练缩放
  • 下方蓝色框:Test-time Scaling 推理时计算缩放(TTCS)

Pre-training Scaling 传统预训练扩容方案

算力分配
Training Time:占用绝大部分算力(长条填充)
Test Time:推理阶段只分配极少算力(窄条)

5 个短板
Limited Participants(人群头像)
提升效果只能靠实验室 / 企业自己花钱堆卡做预训练,普通用户、下游使用者无法参与优化模型,参与主体受限。
Resource Inefficient(负重小人)
资源效率极低:预训练烧海量算力、数据、资金,成本巨大,性价比差。
Performance bounded(性能曲线红点在上)
性能天花板被锁死:模型训练完成后,推理阶段算力固定,效果上限无法突破,曲线很快收敛。
Updated Slowly(蜗牛)
迭代更新极慢:重新预训练大模型动辄几周 / 数月,迭代周期漫长。

Test-time Scaling 推理时算力扩容(TTCS)

算力分配
Training Time:预训练算力保持不变(和传统方案一样长)
Test Time:大幅扩充推理阶段算力(填充条变宽,核心区别)

Extended Participants(地球)
参与主体无限扩大:所有终端用户推理时都能参与 “算力扩容”,每个人提问时都可以额外分配算力做思考、采样、搜索,不再局限于训练方。
Resource efficient(轻装快跑小人)
资源利用高效:不用重复重训模型,只在推理时按需消耗算力,不用一次性投入巨额预训练成本。
Great Potential(性能曲线红点在下)
性能潜力巨大:推理算力越高,效果持续上涨,没有预训练带来的固定性能天花板;算力投入和效果正相关。
Updated Quickly(火箭)
迭代速度极快:不需要重新训练模型权重,只修改推理解码逻辑(CoT、多采样、自校验、MCTS 等),上线、调优、迭代速度飞快。

算力增量全部发生在用户发提问、模型生成答案的瞬间,不在训练机房。

对比

这里的TTCS是云端扩容
在这里插入图片描述

小结

传统思路(Pre-training Scaling):把所有资源砸在模型训练阶段,推理阶段几乎不分配算力,成本高/迭代慢/性能有上限、只有大厂能参与优化
TTCS 新思路(Test-time Scaling):训练算力不变,大幅增加推理时算力,让终端推理成为提升模型能力的核心环节
TTCS 是更优路线:资源利用率更高、所有人都能参与提升模型、效果上限更高、迭代更新速度远快于重新预训练

贴合行业实例
OpenAI o1、DeepSeek R1、Gemini Advanced 都是典型 TTCS 落地:
模型权重固定,推理时加长思维链、多路径采样、树搜索,靠推理算力换取更强逻辑能力,不用重新预训练大模型

在这里插入图片描述

四大主流实现方式(怎么 “增加推理算力”)

上下文缩放(Internal Scaling)

延长 CoT 思维链,生成更长推理步骤,让模型分步推导;算力消耗随思考 token 线性上涨。

并行采样缩放(Batch Scaling / Best-of-N)

一次 prompt 并行生成 N 条答案,用打分器 / 模型自校验选出最优解;N 越大算力越高、正确率越高。

迭代精调缩放(Turn Scaling / Self-refine)

模型写完答案后,多次自查、修正、重写,多轮迭代优化输出。

搜索类缩放(MCTS / Beam Search)

对解题路径做树搜索,遍历多条推理分支,选出最优路径,算力消耗最大、提升最明显。

行业共识

同等算力下,TTCS 效果优于单纯堆大模型:小模型搭配充足推理算力,性能可超过参数大十几倍的原生模型
存在缩放收益递减:算力加到一定阈值后,准确率提升微乎其微,甚至出现 “过度思考(overthinking)” 反而答错
任务强相关:数学、竞赛代码、多跳逻辑收益极大;闲聊、简单分类几乎无提升
工程权衡:算力↑ → 准确率↑、延迟↑、吞吐量↓;生产环境需要自适应 TTCS,简单问题少分配算力,难题多分配算力

TTCS = Test-Time Compute Scaling(完整全称)
TTS = Test-Time Scaling(通用简称)
Inference-time scaling:同义,工程侧更常用

举例

同样 7B 开源模型:
普通推理:单次生成答案,GSM8K 数学正确率 62%
TTCS 开启(Best-of-16 + 长 CoT):多路径采样 + 长思考,算力翻 16 倍,正确率冲到 80%+
全程不重新训练模型,仅修改推理解码逻辑

附录

MCTS 含义

Monte Carlo Tree Search,蒙特卡洛树搜索

定义

一种启发式树搜索算法,结合随机采样(蒙特卡洛模拟)+ 树分支推演,用来在海量可选路径里找到最优决策;是大模型 Test-Time Scaling(推理时缩放)的核心技术之一

四大标准执行步骤(循环迭代)
Selection 选择
从根节点出发,按 UCB 公式挑选最有潜力的子节点,走到未完全探索的叶子
Expansion 扩展
给当前叶子新增一条 / 多条未尝试的分支(对应模型下一步可能输出的 token、推理步骤)
Simulation 模拟(蒙特卡洛随机推演)
从新节点快速随机走完一整条完整推理路径,得到这条分支的最终得分(比如数学题是否答对、逻辑是否通顺)
Backpropagation 反向传播
把模拟得到的分数回传给这条路径上所有祖先节点,更新每个分支的平均收益、访问次数,后续选择时优先高分路径
循环重复以上 4 步,算力投入越多,搜索越充分,答案越精准

和大模型 TTCS 的关系
传统单条 CoT、Best-of-N 只是简单并行采样;MCTS 是结构化深度搜索:

  • 普通推理:只生成 1 条思考链,算力极低,容易局部错误
  • MCTS 推理:把每一步推理拆成树分支,遍历多条解题路径、淘汰错误分支、择优,属于典型Test-Time Compute Scaling,靠推理算力换取更强逻辑、数学、代码能力

直观例子(数学解题)

题目:(12+8)×5
根节点:题目
扩展分支 1:先算 12+8=20;分支 2:先算 8×5=40(错误路径)
模拟推演:分支 1 算出最终 100(高分),分支 2 算出 52(低分)
反向更新权重,后续优先走 “先算括号” 的正确分支
迭代多次后,模型会稳定输出最优解题步骤。

经典落地场景

博弈 AI:AlphaGo、AlphaZero 核心算法(围棋、象棋);
大模型深度推理:o1、DeepSeek-R1、Qwen-R1 等推理模型,用于数学竞赛、代码、多跳逻辑;
机器人规划、调度决策。

优点
不用暴力穷举所有路径,随机采样大幅降低计算量;
天然适配大模型分步推理,解决长链条逻辑错误;
算力投入越多,搜索效果单调提升,完美契合 Test-Time Scaling 缩放定律。

缺点
推理延迟、显存消耗显著上升;
简单问答场景收益极低,只适合复杂推理任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值