【AI论文】Video-T1: 视频生成中的测试时缩放技术

摘要：随着训练数据规模、模型尺寸以及计算成本的增加，视频生成在数字创作领域取得了令人瞩目的成果，使用户能够在多个领域中表达创意。近期，大型语言模型（LLMs）领域的研究人员将这种规模扩展到了测试阶段，通过利用更多的推理时计算资源，可以显著提升LLMs的性能。相较于通过高昂的训练成本来扩大视频基础模型的规模，我们探索了测试时缩放（Test-Time Scaling, TTS）在视频生成中的潜力，旨在回答一个问题：如果允许视频生成模型使用非微不足道的推理时计算资源，那么在面对具有挑战性的文本提示时，它能在多大程度上提升生成质量。在本研究中，我们将视频生成的测试时缩放重新诠释为一个搜索问题，即从高斯噪声空间到目标视频分布的采样过程中，寻找更优的轨迹。具体来说，我们构建了包含测试时验证器的搜索空间，以提供反馈，并采用启发式算法来指导搜索过程。给定一个文本提示，我们首先探索了一种直观的线性搜索策略，即在推理时增加噪声候选。然而，由于同时对所有帧进行全步去噪需要巨大的测试时计算成本，我们进一步设计了一种更为高效的视频生成测试时缩放方法，称为“帧之树”（Tree-of-Frames, ToF）。该方法以自回归的方式自适应地扩展和修剪视频分支。在文本条件视频生成基准上的大量实验表明，增加测试时计算资源能够持续提升视频质量。项目页面：https://liuff19.github.io/Video-T1，Huggingface链接：Paper page，论文链接：2503.18942

研究背景和目的

研究背景

随着生成模型领域的快速发展，视频生成技术近年来取得了显著进步。从图像和文本生成到更复杂的任务，如视频合成，生成模型的应用范围不断扩大。视频生成技术因其能够自动从简单文本描述生成高质量视频的能力，在娱乐、教育和广告等多个行业具有深远的潜在影响。然而，尽管视频生成技术已经取得了令人瞩目的成就，但在生成高质量视频方面仍然面临诸多挑战，特别是在保持时间一致性和捕捉帧间复杂动态方面。

传统的视频生成方法主要依赖于增加训练数据规模、模型尺寸和计算成本来提高性能，这种方法在训练过程中被称为“规模定律”。尽管这种方法在一定程度上推动了视频生成技术的进步，但高昂的训练成本和资源需求限制了其进一步的扩展。与此同时，大型语言模型（LLMs）领域的研究人员开始探索测试时缩放（Test-Time Scaling, TTS）技术，该技术通过在推理时使用更多的计算资源来显著提升LLMs的性能。这种技术启发了我们思考，是否可以通过类似的方式在视频生成中实现性能的飞跃，特别是在面对具有挑战性的文本提示时。

研究目的

本研究旨在探索测试时缩放技术在视频生成中的应用潜力，特别是当视频生成模型被允许使用非微不足道的推理时计算资源时，其生成质量能提升到什么程度。我们希望通过重新诠释视频生成的测试时缩放为一个搜索问题，即从高斯噪声空间到目标视频分布的采样过程中寻找更优的轨迹，来实现这一目标。通过构建包含测试时验证器的搜索空间，并提供反馈和启发式算法来指导搜索过程，我们期望能够开发出一种高效的方法，以在给定具有挑战性的文本提示下，显著提升视频生成的质量。

研究方法

测试时缩放框架

为了实现上述研究目的，我们提出了一种基本的测试时缩放框架，称为Video-T1，用于视频生成。该框架将测试时缩放重新诠释为在可能的视频轨迹空间中搜索更好轨迹的问题。具体来说，我们构建了一个包含测试时验证器的搜索空间，以提供反馈，并采用启发式算法来指导搜索过程。

随机线性搜索

作为测试时缩放视频生成的一种直观方法，我们首先探索了随机线性搜索策略。该策略通过在推理时随机采样高斯噪声，并提示视频生成器通过逐步去噪的方式生成一系列视频片段，然后选择测试验证器评分最高的视频。尽管这种方法简单直接，但由于其线性结构，需要遍历整个空间，缺乏高效的优化机制，且独立结构之间缺乏反馈或交互机制，因此效率较低。

帧之树搜索

为了克服随机线性搜索的局限性，我们进一步设计了一种更高效的测试时缩放方法，称为“帧之树”（Tree-of-Frames, ToF）搜索。该方法以自回归的方式工作，将视频生成过程分为三个阶段：第一阶段生成与文本对齐的初始帧，这对后续帧有很大影响；第二阶段生成中间帧，考虑关键因素如主体一致性、运动稳定性和物理合理性，以保证视频流的平滑；第三阶段评估整体视频质量和与文本提示的一致性。

在帧之树搜索算法中，我们精心设计了三个关键技术：图像级对齐、层次化提示和启发式修剪。图像级对齐通过在每个去噪步骤中动态评估部分去噪图像的清晰度，来提前拒绝低潜力候选，从而提高资源利用效率。层次化提示根据视频帧在叙事和时间一致性方面扮演的不同角色，设计不同阶段的提示策略。启发式修剪则通过迭代应用自适应分支和启发式修剪，高效地探索搜索空间，同时保持可管理的计算成本。

多验证器集成

除了测试时缩放策略外，我们还集成了多个验证器来进一步提升性能。通过应用多数投票或集成多个验证器的方法，我们可以减轻偏差，并从候选视频中选择最佳视频。这种方法确保了测试时缩放的鲁棒性，并带来了更好的性能增益。

研究结果

实验设置

我们在多个流行的开源预训练视频生成模型上评估了我们的测试时缩放策略，包括扩散模型和自回归模型。为了获得合理的反馈并提供启发式评分，我们利用了三种针对视频生成的多模态奖励模型作为测试验证器。

性能分析

实验结果表明，测试时缩放能够显著提升不同视频生成模型的性能。随着推理计算预算的增加，所有视频生成模型在不同验证器上的性能均表现出稳定的提升，最终在一定阈值后趋于收敛。这一发现表明，测试时缩放策略能够有效地指导测试时的搜索过程，并显著提升生成质量。此外，我们观察到，与较小的模型相比，较大的模型在测试时缩放中受益更多，因为它们能够利用更广泛的搜索空间。

帧之树搜索方法相比随机线性搜索方法表现出了更高的效率。在达到相似性能的同时，帧之树搜索方法的计算成本显著降低。这一结果证明了帧之树搜索方法在处理长视频或高质量采样时的优越性。

研究局限

尽管我们的研究在测试时缩放技术应用于视频生成方面取得了显著成果，但仍存在一些局限性。首先，当前的视频生成模型在捕捉复杂动态和保持时间一致性方面仍面临挑战。尽管测试时缩放能够提升生成质量，但基础模型的性能瓶颈限制了其进一步提升的空间。

其次，测试时缩放技术需要额外的计算资源，这在实际应用中可能是一个限制因素。尽管我们提出了更高效的帧之树搜索方法来减少计算成本，但在资源受限的环境下，如何进一步优化测试时缩放策略仍是一个值得研究的问题。

未来研究方向

改进基础模型

未来的研究可以聚焦于改进基础视频生成模型，特别是在捕捉复杂动态和保持时间一致性方面。通过引入更先进的神经网络架构或训练策略，我们有望进一步提升视频生成模型的基础性能，从而为测试时缩放技术提供更大的提升空间。

优化测试时缩放策略

在测试时缩放策略方面，未来的研究可以探索更高效的搜索算法和验证器集成方法。例如，可以开发能够自适应地调整搜索空间和计算资源的算法，以在性能和计算成本之间取得更好的平衡。此外，通过集成更多样化的验证器，我们可以更全面地评估生成视频的质量，并进一步提升测试时缩放的效果。

跨模态融合

未来的研究还可以探索将视频生成与其他模态（如文本、音频等）进行融合的可能性。通过构建跨模态的生成模型，我们可以实现更丰富和更真实的虚拟环境，为游戏、虚拟现实和增强现实等领域的应用提供更广阔的空间。

实际应用探索

最后，未来的研究可以关注于将测试时缩放技术应用于实际场景中。通过与实际开发者和用户合作，我们可以更好地了解他们的需求，并针对性地优化测试时缩放技术。例如，在游戏开发中，我们可以利用测试时缩放技术来生成更具创意和互动性的游戏内容；在广告制作中，我们可以利用该技术来生成更吸引人和个性化的广告视频。通过不断探索和优化测试时缩放技术在实际应用中的表现，我们可以为其更广泛的推广和应用奠定坚实的基础。