Inference-Time Scaling

Nikola Balic (@nibzard)· emerging

问题

传统语言模型受限于其训练阶段的能力。一旦完成训练，无论推理时可调用多少计算资源，其性能本质上都是固定不变的。这意味着，对于极具挑战性的问题，我们无法通过分配更多计算资源来让模型“更深入地思考”，进而找到更优的解决方案。在需要更多斟酌才能产出更好结果的复杂推理任务中，这种局限性表现得尤为突出。

推理时缩放（Inference-Time Scaling）会在推理阶段分配额外的计算资源，以提升输出质量。与仅生成单一响应的模式不同，该系统可以实现以下操作：

这种方法以计算时间为代价换取解决方案的质量，使得采用推理时缩放的小型模型，性能能够超过采用标准推理的大型模型。

优点：

缺点：

关键词：

聚焦大模型测试与推理阶段技术研究，涉及Google DeepMind的测试时算力缩放研究、OpenAI o1系统说明文档，以及推理时缩放定律的学术论文。

直译：

正在获取来源并生成中文摘要…