Inference-Time Scaling

Nikola Balic (@nibzard)· emerging

问题

传统语言模型受限于其训练阶段的能力。一旦完成训练,无论推理时可调用多少计算资源,其性能本质上都是固定不变的。这意味着,对于极具挑战性的问题,我们无法通过分配更多计算资源来让模型“更深入地思考”,进而找到更优的解决方案。在需要更多斟酌才能产出更好结果的复杂推理任务中,这种局限性表现得尤为突出。

方案

推理时缩放(Inference-Time Scaling)会在推理阶段分配额外的计算资源,以提升输出质量。与仅生成单一响应的模式不同,该系统可以实现以下操作:

  1. 生成多个候选响应,并从中筛选出最优结果
  2. 在生成响应前执行扩展推理链
  3. 通过多轮迭代来优化输出内容
  4. 更全面地搜索解空间
  5. 在返回结果前对答案进行校验与验证

这种方法以计算时间为代价换取解决方案的质量,使得采用推理时缩放的小型模型,性能能够超过采用标准推理的大型模型。

权衡

优点

  • 可大幅提升复杂任务的性能
  • 相比训练更大规模的模型更具成本效益
  • 支持根据任务难度动态分配资源
  • 可在AI系统中实现“System 2”思维

缺点

  • 响应延迟增加
  • 处理复杂问题时推理成本更高
  • 超出特定计算阈值后收益递减
  • 对简单任务无裨益
  • 需要精心调整扩展策略

参考文献

关键词

聚焦大模型测试与推理阶段技术研究,涉及Google DeepMind的测试时算力缩放研究、OpenAI o1系统说明文档,以及推理时缩放定律的学术论文。

来源摘要

正在获取来源并生成中文摘要…

来源: https://deepmind.google/research/

← 返回社区