Reflection Loop

Nikola Balic (@nibzard)· established

问题

生成式模型若从不回顾或评判自身产出,可能会生成质量不佳的输出。

方案

生成草稿后,让模型依据给定指标为其评分,并利用该反馈优化响应。

for 尝试次数 in range(最大迭代次数):
    草稿 = 生成(prompt)
    分数, 评估意见 = 评估(草稿, 指标)
    if 分数 >= 阈值:
        返回 草稿
    prompt = 整合(评估意见, prompt)

如何使用

当您关注质量或需严格遵循明确标准时使用——适用于写作、推理或代码编写等场景。循环执行,直至评分达到预设标准,或是达到最大迭代次数为止。

权衡

  • 优点: 仅需少量监督即可提升输出质量。
  • 缺点: 会产生额外计算开销;若指标定义不当,可能出现运行停滞的情况。

参考文献

关键词

Self-Refine方法;通过迭代反馈机制优化语言模型的推理能力

来源摘要

正在获取来源并生成中文摘要…

来源: https://arxiv.org/abs/2303.11366

← 返回社区