Reflection Loop
Nikola Balic (@nibzard)· established
问题
生成式模型若从不回顾或评判自身产出,可能会生成质量不佳的输出。
方案
生成草稿后,让模型依据给定指标为其评分,并利用该反馈优化响应。
for 尝试次数 in range(最大迭代次数):
草稿 = 生成(prompt)
分数, 评估意见 = 评估(草稿, 指标)
if 分数 >= 阈值:
返回 草稿
prompt = 整合(评估意见, prompt)
如何使用
当您关注质量或需严格遵循明确标准时使用——适用于写作、推理或代码编写等场景。循环执行,直至评分达到预设标准,或是达到最大迭代次数为止。
权衡
- 优点: 仅需少量监督即可提升输出质量。
- 缺点: 会产生额外计算开销;若指标定义不当,可能出现运行停滞的情况。
参考文献
关键词:
Self-Refine方法;通过迭代反馈机制优化语言模型的推理能力
来源摘要
正在获取来源并生成中文摘要…