Self-Critique Evaluator Loop

Nikola Balic (@nibzard)· emerging

问题

人类偏好标签的成本高昂,且会随着基础模型的迭代改进迅速过时。

方案

训练一个基于合成数据自举的自训练评估器,流程如下:

  1. 针对某一指令生成多个候选输出。
  2. 让模型评判并解释哪个输出更优,同时生成推理轨迹。
  3. 基于该评判模型自身的推理轨迹对其进行微调,并迭代上述过程。
  4. 将该评判模型用作主Agent的奖励模型或质量闸门。
  5. 定期用新的合成辩论数据更新评估器,以应对模型漂移问题。

参考文献

关键词

学术文献著录项,指向Wang等人所著的《自学式评估器》,该文献大概率聚焦于自学习型评估模型相关技术研究。

直译

王等人,《自学式评估器》

来源摘要

正在获取来源并生成中文摘要…

来源: https://arxiv.org/abs/2408.02666

← 返回社区