Self-Critique Evaluator Loop
Nikola Balic (@nibzard)· emerging
问题
人类偏好标签的成本高昂,且会随着基础模型的迭代改进迅速过时。
方案
训练一个基于合成数据自举的自训练评估器,流程如下:
- 针对某一指令生成多个候选输出。
- 让模型评判并解释哪个输出更优,同时生成推理轨迹。
- 基于该评判模型自身的推理轨迹对其进行微调,并迭代上述过程。
- 将该评判模型用作主Agent的奖励模型或质量闸门。
- 定期用新的合成辩论数据更新评估器,以应对模型漂移问题。
参考文献
关键词:
学术文献著录项,指向Wang等人所著的《自学式评估器》,该文献大概率聚焦于自学习型评估模型相关技术研究。
直译:
王等人,《自学式评估器》
来源摘要
正在获取来源并生成中文摘要…