Inference-Healed Code Review Reward

Nikola Balic (@nibzard)· proposed

问题

仅检查“全部测试通过”的简单奖励函数无法捕捉细微的代码质量问题（例如性能退化、风格违规、缺失边缘场景处理）。最终单一的二元信号无法引导Agent生成可维护的高质量代码。

使用推理修复型奖励模型（inference-healed reward model）——一种代码评审评判器，具备以下核心能力：

1. 拆解代码质量为子标准

2. 运行内部思维链（Chain-of-Thought, CoT）推理

若对某一子标准存疑（如性能维度），评判器会在内部执行一段简短的思维链推理流程：

"步骤：性能检查。基准运行时长：50毫秒。新代码运行时长：65毫秒。
性能退化幅度>20%。得分：0.4。"

3. 聚合子得分

4. 生成人类可读的反馈

除数值得分外，同步返回一段简短分析，示例如下：

{
  "correctness": 1.0,
  "style": 0.8,
  "performance": 0.4,
  "security": 0.6,
  "comments": "因引入O(n²)复杂度的循环导致性能退化。"
}

优点：
- 可解释的反馈：Agent清楚补丁得分偏低的原因，能够开展针对性改进。
- 更高的代码质量：纳入了非功能性标准（性能、安全性），可生成更健壮的代码。
缺点/注意事项：
- 计算开销：每次奖励调用操作都可能涉及运行测试、代码检查器、基准测试和静态分析，这会增加系统延迟。
- 批评者模型维护：随着编码标准或安全规则的演进，需要重新训练或更新批评者模型及评估准则。

关键词：

本内容涉及源于奖励建模领域“推理修复”的相关方法，提及2025年5月的开源智能体强化学习（Open Source Agent RL）演讲、Prime Intellect的威尔·布朗（Will Brown）的相关讨论，以及DeepMind 2025年4月博客中“准则导向奖励模型”的相似原理。

直译：

源自奖励建模中的“推理修复”，相关内容在2025年5月的开源智能体强化学习（Open Source Agent RL）演讲及Prime Intellect的威尔·布朗（Will Brown）的论述中有所探讨。

正在获取来源并生成中文摘要…