Rich Feedback Loops > Perfect Prompts

Nikola Balic (@nibzard)· validated-in-production

问题

打磨单个prompt无法覆盖所有边缘场景;Agent需要基准事实(ground truth)来实现自我修正。

此外,Agent需要整合人类反馈(积极反馈与修正性反馈),以逐步提升会话质量。能更好响应用户反馈的项目,所需的修正操作更少,最终产出的效果也更优。

方案

在每次工具调用后,暴露可机器读取的迭代式反馈——包括编译器错误、测试失败、代码检查器(linter)输出、截图等。 Agent会利用诊断信息规划下一步,实现自发的自我调试。

整合人类反馈模式:

  • 识别积极反馈,强化有效的行为模式
  • 从修正意见中学习,避免重复犯错
  • 根据用户的沟通风格和偏好调整自身行为
  • 长期记录对特定用户有效的方案

基于88次会话分析的证据:

| 项目名称 | 积极反馈次数 | 修正意见次数 | 成功率 | |-------------------------|--------------|--------------|------------| | nibzard-web | 8 | 2 | 高(80%) | | 2025-intro-swe | 1 | 0 | 高(100%) | | awesome-agentic-patterns| 1 | 5 | 低(17%) | | skills-marketplace | 0 | 2 | 低(0%) |

核心洞察:获得更多积极反馈的项目结果更优。强化学习是有效的——这不仅仅是出于礼貌,更是Agent的训练数据。

像Claude Sonnet 4.5这样的现代模型正越来越主动地创建自己的反馈循环:它们会编写并执行简短的脚本和测试,即使是看似简单的验证任务也不例外(例如,通过HTML检查来验证React应用的行为)。

参考文献

关键词

涵盖三方面智能体相关研究与讨论:一是正向反馈与智能体更优会话结果的相关性分析;二是《培养智能体》节目中“给智能体错误而非更长提示词”的观点探讨;三是Cognition AI对Devin和Claude Sonnet 4.5主动测试行为及反馈循环自定义脚本的观测研究。

直译
  • 《智能体技能学习指南》——分析显示正向反馈与更优会话结果存在相关性(nibzard-web:8条正向反馈、2条修正意见;awesome-agentic-patterns:1条正向反馈、5条修正意见)
  • 《培养智能体》第1、3集:围绕“给智能体错误,而非更长提示词”展开讨论

来源摘要

正在获取来源并生成中文摘要…

来源: https://www.nibzard.com/ampcode

← 返回社区