Iterative Prompt & Skill Refinement
Nikola Balic (@nibzard)· proposed
问题
Agent的使用会暴露出prompt、技能和工具方面的短板——但如何系统性地优化这些要素呢?当工作流失效或表现未达最佳状态时,你需要借助多种机制来收集反馈并迭代改进。单一方法远远不够,你需要一套多管齐下的优化策略。
方案
实现多种互补式优化机制协同工作。没有任何单一机制能覆盖所有问题——你需要采用分层方法。
四大核心机制:
1. 响应式反馈(主要机制)
- 监控内部
#ai频道以发现问题 - 每日浏览工作流交互内容
- 这是持续改进的最有价值来源
2. 负责人主导的优化(次要机制)
- 将Prompt存储在可编辑文档中(如Notion、Google Docs)
- 公司内所有人员均可编辑大部分Prompt
- 在工作流输出内容中嵌入Prompt链接(如Slack消息、Jira评论)
- Prompt必须具备可发现性与可编辑性
3. Claude增强型优化(专项机制)
- 使用Datadog MCP将日志提取至技能库
- 技能是供多个工作流调用的「平台级组件」
- 通常由中央AI团队维护,而非单个业务负责人
4. 仪表盘跟踪(量化机制)
- 跟踪工作流的运行频率与错误情况
- 跟踪工具使用情况(各项技能的加载频次)
- 基于数据驱动确定优化优先级
graph TD
A[工作流运行] --> B[反馈频道:#ai]
A --> C[负责人编辑Prompt]
A --> D[Datadog日志 → Claude]
A --> E[仪表盘:指标]
B --> F[识别问题]
C --> F
D --> F
E --> F
F --> G[更新Prompt/技能]
G --> A
style B fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
style E fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
如何使用
实施检查清单:
- [ ] 反馈渠道:用于处理Agent问题的内部Slack/Discord
- [ ] 可编辑Prompt:存储于Notion或文档工具中,而非代码内部
- [ ] Prompt链接:在每个workflow的输出中包含该链接
- [ ] 日志访问能力:集成MCP的Datadog可观测性方案
- [ ] 仪表板:追踪workflow运行状态、错误及工具使用情况
工作流优化实现:
# 每次workflow运行后,加入链接
workflow_result = {
"output": "...",
"prompt_link": "https://notion.so/prompt-abc123"
}
问题发现策略:
- 每日:浏览反馈渠道,复查workflow交互记录
- 每周:查看仪表板指标,排查错误峰值
- 临时按需:当收到特定问题报告时,拉取日志
- 每季度:开展全面的Prompt与技能审计
运行后评估(下一步计划): 每次运行后增设主观评估环节:
- 该workflow是否有效?
- 哪些改进能提升其效果?
- 引入人在回路(Human-in-the-loop)机制,推动系统迭代演进
权衡
优点:
- 多层覆盖:可捕捉不同机制遗漏的问题
- 持续迭代:始终处于改进进程,而非阶段性推进
- 易参与性:任何人都能为优化贡献力量
- 数据驱动:通过仪表盘优先聚焦核心事项
- 技能共享:核心团队可维护平台级技能
缺点:
- 非万能方案:无法替代任一现有机制
- 维护开销大:需管理多套系统
- 权限复杂度高:需平衡编辑访问权限
- 告警疲劳:过多信号易引发信息过载
工作流原型:
| 类型 | 优化策略 | |------|----------| | 聊天机器人 | 运行后评估 + 人在回路 | | 已明确工作流 | 代码驱动(确定性) | | 未明确工作流 | 开放性问题 |
开放挑战:如何在无需产品工程师逐个单独实现的前提下,规模化地识别并迭代“未明确工作流”?
参考文献
关键词:
:核心围绕迭代式提示与技能优化方法展开,关联快速迭代式内部试用、复合工程、基于执行日志的记忆合成三类技术实践方向。
\n\n
- 相关主题:快速迭代式内部试用(Dogfooding)、复合工程、基于执行日志的记忆合成
来源摘要
正在获取来源并生成中文摘要…