Code-Then-Execute Pattern
Nikola Balic (@nibzard)· emerging
问题
计划列表是不透明的;我们需要全数据流分析和污点追踪。
方案
让LLM输出沙箱化程序或DSL脚本:
- LLM编写调用工具与不可信数据处理器的代码。
- 静态检查器/污点引擎验证数据流(例如,禁止将受污染变量传入
send_email.recipient)。 - 解释器在受限沙箱中运行该代码。
x = calendar.read(today)
y = QuarantineLLM.format(x)
email.write(to="john@acme.com", body=y)
如何使用
像SQL副驾驶、软件工程机器人这类复杂的多步骤Agent。
权衡
- 优点:具备形式可验证性;支持重放日志。
- 缺点:需要进行DSL设计并搭建静态分析基础设施。
参考文献
关键词:
学术文献引用标注,涵盖Debenedetti等2025年的CaMeL文献,以及Beurer-Kellner等文献的第3.1节(参考文献编号5)
直译:
- Debenedetti等人,《CaMeL》(2025年);Beurer-Kellner等人,第3.1节(参考文献编号5)。
来源摘要
正在获取来源并生成中文摘要…