Code-Then-Execute Pattern

Nikola Balic (@nibzard)· emerging

问题

计划列表是不透明的;我们需要全数据流分析和污点追踪。

方案

让LLM输出沙箱化程序或DSL脚本

  1. LLM编写调用工具与不可信数据处理器的代码。
  2. 静态检查器/污点引擎验证数据流(例如,禁止将受污染变量传入send_email.recipient)。
  3. 解释器在受限沙箱中运行该代码。
x = calendar.read(today)
y = QuarantineLLM.format(x)
email.write(to="john@acme.com", body=y)

如何使用

像SQL副驾驶、软件工程机器人这类复杂的多步骤Agent。

权衡

  • 优点:具备形式可验证性;支持重放日志。
  • 缺点:需要进行DSL设计并搭建静态分析基础设施。

参考文献

关键词

学术文献引用标注,涵盖Debenedetti等2025年的CaMeL文献,以及Beurer-Kellner等文献的第3.1节(参考文献编号5)

直译
  • Debenedetti等人,《CaMeL》(2025年);Beurer-Kellner等人,第3.1节(参考文献编号5)。

来源摘要

正在获取来源并生成中文摘要…

来源: https://arxiv.org/abs/2506.08837

← 返回社区