Action-Selector Pattern

Nikola Balic (@nibzard)· emerging

问题

不可信输入可能在工具反馈重新进入context窗口后劫持Agent的推理过程,进而引发任意的有害操作。

方案

仅将LLM视为**「指令解码器」**:

  • 将用户的自然语言请求映射到预审批的操作(或操作模板)。
  • 工具输出不反馈至LLM。
  • 因此Agent在选定操作后不会受到影响。
action = LLM.translate(prompt, allowlist)
execute(action)
# 工具输出不返回给LLM

权衡

  • 优点:几乎免疫prompt injection攻击;审计操作极为简便。
  • 缺点:灵活性有限;新增功能需通过代码更新实现。

参考文献

关键词

该参考文献条目指向Beurer-Kellner等人研究文献的第3.1节(1)部分,核心内容聚焦“行动选择器”这一模块。

\n\n 【直译】* 博伊勒-凯尔纳等人,第3.1节(1)行动选择器。

来源摘要

正在获取来源并生成中文摘要…

来源: https://arxiv.org/abs/2506.08837

← 返回社区