Action-Selector Pattern
Nikola Balic (@nibzard)· emerging
问题
不可信输入可能在工具反馈重新进入context窗口后劫持Agent的推理过程,进而引发任意的有害操作。
方案
仅将LLM视为**「指令解码器」**:
- 将用户的自然语言请求映射到预审批的操作(或操作模板)。
- 工具输出不反馈至LLM。
- 因此Agent在选定操作后不会受到影响。
action = LLM.translate(prompt, allowlist)
execute(action)
# 工具输出不返回给LLM
权衡
- 优点:几乎免疫prompt injection攻击;审计操作极为简便。
- 缺点:灵活性有限;新增功能需通过代码更新实现。
参考文献
关键词:
该参考文献条目指向Beurer-Kellner等人研究文献的第3.1节(1)部分,核心内容聚焦“行动选择器”这一模块。
\n\n 【直译】* 博伊勒-凯尔纳等人,第3.1节(1)行动选择器。
来源摘要
正在获取来源并生成中文摘要…