Dual LLM Pattern

Nikola Balic (@nibzard)· emerging

问题

同时接触不可信文本且能操控工具的特权Agent,可能会被胁迫发起危险调用。

方案

拆分角色:

  • 特权LLM:负责规划并调用工具,但绝不接触原始不可信数据
  • 隔离LLM:读取不可信数据,但完全没有工具调用权限
  • 符号变量或已验证原语的形式传递数据;特权侧仅操作引用。
var1 = 隔离LLM("提取邮箱", 文本)  # 返回 $VAR1
特权LLM.规划("将 $VAR1 发送给老板")  # 无原始文本暴露
执行(规划方案, 替换映射={ "$VAR1": var1 })

如何使用

邮件/日历助手、预订代理、API驱动的聊天机器人。

权衡

  • 优点:信任边界清晰;兼容静态分析。
  • 缺点:复杂度较高;跨双心智调试难度大。

参考文献

关键词

双大语言模型(Dual LLM)模式;该模式由Willison于2023年4月提出,被Beurer-Kellner等人的相关文献第3.1节(4)部分采纳。

直译
  • 威利森,《双大语言模型(Dual LLM)模式》(2023年4月);被博伊勒-凯尔纳等人采纳,见其文献第3.1节(4)。

来源摘要

正在获取来源并生成中文摘要…

来源: https://arxiv.org/abs/2506.08837

← 返回社区