Dual LLM Pattern
Nikola Balic (@nibzard)· emerging
问题
同时接触不可信文本且能操控工具的特权Agent,可能会被胁迫发起危险调用。
方案
拆分角色:
- 特权LLM:负责规划并调用工具,但绝不接触原始不可信数据。
- 隔离LLM:读取不可信数据,但完全没有工具调用权限。
- 以符号变量或已验证原语的形式传递数据;特权侧仅操作引用。
var1 = 隔离LLM("提取邮箱", 文本) # 返回 $VAR1
特权LLM.规划("将 $VAR1 发送给老板") # 无原始文本暴露
执行(规划方案, 替换映射={ "$VAR1": var1 })
如何使用
邮件/日历助手、预订代理、API驱动的聊天机器人。
权衡
- 优点:信任边界清晰;兼容静态分析。
- 缺点:复杂度较高;跨双心智调试难度大。
参考文献
关键词:
双大语言模型(Dual LLM)模式;该模式由Willison于2023年4月提出,被Beurer-Kellner等人的相关文献第3.1节(4)部分采纳。
直译:
- 威利森,《双大语言模型(Dual LLM)模式》(2023年4月);被博伊勒-凯尔纳等人采纳,见其文献第3.1节(4)。
来源摘要
正在获取来源并生成中文摘要…