Lethal Trifecta Threat Model
Nikola Balic (@nibzard)· best-practice
问题
将Agent的三项能力相结合——
- 访问私有数据
- 接触不可信内容
- 对外通信能力
——会为prompt注入攻击者开辟一条窃取敏感信息的直接路径。 一旦合法指令与恶意指令出现在同一个context窗口中,LLM无法可靠地区分二者。
方案
采用三重威胁模型:
-
审计Agent可调用的每一个工具,并基于三类核心风险维度对其分类。
-
确保任意执行路径中至少缺失一个风险环节。可选实现方案包括:
- 移除外部网络访问权限(杜绝数据泄露)。
- 禁止直接读取文件/数据库(避免接触私有数据)。
- 对不可信输入进行清洗或隔离(防范恶意指令)。
-
在编排阶段强制实施该规则,而非依赖脆弱的Prompt安全护栏。
# 伪策略代码
if tool.can_externally_communicate and
tool.accesses_private_data and
input_source == "untrusted":
raise SecurityError("检测到致命三重风险组合")
如何使用
- 为每个工具维护一份机器可读的能力矩阵。
- 在你的Agent执行器中添加执行前策略检查。
- 故障闭锁原则:若能力元数据缺失,将该工具视为高风险。
权衡
优点:心智模型简单;可消除一整类攻击。 缺点:限制了功能强大的“一体化”Agent;需进行规范的能力标记。
参考文献
关键词:
围绕AI智能体安全主题,涵盖两篇研究文献,分别聚焦AI智能体面临的“致命三重威胁”以及大语言模型智能体抵御提示注入的设计模式。
- 威利森,《AI智能体的致命三重威胁》(2025年6月16日)。
- 《保障大语言模型智能体抵御提示注入的设计模式》(2025年6月13日)。
来源摘要
正在获取来源并生成中文摘要…