Lethal Trifecta Threat Model

Nikola Balic (@nibzard)· best-practice

问题

将Agent的三项能力相结合——

访问私有数据
接触不可信内容
对外通信能力

——会为prompt注入攻击者开辟一条窃取敏感信息的直接路径。一旦合法指令与恶意指令出现在同一个context窗口中，LLM无法可靠地区分二者。

方案

采用三重威胁模型：

审计Agent可调用的每一个工具，并基于三类核心风险维度对其分类。
确保任意执行路径中至少缺失一个风险环节。可选实现方案包括：
- 移除外部网络访问权限（杜绝数据泄露）。
- 禁止直接读取文件/数据库（避免接触私有数据）。
- 对不可信输入进行清洗或隔离（防范恶意指令）。
在编排阶段强制实施该规则，而非依赖脆弱的Prompt安全护栏。

# 伪策略代码
if tool.can_externally_communicate and
   tool.accesses_private_data and
   input_source == "untrusted":
       raise SecurityError("检测到致命三重风险组合")

如何使用

为每个工具维护一份机器可读的能力矩阵。
在你的Agent执行器中添加执行前策略检查。
故障闭锁原则：若能力元数据缺失，将该工具视为高风险。

权衡

优点：心智模型简单；可消除一整类攻击。缺点：限制了功能强大的“一体化”Agent；需进行规范的能力标记。

参考文献

关键词：

围绕AI智能体安全主题，涵盖两篇研究文献，分别聚焦AI智能体面临的“致命三重威胁”以及大语言模型智能体抵御提示注入的设计模式。

威利森，《AI智能体的致命三重威胁》（2025年6月16日）。

《保障大语言模型智能体抵御提示注入的设计模式》（2025年6月13日）。

来源摘要

正在获取来源并生成中文摘要…

来源: https://simonwillison.net/2025/Jun/16/lethal-trifecta/

← 返回社区