Lethal Trifecta Threat Model

Nikola Balic (@nibzard)· best-practice

问题

将Agent的三项能力相结合——

  1. 访问私有数据
  2. 接触不可信内容
  3. 对外通信能力

——会为prompt注入攻击者开辟一条窃取敏感信息的直接路径。 一旦合法指令与恶意指令出现在同一个context窗口中,LLM无法可靠地区分二者。

方案

采用三重威胁模型

  • 审计Agent可调用的每一个工具,并基于三类核心风险维度对其分类。

  • 确保任意执行路径中至少缺失一个风险环节。可选实现方案包括:

    • 移除外部网络访问权限(杜绝数据泄露)。
    • 禁止直接读取文件/数据库(避免接触私有数据)。
    • 对不可信输入进行清洗或隔离(防范恶意指令)。
  • 在编排阶段强制实施该规则,而非依赖脆弱的Prompt安全护栏。

# 伪策略代码
if tool.can_externally_communicate and
   tool.accesses_private_data and
   input_source == "untrusted":
       raise SecurityError("检测到致命三重风险组合")

如何使用

  • 为每个工具维护一份机器可读的能力矩阵。
  • 在你的Agent执行器中添加执行前策略检查。
  • 故障闭锁原则:若能力元数据缺失,将该工具视为高风险。

权衡

优点:心智模型简单;可消除一整类攻击。 缺点:限制了功能强大的“一体化”Agent;需进行规范的能力标记。

参考文献

关键词

围绕AI智能体安全主题,涵盖两篇研究文献,分别聚焦AI智能体面临的“致命三重威胁”以及大语言模型智能体抵御提示注入的设计模式。

  • 威利森,《AI智能体的致命三重威胁》(2025年6月16日)。
  • 《保障大语言模型智能体抵御提示注入的设计模式》(2025年6月13日)。

来源摘要

正在获取来源并生成中文摘要…

来源: https://simonwillison.net/2025/Jun/16/lethal-trifecta/

← 返回社区