PII Tokenization

Nikola Balic (@nibzard)· established

问题

AI智能体通常需要处理涉及个人身份信息（PII）的工作流，例如电子邮件、电话号码、地址或金融数据。然而，将原始PII传入模型的context会带来隐私风险与合规性问题。企业需要智能体在不向LLM暴露敏感信息的前提下编排数据工作流。

方案

在模型上下文协议（Model Context Protocol，简称MCP）客户端中实现一个拦截层，确保个人身份信息（PII）在抵达模型前自动完成标记化处理，并在后续发起工具调用时执行逆标记化处理。

架构：

graph LR
    A[工具响应] --> B[MCP客户端]
    B --> C{PII检测}
    C --> D[标记化处理]
    D --> E[模型上下文]
    E --> F[模型推理]
    F --> G[工具调用请求]
    G --> H[逆标记化处理]
    H --> I[实际工具调用]

流程：

拦截：工具返回数据时，MCP客户端拦截响应内容
检测：通过模式匹配或分类模型识别PII
标记化：将真实值替换为占位符
- john.doe@company.com → [EMAIL_1]
- (555) 123-4567 → [PHONE_1]
- 123-45-6789 → [SSN_1]
模型推理：Agent基于标记化后的占位符开展工作
逆标记化：当Agent携带占位符发起工具调用时，MCP客户端将占位符替换回真实值

示例工作流：

# 工具返回客户数据
customer = get_customer(id="C123")
# 原始数据：{"name": "John Doe", "email": "john@example.com", "phone": "555-1234"}

# MCP客户端在发送至模型前执行标记化
# 模型上下文接收到的内容：{"name": "[NAME_1]", "email": "[EMAIL_1]", "phone": "[PHONE_1]"}

# Agent基于标记后的占位符进行推理
"Send welcome email to [EMAIL_1] with link for [NAME_1]"

# MCP客户端为工具执行做逆标记化处理
send_email(
    to="john@example.com",  # 已替换为真实值
    body="Welcome John Doe, here's your link..."  # 已替换为真实值
)

如何使用

适用场景：

处理客户数据、HR记录、医疗信息的工作流
涉及个人可识别信息（PII）的多步骤自动化流程
合规敏感环境（GDPR、HIPAA、CCPA）
无需“查看”原始PII即可协调数据流的Agent

实施要求：

PII检测层：
- 针对常见PII（邮箱、电话、社会安全号码SSN、信用卡）的正则表达式（Regex）匹配模式
- 用于识别姓名、地址的命名实体识别模型
- 针对领域专属敏感数据的自定义规则
令牌映射存储：
- 令牌与真实值的安全映射机制
- 会话作用域或请求作用域的生命周期
- 若采用持久化存储则需启用静态加密
工具调用中的反令牌化：
- 扫描输出的工具调用参数
- 在执行前将占位符替换为真实值
- 维护引用完整性（同一占位符对应同一真实值）

集成要点： 在MCP客户端层实施时效果最佳，如此一来对Agent（仅可见令牌）和工具（可见真实值）均可保持透明。

权衡

优点：

防止原始PII进入模型上下文（model context）
Agents可在不查看数据的情况下协调敏感工作流
支持不包含PII的审计追踪（audit trails）
降低合规风险与监管负担
对Agent推理过程透明（通过占位符实现）

缺点：

增加MCP客户端实现的复杂度
PII检测必须精准（需避免误报/漏报）
无法防范PII推断（模型可能推导出敏感信息）
需要安全的令牌映射（token mapping）存储机制
可能增加调试难度（排查问题时需将令牌反向映射）
模式匹配可能遗漏新型PII格式

局限性：

无法阻止模型学习PII结构相关模式
若无自定义规则，无法识别特定领域的敏感数据
上下文相关PII（如“我的地址是……”）可能在令牌化前泄露
无法替代完善的访问控制与加密措施

参考文献

关键词：

涵盖人工智能工程技术与数据隐私合规两大领域，包含Anthropic公司2024年发布的基于MCP的代码执行技术文档、欧盟GDPR体系下的假名化合规指南、美国NIST官方隐私框架三类专业文献。

直译：

《Anthropic工程：基于MCP的代码执行》（2024）
《GDPR（通用数据保护条例）假名化指南》
《NIST（美国国家标准与技术研究院）隐私框架》

来源摘要

正在获取来源并生成中文摘要…

来源: https://www.anthropic.com/engineering/code-execution-with-mcp

← 返回社区