LLM Map-Reduce Pattern

Nikola Balic (@nibzard)· emerging

问题

若所有数据在同一个context中处理,注入单个投毒文档即可操控全局推理。

方案

采用Map-Reduce工作流

  • 映射(Map):启动轻量型的*沙箱化(sandboxed)*LLM——每个LLM读取一个不可信数据块,并输出受约束的结果(布尔值、JSON Schema等)。
  • 归约(Reduce):通过确定性代码或仅能访问已清理字段的特权LLM,聚合这些安全摘要。
results = []
for doc in docs:
    ok = 沙箱化LLM("这是发票吗?(是/否)", doc)
    results.append(ok)
final = 归约(results)  # 此步骤不会传入原始文档

如何使用

文件分拣筛查、产品评论摘要生成器、简历筛选器——所有这类N-to-1决策场景,均需保证每个项目的影响仅局限于局部范围,各项目的判断互不干扰。

权衡

  • 优点: 恶意项无法污染其他项;具备可扩展的并行处理能力。
  • 缺点: 需要严格的输出验证;存在额外的编排开销。

参考文献

关键词

参考文献条目片段,对应Beurer-Kellner等人文献的第3.1节第(3)部分,主题为大语言模型(LLM)的Map-Reduce方法。

  • 博伊勒-凯尔纳(Beurer-Kellner)等人,第3.1节第(3)点:大语言模型(LLM)Map-Reduce方法。

来源摘要

正在获取来源并生成中文摘要…

来源: https://arxiv.org/abs/2506.08837

← 返回社区