Versioned Constitution Governance

Nikola Balic (@nibzard)· emerging

问题

当Agent自行重写其“行为章程”时,若不对变更内容进行审核,可能会意外违反安全规范,或是在对齐目标方面出现倒退。

方案

将章程存储在受版本控制的签名仓库中:

  • YAML/TOML 规则存放于 Git 中。
  • 每次提交均需签名(例如使用 Sigstore);CI 执行自动化策略检查。
  • 仅允许由获批准的审核人员或自动化测试签名的提交被合并。
  • Agent 可提议变更,但需由把关人执行合并操作。

如何使用

  • 要求使用git commit -S或类似的签名提交方式。
  • 运行基于差异的linting检查,标记关键规则的删除操作。
  • 在每个Agent交互episode中,将规则集(constitution)的HEAD版本以只读context的形式对外暴露。

参考文献

关键词

聚焦宪法式人工智能(Constitutional AI)领域,包含探讨模型自对齐实现路径的研究成果及该技术方向的官方技术白皮书。

直译
  • Hiveism,《通过宪法式人工智能实现自对齐》
  • Anthropic,《宪法式人工智能》白皮书

来源摘要

正在获取来源并生成中文摘要…

来源: https://substack.com/home/post/p-161422949?utm_campaign=post&utm_medium=web

← 返回社区