Progressive Autonomy with Model Evolution

Nikola Balic (@nibzard)· best-practice

问题

随着模型能力的持续提升，为旧版模型构建的Agent脚手架会逐渐沦为不必要的冗余开销：

Prompt膨胀：系统Prompt中堆积了新版模型无需额外接收的指令
过度设计的流程：对于当前模型可直接处理的任务，仍采用复杂的编排机制
Tokens浪费：为模型已具备自主处理能力的指令消耗Tokens，造成不必要的成本支出
执行延迟增加：冗余步骤拖慢执行速度，带来额外延迟
维护负担加剧：需维护的代码量不断增加，但对应的收益却持续递减

模型迭代更新的速度远快于脚手架的淘汰移除速度，进而累积出技术债务。

方案

主动移除脚手架随着模型能力提升，主动移除脚手架。定期审核system prompt、编排逻辑和Agent架构，移除新一代模型已内化的部分。

核心原则：将复杂度推向模型本身，而非外部脚手架。

graph LR
    A[模型v1] --> B[需要脚手架]
    B --> C[复杂的System Prompt]
    C --> D[模型v2发布]
    D --> E[移除不必要的指令]
    E --> F[更简洁、更快速的Agent]
    F --> G[模型v3发布]
    G --> H[进一步简化]

演进示例：

# Claude Opus 4.1（旧版模型）
system_prompt = """
编写代码时：
1. 首先检查文件是否存在
2. 读取当前内容
3. 规划修改方案
4. 进行最小化编辑
5. 验证语法
... [另有2000个token的指令]
"""

# Claude Sonnet 4.5（新版模型）
system_prompt = """
编写规范、经过测试的代码。
"""  # 模型已知晓所需步骤

如何使用

常规审核流程：

追踪模型版本发布：记录新模型的可用时间节点
测试简化prompt：移除指令内容，观察输出质量是否下降
计量token使用量：量化简化prompt带来的token消耗节省量
A/B测试工作流脚手架：对比有无编排步骤的输出结果差异
移除冗余环节：若模型在无脚手架支撑时表现依然相当，则删除该脚手架

审核关注点：

对人类而言“显而易见”的指令（对于先进模型而言可能同样无需额外说明）
模型当前可单轮完成的多步骤工作流
模型可自动内置的错误处理逻辑
模型能从context中推断出的格式规范
模型通过内部扩展思考完成的规划步骤

Claude Code的实际案例：

“我昨天刚从系统prompt里删掉了大概2000个token。就因为Sonnet 4.5已经不再需要这些内容了，但Opus 4.1之前确实离不开它们。”——鲍里斯·切尔尼（Boris Cherny）

边界的演变：

“每一代模型的边界都会以出人意料的方式变化——新一代模型的智能化程度更高，所以需要启用规划模式的适用边界也被进一步推远了。”——鲍里斯·切尔尼

权衡

优势：

降低Token成本：更短的prompt意味着更廉价的推理
执行速度更快：更低的处理开销
维护更简单：需要管理的代码与prompt更少
面向未来：顺应模型能力而非与其对抗
性能更优：模型在较少人工干预的情况下通常表现更出色

劣势：

需开展验证测试：必须确认质量不会出现退化
版本管理复杂度提升：可能需要为不同模型配置不同的configs
失去显式控制权：对模型内部推理逻辑的可见性降低
存在性能退化风险：移除内容过多可能损害整体性能
产生文档债务：可能会遗忘当初添加脚手架内容的原因

战略考量：

移除时机：新模型在生产环境中验证稳定之后
移除幅度：从保守移除起步，通过度量反馈逐步迭代
保留内容：模型不具备的特定领域知识
迁移路径：过渡期间支持多模型版本

参考文献

关键词：

聚焦Claude开发团队成员分享，涉及大模型迭代中系统提示词简化、模型能力内化的行业趋势，以及Claude Code的快速迭代开发思路，内容源自《AI & I》播客关于Claude Code使用方法的一期节目。

直译：

鲍里斯·切尔尼（Boris Cherny）：“我昨天刚从系统提示词里删掉了约2000个词的内容。原因很简单——Sonnet 4.5已经不再需要这些内容，但Opus 4.1之前是必须的。”

鲍里斯·切尔尼（Boris Cherny）：“这里存在一个边界：你需要给模型布置足够有难度的任务，才能真正试探它的极限……我认为这是一个普遍趋势：过去需要借助脚手架实现的功能，在更先进的模型中会被整合到模型自身当中。随着时间推移，模型往往会逐步吸纳所有这类辅助性功能。”

凯特·吴（Cat Wu）：“我们会开发大部分我们认为能提升Claude Code能力的功能，哪怕这意味着三个月后就得弃用它们。甚至可以说，我们反倒希望这些功能能在三个月内就被淘汰。”

【《AI & I》播客：像开发者那样使用Claude Code】（https://every.to/podcast/transcript-how-to-use-claude-code-like-the-people-who-built-it）

来源摘要

正在获取来源并生成中文摘要…

来源: https://every.to/podcast/transcript-how-to-use-claude-code-like-the-people-who-built-it

← 返回社区