Distributed Execution with Cloud Workers

Nikola Balic (@nibzard)· emerging

问题

单会话AI Agent的执行模式无法实现规模化扩展,以满足企业团队的需求。复杂项目需要同时对代码库的不同部分进行多处代码变更,但协调多个Agent会在沟通、冲突解决、合并协调及基础设施管理方面带来诸多挑战。

方案

实现一个分布式执行框架,借助Git工作树(git worktrees)和云原生工作节点基础设施并行运行多个Claude Code会话。该框架可支持团队级别的AI代码生成,并具备完善的同步与冲突管理能力。

核心架构:

基于Git工作树的隔离机制:

  • 每个Agent会话运行在独立的工作树中
  • 支持并行开发,避免检出冲突
  • 各会话拥有独立的仓库文件系统视图

云工作节点部署:

  • Agent会话在远端基础设施上执行
  • 可根据工作负载进行水平扩展
  • 集中式的任务分发与协调机制

同步层:

  • 合并冲突检测与解决
  • Agent间通信协议
  • 用于协调的共享状态管理

人工监管集成:

  • 针对高风险操作的审批闸门(详见《人机协同审批框架》human-in-loop-approval-framework.md)
  • 集中式监控仪表盘
  • 团队通知渠道(Slack、电子邮件)
graph TB
    subgraph "控制平面"
        Coordinator[任务协调器]
        Monitor[进度监控器]
    end

    subgraph "分布式工作节点"
        W1[工作节点1<br/>Claude + 工作树A]
        W2[工作节点2<br/>Claude + 工作树B]
        W3[工作节点3<br/>Claude + 工作树C]
        WN[工作节点N<br/>Claude + 工作树N]
    end

    subgraph "Git仓库"
        Main[main分支]
        WT1[工作树1]
        WT2[工作树2]
        WT3[工作树3]
        WTN[工作树n]
    end

    Coordinator -->|分配任务| W1
    Coordinator -->|分配任务| W2
    Coordinator -->|分配任务| W3
    Coordinator -->|分配任务| WN

    W1 -.->|在其中工作| WT1
    W2 -.->|在其中工作| WT2
    W3 -.->|在其中工作| WT3
    WN -.->|在其中工作| WTN

    W1 -->|上报进度| Monitor
    W2 -->|上报进度| Monitor
    W3 -->|上报进度| Monitor
    WN -->|上报进度| Monitor

    WT1 -->|合并至| Main
    WT2 -->|合并至| Main
    WT3 -->|合并至| Main
    WTN -->|合并至| Main

如何使用

适用场景:

  • 团队级代码迁移或重构
  • 跨多服务的并行功能开发
  • 大规模测试基础设施变更
  • 影响大量文件的框架升级
  • 广泛采用AI agent的组织

示例工作流(HumanLayer 的 CodeLayer):

  1. 任务分解:

    • 将项目拆分为可并行处理的单元
    • 为每个单元分配至工作者会话
    • 定义依赖关系与排序约束
  2. 工作者部署:

    • 配置云工作者(AWS、GCP等)
    • 为每个工作者初始化git worktree
    • 为Agent会话配置任务上下文(context)
  3. 并行执行:

    • 工作者独立执行任务
    • 向中央监控器汇报进度
    • 标记冲突以待解决
  4. 同步整合:

    • 根据依赖关系协调合并顺序
    • 必要时借助人工协助解决冲突
    • 将结果整合到主分支

前置条件:

  • Git worktree 基础设施
  • 云计算资源
  • 任务协调系统
  • 合并冲突解决策略
  • 团队沟通渠道

相关模式: 基于子Agent生成集群迁移模式进行扩展,适配支持团队协作的云基础设施环境。

权衡

优点:

  • 大规模并行处理(适配对应任务时可实现10-100倍提速)
  • 可满足企业级团队的规模需求
  • 集中化Agent管理与监控
  • 支持全团队范围的AI落地应用
  • 缓解大规模迁移过程中的瓶颈

缺点:

  • 基础设施复杂度高
  • 存在合并冲突管理的额外开销
  • 需要开发协调逻辑
  • 并行使用模型会推高成本
  • 依赖复杂的编排系统
  • 云端工作节点存在网络延迟

参考文献

关键词

聚焦基于Claude Code的企业构建实践,介绍HumanLayer框架的人在环代理协调能力及CodeLayer的多Claude代理并行会话功能,同时列出子代理生成、Swarm迁移等相关技术模式。

直译

\n\n

来源摘要

正在获取来源并生成中文摘要…

来源: https://claude.com/blog/building-companies-with-claude-code

← 返回社区