35MM.COFFEEa site built for app makers
Profile
limboy

大约 14 小时前

随着 AI 智能体(Agents)能力的增强,开发者开始要求它们处理跨越数小时甚至数天的复杂任务。然而,让智能体在多个上下文窗口(Context Windows)中保持一致的进度仍是一个难题。核心挑战在于,长时运行的智能体必须以离散的“会话”形式工作,而每个新会话开始时都没有之前的记忆,就像一群轮班工作的工程师,每个人到岗时都不知道前一班发生了什么。

为了解决这一“失忆”问题,Anthropic 开发了一套双重方案,并集成在 Claude Agent SDK 中。该方案包含两个核心角色:初始化智能体(Initializer Agent)和编码智能体(Coding Agent)。初始化智能体负责在首次运行时搭建环境,包括创建功能列表(JSON 格式)、初始化 Git 仓库、编写环境启动脚本(init.sh)以及进度记录文件(claude-progress.txt)。编码智能体则负责在后续的每个会话中进行增量开发,确保每次只处理一个功能,并在结束时留下清晰的工件(Artifacts)供下一班次使用。

研究发现,智能体常见的失败模式包括:试图一次性完成所有工作(One-shotting)导致上下文耗尽、在功能未完成时过早宣布胜利、以及缺乏端到端测试。通过引入结构化的 JSON 功能清单、强制性的 Git 提交记录以及基于 Puppeteer 的浏览器自动化测试,Claude 能够更有效地识别 Bug 并保持代码库的整洁。这种方法不仅提高了开发效率,还确保了智能体在进入新会话时能通过运行 pwd、阅读日志和执行初始化脚本快速进入状态。尽管仍存在视觉识别局限等挑战,但这一框架为长时运行的 AI 协作提供了可行的工程路径。