limboy: 本文介绍了 OpenAI 进行的一项为期五个月的工程实验：在“智能体优先”（Agent-first）的世界中，利用 Codex（基于 GPT-5）构建并交付了一款内部 Beta 软件产品，且未手动编写任何一行代码。该产品拥有数百万行代码，涵盖了应用逻辑、测试、CI 配置、文档及监控工具，开发效率提升了约 10 倍。实验的核心结论是：在智能体时代，工程师的角色发生了根本性转变。人类不再是代码的编写者，而是环境的设计者、意图的指定者和反馈循环的构建者。团队通过“人类引导，智能体执行”的模式，实现了平均每人每天 3.5 个 PR 的高产出。为了让智能体高效工作，团队采取了一系列创新措施：首先，提高应用的“可读性”，通过集成 Chrome DevTools 和本地观测栈（Logs/Metrics），让智能体能自主调试 UI 和性能；其次，将代码库（Repository）作为唯一的知识来源，通过结构化的文档和 AGENTS.md 索引，解决上下文稀缺和规则陈旧的问题；最后，通过极其严格的架构分层和自定义 Linter 强制执行“工程品味”，防止架构漂移。此外，实验还揭示了高吞吐量下的新挑战，如“AI 废料”（AI slop）的堆积。团队通过引入“黄金原则”和自动化的“垃圾回收”机制（即定期运行重构智能体）来保持代码库的健康。这种模式证明了，只要拥有正确的脚手架和反馈系统，智能体可以实现从发现 Bug 到修复、验证并合并 PR 的全自动化闭环。

本文介绍了 OpenAI 进行的一项为期五个月的工程实验：在“智能体优先”（Agent-first）的世界中，利用 Codex（基于 GPT-5）构建并交付了一款内部 Beta 软件产品，且未手动编写任何一行代码。该产品拥有数百万行代码，涵盖了应用逻辑、测试、CI 配置、文档及监控工具，开发效率提升了约 10 倍。

实验的核心结论是：在智能体时代，工程师的角色发生了根本性转变。人类不再是代码的编写者，而是环境的设计者、意图的指定者和反馈循环的构建者。团队通过“人类引导，智能体执行”的模式，实现了平均每人每天 3.5 个 PR 的高产出。为了让智能体高效工作，团队采取了一系列创新措施：首先，提高应用的“可读性”，通过集成 Chrome DevTools 和本地观测栈（Logs/Metrics），让智能体能自主调试 UI 和性能；其次，将代码库（Repository）作为唯一的知识来源，通过结构化的文档和 AGENTS.md 索引，解决上下文稀缺和规则陈旧的问题；最后，通过极其严格的架构分层和自定义 Linter 强制执行“工程品味”，防止架构漂移。

此外，实验还揭示了高吞吐量下的新挑战，如“AI 废料”（AI slop）的堆积。团队通过引入“黄金原则”和自动化的“垃圾回收”机制（即定期运行重构智能体）来保持代码库的健康。这种模式证明了，只要拥有正确的脚手架和反馈系统，智能体可以实现从发现 Bug 到修复、验证并合并 PR 的全自动化闭环。