agent-browser 是一款专为 AI 智能体(AI Agents)设计的无头浏览器自动化工具。其核心目标是解决传统浏览器自动化工具(如 Playwright 或 Puppeteer)在与大语言模型(LLM)交互时存在的 Token 消耗过大、DOM 结构复杂以及响应速度慢等痛点。该工具采用 Rust 编写的 CLI 命令行界面,结合 Node.js 守护进程管理 Playwright 实例,实现了极高的运行效率。
其最显著的特点是“Agent 优先”的设计理念。通过 snapshot 命令,它能将复杂的网页 DOM 转换为精简的“可访问性树”(Accessibility Tree),并为每个元素分配唯一的引用标签(如 @e1)。这种处理方式将原本可能需要数千个 Token 的网页信息压缩至几百个 Token,极大地节省了 AI 的上下文窗口,并提高了元素定位的确定性。
agent-browser 支持超过 50 种命令,涵盖导航、表单操作、截图、网络请求监控及存储管理等。它支持多会话隔离,允许 AI 同时处理多个带有独立身份验证的任务。该工具可无缝集成于 Claude Code、Cursor、GitHub Copilot 等主流 AI 开发环境,并提供跨平台(macOS, Linux, Windows)的原生二进制支持。