Anthropic 分享了他们构建多智能体研究系统的经验,该系统利用多个协同工作的 AI 智能体来更有效地探索复杂主题。该系统的核心是一个“编排者-工作者”(Orchestrator-Worker)架构,由一个“领导者”(Lead Researcher)智能体负责规划和分解任务,并将子任务分配给多个并行的“子智能体”(Subagents)。这种方法的主要优势在于能够并行处理信息,有效管理大型上下文窗口,从而处理超出单个模型能力范围的复杂、广泛的查询。
更细致的拆解可以参见:https://g.co/gemini/share/c26b508c052e
这篇文章描述了通过 Contextual Retrieval 来提升检索增强生成(RAG)系统检索信息的能力。传统的 RAG 系统在处理文档时,会将其拆分为小文本块,这个过程中常常会丢失关键的上下文信息,导致检索失败。情境检索通过在每个文本块前添加由大型语言模型(如 Claude)生成的、概括其在文档中上下文的简短说明,来解决这个问题。
本文深入探讨了苹果Mac操作系统设置界面的演变,从1984年的System 1.0到2004年的Mac OS X 10.3 Panther,并简要提及了2022年的最新变化。作者以设计师和用户的双重身份,表达了对设置界面的热爱,并将其视为了解软件内部运作和设计理念的窗口。
PS:这个页面的交互做得真好,里面的 Mac UI 都是可以交互的,由 Infinite Mac 提供。
本文是 Manus 团队关于构建 AI 代理(Agent)的经验总结,核心观点是“上下文工程(Context Engineering)”比模型微调更适合快速迭代的产品。文章详细阐述了在构建 Manus 过程中学到的几大关键原则,包括:围绕 KV 缓存进行设计以优化延迟和成本、通过掩蔽(Masking)而非移除来管理工具、将文件系统作为无限的外部上下文、通过复述任务来操控模型注意力、保留错误以帮助模型学习,以及避免少样本示例带来的思维固化。这些实践经验旨在帮助其他开发者更高效地构建稳定、可扩展的 AI 代理。
「上下文工程」会是构建 AI Agent 过程中绕不过去又极具挑战的一环,挺适合想要投身于 AI 领域的程序员。
应用新分类法:绘制 AI 原生应用图景
AI 不仅仅是在为传统应用添加新功能,它正在催生全新的应用类别,这些应用的全部核心价值主张都建立在 AI 本身之上。这些“AI 原生应用”在基因上就与传统软件不同。
第一类:生成与创造(Generation & Creation) 这类应用的主要目的是生成新颖的内容。其核心用户行为是通过自然语言提示(Prompting)进行创造。这包括了以 Adobe Firefly 为代表的图像、视频和设计素材生成工具,以及各种文本生成平台(如 Jasper)和代码生成工具。它们的价值在于将创造力平民化,让没有专业技能的用户也能产出高质量的内容。
第二类:推理与综合(Reasoning & Synthesis) 这类应用扮演着知识引擎的角色,通过综合海量信息来提供直接的、经过提炼的答案或分析。这个类别由 Perplexity 和 Arc Search 等应用所定义。它们不是传统的“搜索引擎”,而是“答案引擎”。它们用一段综合、引用来源清晰的回答,取代了传统的链接列表,极大地提升了用户获取和理解知识的效率。...
这个项目采用了一种现代且轻量级的 CAPTCHA(验证码)实现方式,它不依赖于传统的图像识别或复杂的谜题,而是使用“工作量证明”(Proof-of-Work, PoW)机制,特别是 SHA-256 哈希算法。
核心思想:它不要求用户去识别扭曲的文字或点击图片中的特定物体。而是让用户的设备(浏览器)在后台完成一个小的计算任务,以证明访问者是真实的人类用户,而不是一个自动化程序(机器人)。这个计算任务对普通用户的设备来说非常轻松,通常在几秒钟内就能完成,但对于想要进行大规模攻击的机器人来说,累计的计算成本会变得非常高昂,从而达到阻止其滥用行为的目的。
我的建议是:对于有类似需求的场景,可以先用它来顶一下(毕竟体验友好、部署简单),等被攻击时,再切换到更复杂的验证码解决方案。
这个类 Firebase 的服务看着挺不错的,别的先不说,网页看着就很舒服。向 Gemini 大致了解下,还是挺值得信赖的:
值得信賴的跡象:
安全可靠性的具體措施:...
Jack Dorsey 的 Weekend Project:一个离线的基于蓝牙的聊天室。安装包只有 2 MB!
大致体验了下,产品很简洁,适合聚集在特定场所的陌生人聊天,比如飞机上、演唱会等。
有了 Coding Agent 后,一些想法实现起来会方便很多。
文章的作者(也是 Family App 的设计者)从设计的角度阐述了 Family App 的设计理念:简洁性、流畅性和愉悦感。
文章有很多的动画,我对其中的 Tray
的设计很感兴趣,它能够承载很多临时的内容,支持层级,也可以转换为一个固定的页面,切换非常流畅。
偶然在 X 上刷到了 Timepage 的视频,回想起来这确实是当年挺火的一个 App,就下载体验了下,确实惊艳。
这个 App 只有细致体验了之后,才能感受到它的魅力,它会给 7 天的试用,用完 cancel subscription 即可。
PS: 用 Fluidity 来形容这种流畅丝滑的体验挺合适的。
有段时间没有关注 Medium 了,原来过的一直挺挣扎,确实在这个[短]视频时代,长文本的生存空间越来越小。
本文详细阐述了 Medium 公司在 2022 年面临的财务困境、产品质量下滑以及如何通过一系列艰难的改革措施实现扭亏为盈的过程。作者 Tony Stubblebine 于 2022 年 7 月接任 CEO,当时 Medium 每月亏损 260 万美元,订阅用户流失,内容质量充斥着“快速致富”和“点击诱饵”等低质量内容。在外部投资枯竭、无法被收购的情况下,Medium 唯一的出路是实现盈利或倒闭。
为了走出困境,Medium 采取了多管齐下的策略。在内容质量方面,引入了“Boost”机制(人工专家推荐)、调整了“合作伙伴计划”激励机制以奖励高质量内容,并推出了“Featuring”功能,赋予出版物推广优质内容的权力。这些措施显著提升了平台内容质量,赢得了用户信任。...
Beast Mode 3.1 是一个为 VS Code 定制的聊天模式,旨在将 AI 代理(Agent)转化为更高效的“野兽”。它本质上是一个经过精心设计的提示(prompt),基于 OpenAI 官方的 4.1 Cookbook 示例,并融入了高度主观的工作流程,模拟了实际开发人员解决问题和实现功能的方式。Beast Mode 主要针对 GPT 4.1 设计,但也兼容 Claude 和其他模型。
Beast Mode 的诞生是为了解决 GPT 4.1 的两个主要缺点:缺乏自主性(Agency)和缺乏准确性(Accuracy)。GPT 4.1 虽然速度极快,但往往“言而不行”,且容易在未完全解决问题前结束任务。Beast Mode 通过在提示中多次强调“持续工作直到问题完全解决”,并引入类似 GitHub Copilot 编码代理的待办事项列表机制,显著提升了其自主性,使其更倾向于完成整个任务。...
Anthropic 内部团队正在通过 Claude Code 彻底改变其工作流程,使开发人员和非技术人员能够处理复杂的项目、自动化任务并弥补技能差距,从而提高生产力。本文通过对数据基础设施、产品开发、安全工程、推理、数据科学与可视化、产品工程、增长营销、产品设计、强化学习(RL)工程和法律等团队的采访,深入探讨了 Claude Code 的具体应用、对团队工作的影响以及其他组织采用该工具的建议。
从这篇文章就可以一窥 AI 是如何融入到各个岗位的工作流,并提升开发效率。这还只是 Claude Code 这一个工具,想象之后 AI 工具变得更强更丰富后,「人」会面对的挑战。
PS:中文版可以看这篇:https://baoyu.io/translations/how-anthropic-teams-use-claude-code
最近想要尝试learn in public,想要在小红书上分享自己的ai学习心得。实践过程中发现小红书的长文案排版不够友好,相比纯文字,排版后的图片形式阅读体验更好。以此为契机,作为产品经理第一次vibe coding,做了一个小工具,支持通过markdown文案进行排版,根据语法自动分割段落卡片,并导出为PNG 图片。
作者从 2015 年 7 月 11 号开始跑步,一直跑到现在,中间没有一天中断,太厉害了···
网站的 Data Visualization 做的很棒,Strava 收集的信息也真是丰富。
In July 2015, something changed. I headed out on a run on a Tuesday, then did another one the next day, and the day after, and… I took the Friday off. When I woke up on July 11, 2015 I remember thinking I could have done 4 days in a row, so I set out to try and do that. 4 days turned into a week, then a month, then two, then six, then a year, and here I am, ten years later....
前有Windsurf核心团队跑路,现在发现Cursor Pro大幅限量。上个月做了2个小项目,月底还有100多次requests没用,本月加了2个小需求改了一个bug就已经开始卡我了。真是不能年付任何AI服务,下个月坚决不续了。
根据一篇FT文章的启发,做了一个DCF估值模型,发现太简单了,简单到一半的股票都不适用。经过与Gemini的一步步讨论,不断增加参数和计算,感觉现在应该能评估8成股票,剩下的只能交给其他模型了
这是 Coder & Designer Paul 的摄影页面,除了照片本身质量很高外,页面的设计也很赞,每个地点的元素很丰富,有照片、视频、餐馆、笔记、地区等等,而且融合地非常好,可能是我看过的设计最棒的摄影页面了。
PS: 作者之前这个 site 用的是 zola,运行了 10 多年,后来改成了 Next.js
无意中发现的一个越南视觉设计师的网站,甚是喜欢。
I taught myself with borrowed sketchbooks and long hours of observation — sketching what I saw, recording what I felt. I collected fragments of daily life: textures, gestures, overheard stories, the quiet poetry of familiar streets.
Over time, this self-taught path shaped my practice into what it is now — vibrant, culturally-rooted storytelling through illustration, where colors and memories meet.
作者分享了他构建大型软件项目的一些技巧,基本赞同。(PS:Ghostty 确实挺不错的,已经是我的默认终端了)
在项目启动阶段,最困难的是找到一个合适的切入点。他建议选择一个能够尽快看到结果的“子项目”,即使这些结果最初可能不那么“可见”,也可以通过自动化测试来验证进展。例如,在开发终端模拟器时,他选择从 VT 解析开始,通过编写测试用例来验证解析器的功能,从而获得“测试通过”的成就感。
核心是以下几个步骤:
作者花了 5 年的时间做了这个动画库,确实酷!可以在这里一窥这个网站是如何做出来的。 https://x.com/JulianGarnier/status/1910336387812860380
有人问到,这个网站从想法到实现大概花了多久,作者的回复:
I started working on the website in early January, spent around 3 weeks on the design, then one month on the dev, and an other month on the copy, performance improvements and refined the design before release.
Anthropic 分享了他们构建多智能体研究系统的经验,该系统利用多个协同工作的 AI 智能体来更有效地探索复杂主题。该系统的核心是一个“编排者-工作者”(Orchestrator-Worker)架构,由一个“领导者”(Lead Researcher)智能体负责规划和分解任务,并将子任务分配给多个并行的“子智能体”(Subagents)。这种方法的主要优势在于能够并行处理信息,有效管理大型上下文窗口,从而处理超出单个模型能力范围的复杂、广泛的查询。
更细致的拆解可以参见:https://g.co/gemini/share/c26b508c052e
这篇文章描述了通过 Contextual Retrieval 来提升检索增强生成(RAG)系统检索信息的能力。传统的 RAG 系统在处理文档时,会将其拆分为小文本块,这个过程中常常会丢失关键的上下文信息,导致检索失败。情境检索通过在每个文本块前添加由大型语言模型(如 Claude)生成的、概括其在文档中上下文的简短说明,来解决这个问题。
本文深入探讨了苹果Mac操作系统设置界面的演变,从1984年的System 1.0到2004年的Mac OS X 10.3 Panther,并简要提及了2022年的最新变化。作者以设计师和用户的双重身份,表达了对设置界面的热爱,并将其视为了解软件内部运作和设计理念的窗口。
PS:这个页面的交互做得真好,里面的 Mac UI 都是可以交互的,由 Infinite Mac 提供。
本文是 Manus 团队关于构建 AI 代理(Agent)的经验总结,核心观点是“上下文工程(Context Engineering)”比模型微调更适合快速迭代的产品。文章详细阐述了在构建 Manus 过程中学到的几大关键原则,包括:围绕 KV 缓存进行设计以优化延迟和成本、通过掩蔽(Masking)而非移除来管理工具、将文件系统作为无限的外部上下文、通过复述任务来操控模型注意力、保留错误以帮助模型学习,以及避免少样本示例带来的思维固化。这些实践经验旨在帮助其他开发者更高效地构建稳定、可扩展的 AI 代理。
「上下文工程」会是构建 AI Agent 过程中绕不过去又极具挑战的一环,挺适合想要投身于 AI 领域的程序员。
应用新分类法:绘制 AI 原生应用图景
AI 不仅仅是在为传统应用添加新功能,它正在催生全新的应用类别,这些应用的全部核心价值主张都建立在 AI 本身之上。这些“AI 原生应用”在基因上就与传统软件不同。
第一类:生成与创造(Generation & Creation) 这类应用的主要目的是生成新颖的内容。其核心用户行为是通过自然语言提示(Prompting)进行创造。这包括了以 Adobe Firefly 为代表的图像、视频和设计素材生成工具,以及各种文本生成平台(如 Jasper)和代码生成工具。它们的价值在于将创造力平民化,让没有专业技能的用户也能产出高质量的内容。
第二类:推理与综合(Reasoning & Synthesis) 这类应用扮演着知识引擎的角色,通过综合海量信息来提供直接的、经过提炼的答案或分析。这个类别由 Perplexity 和 Arc Search 等应用所定义。它们不是传统的“搜索引擎”,而是“答案引擎”。它们用一段综合、引用来源清晰的回答,取代了传统的链接列表,极大地提升了用户获取和理解知识的效率。...
这个项目采用了一种现代且轻量级的 CAPTCHA(验证码)实现方式,它不依赖于传统的图像识别或复杂的谜题,而是使用“工作量证明”(Proof-of-Work, PoW)机制,特别是 SHA-256 哈希算法。
核心思想:它不要求用户去识别扭曲的文字或点击图片中的特定物体。而是让用户的设备(浏览器)在后台完成一个小的计算任务,以证明访问者是真实的人类用户,而不是一个自动化程序(机器人)。这个计算任务对普通用户的设备来说非常轻松,通常在几秒钟内就能完成,但对于想要进行大规模攻击的机器人来说,累计的计算成本会变得非常高昂,从而达到阻止其滥用行为的目的。
我的建议是:对于有类似需求的场景,可以先用它来顶一下(毕竟体验友好、部署简单),等被攻击时,再切换到更复杂的验证码解决方案。
这个类 Firebase 的服务看着挺不错的,别的先不说,网页看着就很舒服。向 Gemini 大致了解下,还是挺值得信赖的:
值得信賴的跡象:
安全可靠性的具體措施:...
Jack Dorsey 的 Weekend Project:一个离线的基于蓝牙的聊天室。安装包只有 2 MB!
大致体验了下,产品很简洁,适合聚集在特定场所的陌生人聊天,比如飞机上、演唱会等。
有了 Coding Agent 后,一些想法实现起来会方便很多。
文章的作者(也是 Family App 的设计者)从设计的角度阐述了 Family App 的设计理念:简洁性、流畅性和愉悦感。
文章有很多的动画,我对其中的 Tray
的设计很感兴趣,它能够承载很多临时的内容,支持层级,也可以转换为一个固定的页面,切换非常流畅。
偶然在 X 上刷到了 Timepage 的视频,回想起来这确实是当年挺火的一个 App,就下载体验了下,确实惊艳。
这个 App 只有细致体验了之后,才能感受到它的魅力,它会给 7 天的试用,用完 cancel subscription 即可。
PS: 用 Fluidity 来形容这种流畅丝滑的体验挺合适的。
有段时间没有关注 Medium 了,原来过的一直挺挣扎,确实在这个[短]视频时代,长文本的生存空间越来越小。
本文详细阐述了 Medium 公司在 2022 年面临的财务困境、产品质量下滑以及如何通过一系列艰难的改革措施实现扭亏为盈的过程。作者 Tony Stubblebine 于 2022 年 7 月接任 CEO,当时 Medium 每月亏损 260 万美元,订阅用户流失,内容质量充斥着“快速致富”和“点击诱饵”等低质量内容。在外部投资枯竭、无法被收购的情况下,Medium 唯一的出路是实现盈利或倒闭。
为了走出困境,Medium 采取了多管齐下的策略。在内容质量方面,引入了“Boost”机制(人工专家推荐)、调整了“合作伙伴计划”激励机制以奖励高质量内容,并推出了“Featuring”功能,赋予出版物推广优质内容的权力。这些措施显著提升了平台内容质量,赢得了用户信任。...
Beast Mode 3.1 是一个为 VS Code 定制的聊天模式,旨在将 AI 代理(Agent)转化为更高效的“野兽”。它本质上是一个经过精心设计的提示(prompt),基于 OpenAI 官方的 4.1 Cookbook 示例,并融入了高度主观的工作流程,模拟了实际开发人员解决问题和实现功能的方式。Beast Mode 主要针对 GPT 4.1 设计,但也兼容 Claude 和其他模型。
Beast Mode 的诞生是为了解决 GPT 4.1 的两个主要缺点:缺乏自主性(Agency)和缺乏准确性(Accuracy)。GPT 4.1 虽然速度极快,但往往“言而不行”,且容易在未完全解决问题前结束任务。Beast Mode 通过在提示中多次强调“持续工作直到问题完全解决”,并引入类似 GitHub Copilot 编码代理的待办事项列表机制,显著提升了其自主性,使其更倾向于完成整个任务。...
Anthropic 内部团队正在通过 Claude Code 彻底改变其工作流程,使开发人员和非技术人员能够处理复杂的项目、自动化任务并弥补技能差距,从而提高生产力。本文通过对数据基础设施、产品开发、安全工程、推理、数据科学与可视化、产品工程、增长营销、产品设计、强化学习(RL)工程和法律等团队的采访,深入探讨了 Claude Code 的具体应用、对团队工作的影响以及其他组织采用该工具的建议。
从这篇文章就可以一窥 AI 是如何融入到各个岗位的工作流,并提升开发效率。这还只是 Claude Code 这一个工具,想象之后 AI 工具变得更强更丰富后,「人」会面对的挑战。
PS:中文版可以看这篇:https://baoyu.io/translations/how-anthropic-teams-use-claude-code
最近想要尝试learn in public,想要在小红书上分享自己的ai学习心得。实践过程中发现小红书的长文案排版不够友好,相比纯文字,排版后的图片形式阅读体验更好。以此为契机,作为产品经理第一次vibe coding,做了一个小工具,支持通过markdown文案进行排版,根据语法自动分割段落卡片,并导出为PNG 图片。
作者从 2015 年 7 月 11 号开始跑步,一直跑到现在,中间没有一天中断,太厉害了···
网站的 Data Visualization 做的很棒,Strava 收集的信息也真是丰富。
In July 2015, something changed. I headed out on a run on a Tuesday, then did another one the next day, and the day after, and… I took the Friday off. When I woke up on July 11, 2015 I remember thinking I could have done 4 days in a row, so I set out to try and do that. 4 days turned into a week, then a month, then two, then six, then a year, and here I am, ten years later....
前有Windsurf核心团队跑路,现在发现Cursor Pro大幅限量。上个月做了2个小项目,月底还有100多次requests没用,本月加了2个小需求改了一个bug就已经开始卡我了。真是不能年付任何AI服务,下个月坚决不续了。
根据一篇FT文章的启发,做了一个DCF估值模型,发现太简单了,简单到一半的股票都不适用。经过与Gemini的一步步讨论,不断增加参数和计算,感觉现在应该能评估8成股票,剩下的只能交给其他模型了
这是 Coder & Designer Paul 的摄影页面,除了照片本身质量很高外,页面的设计也很赞,每个地点的元素很丰富,有照片、视频、餐馆、笔记、地区等等,而且融合地非常好,可能是我看过的设计最棒的摄影页面了。
PS: 作者之前这个 site 用的是 zola,运行了 10 多年,后来改成了 Next.js
无意中发现的一个越南视觉设计师的网站,甚是喜欢。
I taught myself with borrowed sketchbooks and long hours of observation — sketching what I saw, recording what I felt. I collected fragments of daily life: textures, gestures, overheard stories, the quiet poetry of familiar streets.
Over time, this self-taught path shaped my practice into what it is now — vibrant, culturally-rooted storytelling through illustration, where colors and memories meet.
作者分享了他构建大型软件项目的一些技巧,基本赞同。(PS:Ghostty 确实挺不错的,已经是我的默认终端了)
在项目启动阶段,最困难的是找到一个合适的切入点。他建议选择一个能够尽快看到结果的“子项目”,即使这些结果最初可能不那么“可见”,也可以通过自动化测试来验证进展。例如,在开发终端模拟器时,他选择从 VT 解析开始,通过编写测试用例来验证解析器的功能,从而获得“测试通过”的成就感。
核心是以下几个步骤:
作者花了 5 年的时间做了这个动画库,确实酷!可以在这里一窥这个网站是如何做出来的。 https://x.com/JulianGarnier/status/1910336387812860380
有人问到,这个网站从想法到实现大概花了多久,作者的回复:
I started working on the website in early January, spent around 3 weeks on the design, then one month on the dev, and an other month on the copy, performance improvements and refined the design before release.