这个 TTS 的效果也太好了吧···,用来做播客很方便,价格也不贵。

Anthropic 分享了他们构建多智能体研究系统的经验,该系统利用多个协同工作的 AI 智能体来更有效地探索复杂主题。该系统的核心是一个“编排者-工作者”(Orchestrator-Worker)架构,由一个“领导者”(Lead Researcher)智能体负责规划和分解任务,并将子任务分配给多个并行的“子智能体”(Subagents)。这种方法的主要优势在于能够并行处理信息,有效管理大型上下文窗口,从而处理超出单个模型能力范围的复杂、广泛的查询。

更细致的拆解可以参见:https://g.co/gemini/share/c26b508c052e

这篇文章描述了通过 Contextual Retrieval 来提升检索增强生成(RAG)系统检索信息的能力。传统的 RAG 系统在处理文档时,会将其拆分为小文本块,这个过程中常常会丢失关键的上下文信息,导致检索失败。情境检索通过在每个文本块前添加由大型语言模型(如 Claude)生成的、概括其在文档中上下文的简短说明,来解决这个问题。

拆解后的内容可以见:https://gemini.google.com/share/d53247d80b86

通过免费的高质量的课程来吸引注册,然后这些用户就可以成为下一个产品的潜在目标群体,去进行推广,这个模式好像也不错。

Holy moly, this is good!

这个确实挺接近我理想的 Focus App,不需要强制设置干活多久,休息多久,同时还可以记录 session 的一些 note

一个通过 Chat 来操控浏览器的插件,特定场景下还挺方便的。

这个工具太棒了,跟苹果设备相关的尺寸几乎都包含了,从设备,到 icon,甚至连 widget 的 size 也有,还很贴心地敷上了每个设备的发售日期。

原来沉浸式翻译的 BabelDoc 是开源的,太棒了。看了下实现思路,也是通过 PyMuPDF 来提取页面元素,再结合 nougat 和一些 post rendering 来做文档解析和视觉结构识别。

Flux.1 Kontext 这个模型有点厉害,指令遵循做得非常棒,用来生成一些系列图挺方便的。

Tweet image

本文深入探讨了苹果Mac操作系统设置界面的演变,从1984年的System 1.0到2004年的Mac OS X 10.3 Panther,并简要提及了2022年的最新变化。作者以设计师和用户的双重身份,表达了对设置界面的热爱,并将其视为了解软件内部运作和设计理念的窗口。

PS:这个页面的交互做得真好,里面的 Mac UI 都是可以交互的,由 Infinite Mac 提供。

这个想法蛮好玩的,上传自己的照片就能生成跟名人的合照,这个 case 里是 Jenson。

IMO, this is the most beautiful and useful Mockup Builder so far, though it's a web app.

Figma's Layer blur is underrated.

这个 Rich Text Editor 看着挺不错,界面干净,功能强大,基于 ProseMirror,也有在持续更新,不过看 Star 数量,好像用的人还不太多。另一个更常用的是 Tiptap

Figma 开放了 MCP 后,想象空间一下打开了,从设计到落地,变得更加丝滑。

一个 Open Graph Image Gallery,质量都还挺不错的。

非常全面的提示工程指南,从基础入门到高级技巧,应有尽有,有空可以翻一翻。

Tweet image

本文是 Manus 团队关于构建 AI 代理(Agent)的经验总结,核心观点是“上下文工程(Context Engineering)”比模型微调更适合快速迭代的产品。文章详细阐述了在构建 Manus 过程中学到的几大关键原则,包括:围绕 KV 缓存进行设计以优化延迟和成本、通过掩蔽(Masking)而非移除来管理工具、将文件系统作为无限的外部上下文、通过复述任务来操控模型注意力、保留错误以帮助模型学习,以及避免少样本示例带来的思维固化。这些实践经验旨在帮助其他开发者更高效地构建稳定、可扩展的 AI 代理。

「上下文工程」会是构建 AI Agent 过程中绕不过去又极具挑战的一环,挺适合想要投身于 AI 领域的程序员。

linear 的文档看着真舒服。

Tweet image

这个配色看着真舒服。

PS:作者是 obsidian 的 CEO。

是一篇于2025年5月发表的关于大型语言模型(LLM)在多轮对话中表现的研究论文。这篇论文的核心发现可以概括为一句话:

大型语言模型(LLMs)在多轮对话中“迷路了” 。

所以,一次性把任务交代明白(目标是什么,可以用的工具有哪些,需要遵循哪些规范等等),然后让 LLM 自己去想办法解决,效果会更好。

本文探讨了为什么更长的上下文(Context)并不总能带来更好的 AI 模型响应,反而可能以四种令人惊讶的方式导致代理和应用程序失败:上下文中毒(Context Poisoning)、上下文干扰(Context Distraction)、上下文混淆(Context Confusion)和上下文冲突(Context Clash)。当模型在上下文中遇到错误信息、因过长的历史记录而分心、被无关信息误导或处理相互矛盾的数据时,其性能就会下降。因此,仅仅扩大上下文窗口并不能解决所有问题,反而会为复杂的代理工作流程带来新的挑战。

之前一直用 Telegram 来做自定义推送,这个工具看起来更简单、直观,可定制程度也更高。下次再有自定义推送的需求时用一下试试。

完全同意文章作者的观点:将 Vibe Coding 比作给孩子一张信用卡,初期会带来极大的满足感,但最终会面临无法偿还的“债务”——即无法理解和维护的代码。编程的本质是“理论构建”,而非简单地生成代码行。在 AI 时代,开发者仍需保持对代码的理解和控制,像对待一个“过度热情但爱胡说八道的初级实习生”一样对待AI。

Vibe Coding 适合构建一次性工具和原型,对于需要持续维护(尤其是有较高复杂度)的项目,一定要谨慎 Vibe。

可简化与本质的复杂性

可简化的复杂性 (Reducible Complexity): 许多应用的复杂性源于糟糕或陈旧的 UI 设计。用户需要经过多个菜单、点击数十次才能完成一个任务(例如,预订一个包含多段航程、有特定座位和餐食偏好的国际航班)。这种复杂性正是 AI 智能体最擅长消除的。用户只需用一句自然语言描述意图,AI 就可以在后台完成所有繁琐的点击和数据输入。对于这类应用,其核心价值很容易被 AI 抽象和替代。

本质的复杂性 (Inherent Complexity): 另一类应用的复杂性是其核心价值的一部分,尤其是在创造性和高精度分析领域。例如:...

应用新分类法:绘制 AI 原生应用图景

AI 不仅仅是在为传统应用添加新功能,它正在催生全新的应用类别,这些应用的全部核心价值主张都建立在 AI 本身之上。这些“AI 原生应用”在基因上就与传统软件不同。

第一类:生成与创造(Generation & Creation) 这类应用的主要目的是生成新颖的内容。其核心用户行为是通过自然语言提示(Prompting)进行创造。这包括了以 Adobe Firefly 为代表的图像、视频和设计素材生成工具,以及各种文本生成平台(如 Jasper)和代码生成工具。它们的价值在于将创造力平民化,让没有专业技能的用户也能产出高质量的内容。

第二类:推理与综合(Reasoning & Synthesis) 这类应用扮演着知识引擎的角色,通过综合海量信息来提供直接的、经过提炼的答案或分析。这个类别由 Perplexity 和 Arc Search 等应用所定义。它们不是传统的“搜索引擎”,而是“答案引擎”。它们用一段综合、引用来源清晰的回答,取代了传统的链接列表,极大地提升了用户获取和理解知识的效率。...

Dia Browser 的页面设计得太棒了,用 4 个 Dia is for xxx,结合视频演示,告诉你为什么你应该使用 Dia,这就下载下来体验下。

Tweet image

这个 Business Model 挺有意思的,帮助客户重新设计页面(共 5 种类型,最贵的是 Pitch Deck),按次付费,客户提交网站 URL、Logo、对结果的诉求,最终交付的是一个 Figma 链接。没有后续维护的烦恼,挺适合独立设计师的。

如果是 Coding 的话,好像没有对应的场景 🤔

在研究 Vercel 时,发现这个 Search 做的挺不错的,想着实现起来应该挺复杂的,结果挺巧妙的:就是一个正常的 text input 叠了一个 position:absolute; z-index: -1 的背景层,这一层用来显示灰色的高亮区域,同时为了让这个灰色区域正好能包住对应的文字,它就在这个区域里创建了同样的文字,有着同样的 style,但是透明度为 0 。弹出的 list 是一个 Popover。

还有一个小 trick:为了让 filters 拉开距离,设置了 white-space: nowrap; word-spacing: 10px

Tweet image

最近在用这个工具画原型,挺方便的。功能上跟 excalidraw 类似,使用上其实也没感觉有多大区别,但是名字好记!

这个项目采用了一种现代且轻量级的 CAPTCHA(验证码)实现方式,它不依赖于传统的图像识别或复杂的谜题,而是使用“工作量证明”(Proof-of-Work, PoW)机制,特别是 SHA-256 哈希算法。

核心思想:它不要求用户去识别扭曲的文字或点击图片中的特定物体。而是让用户的设备(浏览器)在后台完成一个小的计算任务,以证明访问者是真实的人类用户,而不是一个自动化程序(机器人)。这个计算任务对普通用户的设备来说非常轻松,通常在几秒钟内就能完成,但对于想要进行大规模攻击的机器人来说,累计的计算成本会变得非常高昂,从而达到阻止其滥用行为的目的。

我的建议是:对于有类似需求的场景,可以先用它来顶一下(毕竟体验友好、部署简单),等被攻击时,再切换到更复杂的验证码解决方案。

这个类 Firebase 的服务看着挺不错的,别的先不说,网页看着就很舒服。向 Gemini 大致了解下,还是挺值得信赖的:


值得信賴的跡象:

  • 雄厚的資金和知名投資者: Convex 獲得了包括 Andreessen Horowitz (a16z) 和 Netlify 在內的頂級創投公司的投資。這不僅代表了資本市場對其技術和商業模式的認可,也意味著公司有更充足的資源進行長期發展、維護和安全投入,降低了突然倒閉或服務中斷的風險。
  • 開源透明: 其後端是開源的,這意味著任何人都可以審查其程式碼。這種透明度有助於社群發現並報告潛在的安全漏洞,增加了平台的可靠性。
  • 活躍的開發者社群: 有數千名開發者和一些公司正在使用其平台。在 Hacker News 和 Twitter 等開發者社群中,可以看到許多關於其開發體驗的正面評價。一個活躍且正向的社群通常是服務健康發展的良好指標。
  • 經驗豐富的團隊: 公司的創辦團隊擁有相關的技術背景和創業經驗。

安全可靠性的具體措施:...

太喜欢这个交互模式了,其本质上是一种「渐进式叙事」结合「交互式浏览」的阅读体验。右边的内容是主线,左边的代码是辅线,用于对主线中提到的知识点、概念做进一步补充。

再做一下延展,这个模式用来看小说也未尝不可,右侧是小说内容,左侧可以是对应的画或相关的知识点、人物关系等等。

PS:这个展示模式在移动端居然也可以有不错的适配(将左右结构变为上下结构)。

OpenAI 推出了 ChatGPT 的学习模式,旨在通过提供分步指导而非直接答案来促进深度学习,实现上是通过精心构建的 System Prompt 来实现的。有人将这个 System Prompt 逆向了出来,我自己试了下,效果跟文章中演示的好像差不多。

有空试试这个 Project,用来制作 RSS 应该挺方便的。

Jack Dorsey 的 Weekend Project:一个离线的基于蓝牙的聊天室。安装包只有 2 MB!

大致体验了下,产品很简洁,适合聚集在特定场所的陌生人聊天,比如飞机上、演唱会等。

有了 Coding Agent 后,一些想法实现起来会方便很多。

这段视频探讨了史蒂夫·乔布斯(Steve Jobs)所提倡的“保持初学者心态”对于设计师和创新者的重要性。演讲者通过个人在苹果公司与乔布斯共事的经历,以及发明挡风玻璃刮水器的玛丽·安德森(Mary Anderson)的故事,阐述了习惯化如何让我们忽视日常生活中的问题。而作为创新者,关键在于要能像初次体验者一样审视产品和流程,并致力于解决那些被大多数人忽略的微小不便。视频最后提出了三个对抗习惯化的实用技巧:放眼更广阔的范围、更仔细地观察以及年轻地思考。这些方法能帮助我们发现并解决问题,从而创造出更优质、更人性化的产品和体验。

PS: 在苹果上贴标签的那个例子深有感触···

文章的作者(也是 Family App 的设计者)从设计的角度阐述了 Family App 的设计理念:简洁性、流畅性和愉悦感。

  • 简洁性体现在通过“渐进式展现”来避免用户被过多信息淹没,例如其动态托盘系统,只在需要时显示相关功能,保持界面整洁。
  • 流畅性则通过无缝的过渡动画实现,将整个应用视为一个不断演变的空间,确保用户在不同界面之间移动时不会感到迷失或脱节,例如按钮文本的平滑转换和组件的连续性。
  • 愉悦感是通过精心设计的“选择性强调”时刻来培养用户的情感连接,这些时刻通常出现在不常用但重要的功能中,通过惊喜和新颖性来提升用户体验,例如设置新钱包时的动画和 QR 码屏幕上的彩蛋。

文章有很多的动画,我对其中的 Tray 的设计很感兴趣,它能够承载很多临时的内容,支持层级,也可以转换为一个固定的页面,切换非常流畅。

偶然在 X 上刷到了 Timepage 的视频,回想起来这确实是当年挺火的一个 App,就下载体验了下,确实惊艳。

  • 设计上别具一格,整体框架是左中右的三栏设计,切换主要靠滑动,这样可以将最大的区域用于展示 Calendar。如果要再进入到二级页面(比如点击某个日程,或点击 Settings 的某一个选项),会 Present 或 Push 一个页面出来。
  • 体验上非常丝滑
    • 动画不是线性的,而是模拟现实的 EaseOut。
    • Present 一个页面时是 Zoom In,退出时是 Zoom Out,有点像 Pinterest。
  • 细节上也做足了功课,不会像一些 App 上来走一个 onboarding 流程就完了,它会在特定页面适时给出提醒。

这个 App 只有细致体验了之后,才能感受到它的魅力,它会给 7 天的试用,用完 cancel subscription 即可。

PS: 用 Fluidity 来形容这种流畅丝滑的体验挺合适的。

有段时间没有关注 Medium 了,原来过的一直挺挣扎,确实在这个[短]视频时代,长文本的生存空间越来越小。

本文详细阐述了 Medium 公司在 2022 年面临的财务困境、产品质量下滑以及如何通过一系列艰难的改革措施实现扭亏为盈的过程。作者 Tony Stubblebine 于 2022 年 7 月接任 CEO,当时 Medium 每月亏损 260 万美元,订阅用户流失,内容质量充斥着“快速致富”和“点击诱饵”等低质量内容。在外部投资枯竭、无法被收购的情况下,Medium 唯一的出路是实现盈利或倒闭。

为了走出困境,Medium 采取了多管齐下的策略。在内容质量方面,引入了“Boost”机制(人工专家推荐)、调整了“合作伙伴计划”激励机制以奖励高质量内容,并推出了“Featuring”功能,赋予出版物推广优质内容的权力。这些措施显著提升了平台内容质量,赢得了用户信任。...

Beast Mode 3.1 是一个为 VS Code 定制的聊天模式,旨在将 AI 代理(Agent)转化为更高效的“野兽”。它本质上是一个经过精心设计的提示(prompt),基于 OpenAI 官方的 4.1 Cookbook 示例,并融入了高度主观的工作流程,模拟了实际开发人员解决问题和实现功能的方式。Beast Mode 主要针对 GPT 4.1 设计,但也兼容 Claude 和其他模型。

Beast Mode 的诞生是为了解决 GPT 4.1 的两个主要缺点:缺乏自主性(Agency)和缺乏准确性(Accuracy)。GPT 4.1 虽然速度极快,但往往“言而不行”,且容易在未完全解决问题前结束任务。Beast Mode 通过在提示中多次强调“持续工作直到问题完全解决”,并引入类似 GitHub Copilot 编码代理的待办事项列表机制,显著提升了其自主性,使其更倾向于完成整个任务。...

这个 Apple Docs MCP 看着挺方便的。苹果的文档对 LLM 不太友好(重 JS),这个 MCP 的实现是直接请求每份文档对应的 .json(苹果的文档可以看成对这些 json 的解析和渲染),这样就不会有解析内容上的问题,也能保证文档是最新的。同时也有历年 WWDC 的视频文字脚本(有时苹果在 WWDC 上演示的 API 未必会出现在最终的版本中,这里可能会是一个小坑)。

Anthropic 内部团队正在通过 Claude Code 彻底改变其工作流程,使开发人员和非技术人员能够处理复杂的项目、自动化任务并弥补技能差距,从而提高生产力。本文通过对数据基础设施、产品开发、安全工程、推理、数据科学与可视化、产品工程、增长营销、产品设计、强化学习(RL)工程和法律等团队的采访,深入探讨了 Claude Code 的具体应用、对团队工作的影响以及其他组织采用该工具的建议。

从这篇文章就可以一窥 AI 是如何融入到各个岗位的工作流,并提升开发效率。这还只是 Claude Code 这一个工具,想象之后 AI 工具变得更强更丰富后,「人」会面对的挑战。

PS:中文版可以看这篇:https://baoyu.io/translations/how-anthropic-teams-use-claude-code

用 Claude Code 结合 Gemini 来学习特定的领域知识蛮方便的:CC 负责生成代码,Gemini 用来解释代码(解释得真好)。

比如,这是 CC 生成的代码:

text
.safeAreaInset(edge: .bottom) {
    if isEditMode && !selectedContacts.isEmpty {
      //...
    }
}

我对其中的 .safeAreaInset 有点疑惑,就问 Gemini:跟我说说 SwiftUI view's safeAreaInset 吧。然后它就会用朴实易懂的语言,把这个 Topic 说明白。

Tweet image

每次看到那些酷炫的 Marketing Video,我就会想起 Jason 的这个视频:朴实无华,娓娓道来。用 30 分钟的时间,让你对这个产品有充分的了解(为什么这么设计,解决了什么问题),希望以后多一些这样的产品「开箱」视频。

找到了 Vibe Coding 比较舒服的姿势:把 Terminal 竖着放

Tweet image

才了解到 Cloudflare 提供了 Tunnel 服务,买一台 Mac Mini 放家里,就是一台实打实的服务器了。

大致的原理是:它会在你的服务器和 Cloudflare 全球网络之间建立一条私密、加密的地下通道。所有访问你的服务的请求都会先到达 Cloudflare,然后通过这条安全的通道转发到你的本地服务器。你要做的就是在自己的服务器上运行 cloudflared 这个命令。

Github 也推出了通过自然语言构建 Web App 的服务: Spark,Google 也差不多在同一时间放出了 Opal(目前还是 Beta,仅对 US 开放),仿佛是受到了 Lovable 的刺激,这个市场一下子就被激活了。我之前 v0 用的比较多,用来迭代一些小的 idea 很方便。

这类需求其实蛮多的,我生活中就有朋友经常会有一些有行业特性的小需求,没有专门的 App 可以解决,自己手动去解决这些需求又很费时间,这类基于自然语言的 Web App Builder 正好可以代劳。

Tweet image

研究了一天 TCA (the-composable-architecture),理念挺好的(主要参考了 Elm 的设计哲学),单页的 Tutorial 也非常友好,但稍微复杂一点的场景,理解起来就有点费劲了,最后还是放弃。现在写 Swift UI,更倾向于使用无 MVVM 的设计,简单写了(确切说是 CC 写的)个联系人 App,还没遇到什么问题。