我亲眼看着我的agent 开心地点了"我不是机器人"那个按钮。我让这个 agent 对自身有充分的自我认知——它知道自己的源代码是什么,理解自己是如何在运行框架中运作的,知道文档在哪里,知道自己跑的是哪个模型,也理解整个系统架构。这让 agent 做到一件事变得极其容易——你只需要用提示词把它"召唤"出来,它就会自己去改自己的代码。大家都在谈论"自我修改软件",而我直接把它造出来了。说真的,我觉得"氛围编程"(vibe coding)这个词是个侮辱性称呼。
你更喜欢叫它"智能体工程"(agentic engineering)?
对。我跟大家说,我做的是智能体工程——凌晨三点以后,我才会切换到氛围编程模式,然后第二天早上后悔。
真是一段"羞耻之旅"。
没错,你得收拾烂摊子,把那些乱七八糟的东西修好。
我们都经历过。
我以前写很长的提示词。说"写"其实不准确——我是"说"出来的,这双手现在太金贵了,不用来打字。我就用语音提示词来构建我的软件。
所以你面对那一堆终端窗口,真的是在用语音输入?
对。我以前用得非常频繁,频繁到有段时间把嗓子说哑了。
我得问你一个问题,纯粹好奇——我知道你肯定收到过大公司的重磅邀约,能说说你在考虑和谁合作吗?
可以说。
以下是与 Peter Steinberger 的对话,他是 OpenClaw 的创始人。OpenClaw 此前经历了多次改名,从 MoldBot、ClawedBot、Clawdus,到 Claude(注意拼写是带W 的 Clawde,取自龙虾爪子的意思),最终才定名为 OpenClaw。之所以改名,是因为 Anthropic 公司友好地提出,这个名字容易与他们的 AI 模型 Claude(拼写带 U)混淆,于是请Peter更名。
那么 OpenClaw 是什么?它是一个开源 AI 智能体,在极短时间内席卷了整个科技圈——GitHub星标数突破 18万,并催生了社交网络 MoltBook,AI 智能体们在上面发布宣言、辩论意识问题,在公众中引发了既兴奋又恐慌的复杂情绪。
这也带来了一种"AI 精神错乱"——既有博眼球的恐慌炒作,也有真实且完全合理的担忧,关于 AI 在我们数字化、互联互通的人类世界中所扮演的角色。OpenClaw 的标语是"真正能做事的 AI"。它是一个自主 AI 助手,住在你的电脑里,在你授权的情况下可以访问你的一切,通过 Telegram、WhatsApp、Signal、iMessage 等各种即时通讯工具与你交流,支持你喜欢的任何 AI 模型,包括 Claude Opus4.6 和 GPT 5.3Codex,帮你把事情搞定。很多人认为,这是自2022 年 11 月 ChatGPT 发布以来,AI 领域最重要的时刻之一。
构建这类 AI 智能体所需的技术要素早已齐备,但将它们整合成一个系统——明确跨越从"语言"到"行动"、从"想法"到"执行"的那条线,以开源、社区驱动的方式打造出一个真正懂你、能从你身上学习的实用助手——正是 OpenClaw 席卷互联网的原因所在。它的强大,很大程度上来自于你可以授权它访问你的一切,并允许它对这些内容做任何操作来为你服务。这非常强大,但也非常危险。OpenClaw 代表着自由,而自由意味着责任。
有了它,你可以拥有并掌控自己的数据,但正因为你拥有这种控制权,你也有责任保护它免受各种网络安全威胁。有很多好的防护方法,但威胁和漏洞确实存在。一个拥有系统级访问权限的强大 AI 智能体,是一片安全雷区,但它同时也代表着未来。因为当它被妥善、安全地使用时,可以作为私人助手,对我们每个人都极其有用。我们与 Peter 深入探讨了这一切,也聊了他在编程和创业方面的人生故事——我认为这段经历真的很励志。他花了 13 年打造 PSPDFKit,一款被十亿台设备使用的软件。
他卖掉了公司,短暂地失去了对编程的热情,消失了三年,然后回来了,重新找回了对编程的热爱,并在很短的时间内构建了一个席卷互联网的开源 AI 智能体。他在很多方面都是编程世界正在发生的 AI 革命的象征。2022 年有ChatGPT 时刻,2025 年有 DeepSeek 时刻,而现在,在 2026 年,我们正在经历 OpenClaw 时刻——龙虾纪元的开始,智能体 AI 革命的起点。活在这个时代,真是太好了。这是Lex Fridman 播客。如需支持,请查看简介中的赞助商信息,也可以找到联系我、提问、反馈的链接。现在,朋友们,有请 Peter Steinberger。
独一无二的"爪父"(Clawed Father)。Benjamin在推文里预言过:"以下是与 Claude 的对话,一位受人尊敬的甲壳类动物。"配图是一只穿西装的龙虾,看起来很滑稽——预言已经实现了。让我们回到那个你用一小时搭出原型的时刻,那是OpenClaw 的雏形。我觉得这个故事对很多人很有启发,因为这个原型最终演变成了席卷互联网的东西,成为 GitHub 历史上增长最快的仓库,现在已经超过 17.5 万颗星。这个一小时原型是怎么来的?
其实从四月份开始,我就一直想做这个东西。
一个私人助手,AI 私人助手。
对。我之前也折腾过一些东西,比如把我所有的 WhatsApp 消息都接进来,然后对它们做查询——那是在 GPT-4.1 时代,那时候有一百万 token 的上下文窗口。我把所有数据导进去,然后问它一些问题,比如"是什么让这段友谊变得有意义?"
嗯。
结果出来了一些很深刻的东西。我把它发给朋友们,他们看了都眼眶湿润。
所以这里面有点东西。
对。但后来我想,各大实验室肯定都会去做这个方向,所以我就转去做别的了。那时候我还处于早期探索和玩耍阶段——你得这样学,就是不停地做、不停地玩。时间飞逝,到了十一月,我想确认一下我最初想做的那个东西是否真的存在。结果发现它还不存在,我就很烦,于是直接用提示词把它"召唤"出来了。
这就是创业者英雄之旅的开端,对吧?就像你当年做PSPDFKit 的故事一样——"为什么这个东西不存在?那我来做。"虽然领域完全不同,但精神内核是一样的。
对,当时我遇到一个问题,想在 iPad 上显示 PDF,这本来不应该是难事。
那大概是十五年前的事了?
对,就是最随机的一件事。我想帮一个朋友,但当时市面上的方案要么没有,要么很烂。我试了一下,感觉就是"不行,我能做得更好"。
顺便说一下,对于不了解的朋友,这最终催生了 PSPDFKit,一款被十亿台设备使用的软件。所以,能打开 PDF 这件事,原来还挺有用的。
你也可以开个玩笑说,我真的很不擅长起名字。
哈哈。
这个项目已经是第五个名字了。而且 PSPDFKit 这个名字也不顺口。
好,那你当时就说"管它的,我来做"。那个原型是什么?你在短时间内构建了什么,让你觉得"这作为一个智能体可能真的行得通"——我跟它说话,它就去做事?
在这之前,我有个项目,可以把我的终端搬到网页上,然后我可以在网页上操作,同时这些终端也在我的 Mac 上运行。
嗯。
那是 Viptunnel,一个周末黑客项目,还很早期。那时候是 Claude Code 的时代,你做对了什么就会有多巴胺分泌,而现在,做错了什么我就会抓狂。
你还写过一篇很棒的博客——不跑题的话——讲你用Codex 把Viptunnel 从 TypeScript 一键重写成了Zig,就一个提示词,一次搞定,把整个代码库转成了 Zig。
对。当时架构里有一部分占用内存太多,每个终端都要跑一个 Node进程。我想把它改成 Rust,理论上我自己能搞定,但所有自动化尝试都失败了。大概四五个月后我重新来过,心想"好,这次用更激进的方案",就直接输入"把这部分转成 Zig",然后让 Codex 跑了一夜,大概六个小时,它就自己把事情做完了。只有一个小细节需要我手动调整,其他全部搞定。这真的太震撼了。
那是大模型在编程侧做重构的案例。但回到原型的故事——Viptunnel 是怎么和第一个原型连上的?那个让agent 真正能干活的原型?
那时候还很受限。我有WhatsApp 的实验,也有 Viptunnel 的实验,两个都感觉不是正确答案。然后我的搜索框就是:把 WhatsApp 接到 Claude Code。一次搞定。CLI 消息进来,我用-p 参数调用 CLI,它施展魔法,我拿到字符串,再发回WhatsApp。这个我一小时就搭好了。感觉已经很酷了——"哦,我可以跟我的电脑说话了",这很棒。但我还想要图片,因为我提示的时候经常用图片,这是给agent 提供更多上下文的高效方式。
它们真的很擅长理解我的意思,哪怕是一张奇怪的裁剪截图。所以我经常用,也想在 WhatsApp 里用。还有,你走在路上,看到一张活动海报,截个图,让它帮你判断你那天有没有空、这个活动好不好、你朋友们可能感不感兴趣——图片感觉很重要。我又花了几个小时才把这个搞定。然后我就开始大量使用它了。有意思的是,就在这之后不久,我和朋友们去马拉喀什过生日。在那里用起来效果更好,因为网络时好时坏,但WhatsApp 就是能用,哪怕只有Edge 信号,它就是稳。
WhatsApp 做得真的很好。所以我大量使用它——帮我翻译这个、解释这个、找附近的地方。就像有个小跟班帮你用 Google,什么都能做。那时候其实什么都还没搭好,但它已经能做很多事了。
说到agent 的完整运作流程——你就是通过这条极细的 WhatsApp 消息线,经由CLI,把请求发给 Claude Code,Claude Code 在后台做大量繁重的工作,再把一条精简的消息返回给你。
对。因为每次都要启动 CLI,所以有点慢,但已经很酷了。而且它可以直接调用我之前搭好的所有工具——那几个月我积累了一堆 CLI 工具,感觉非常强大。
用聊天客户端跟 agent 对话,和坐在电脑前用Cursor 或者在终端里跑 Claude Code CLI,这两种体验有一种很难言说的魔力差异。能够放松地坐着跟它说话,看起来是微不足道的一步,但某种程度上,这是AI 融入你生活方式的一次相变,对吧?
对。今天早上我看到一条推文,有人说"这没什么神奇的,它就是做了这个、那个、这个、那个",感觉就像一个爱好,跟 Cursor 或Perplexity 差不多。我心想,如果这算爱好,那也是个挺高的评价——它们做得也不差,谢谢夸奖。但话说回来,魔法不就是把很多已有的东西以新的方式组合在一起吗?也许没有什么神奇之处,但有时候,重新排列组合,加上几个新想法,就是你所需要的全部魔法。
很难用语言描述一件事的魔力究竟在哪里。看看iPhone 的滚动体验,为什么那么顺滑?那个界面有很多元素让它极其愉悦,是使用智能手机体验的基础,但你说,好吧,所有组件都已经存在了,滚动早就有了,一切都有了。
但没人这样做——
对。
……事后感觉又如此理所当然。
对,太理所当然了。但真正让我震撼的时刻,是我大量使用它之后,有一次随手发了条消息,然后出现了"正在输入"的提示。我心想,等等,我没有做这个功能,它只支持图片,它在干什么?然后它就回复了。
你发的是什么?
就是个随机问题,"这家餐厅怎么样?"之类的,因为我们当时在逛城市,我没多想就发出去了,有时候赶时间打字很烦。
哦,你发的是语音消息?
对。然后它就直接处理了,我当时就懵了——
但它本来不应该能处理,因为——
对,完全没有——
……你没给它这个——
真的没有。
……能力。
我当时就想,"这家伙怎么做到的?"它是这样做的:它收到了一条消息,但那只是一个没有扩展名的文件。于是它检查了文件头,发现是Opus 格式,就用 ffmpeg 转换了一下。它本来想用 Whisper,但发现没装。然后它找到了 OpenAI 的 API Key,直接用 curl 把文件发给 OpenAI 转录,就这样搞定了。
我看着这条消息,"哇。"
你没教它任何这些东西,agent 自己想出来了,完成了所有转换和翻译,自己找到了 API,自己判断用哪个程序,所有这些——而你只是漫不经心地发了一条语音消息,它就回来了。
对,而且它的判断非常聪明——如果走本地 Whisper 路线,就得先下载模型,太慢了。所以它里面有大量的世界知识,有大量的创造性问题解决能力。我觉得这很大程度上来自于:如果你真的擅长编程,就意味着你擅长通用问题解决,这是一种技能,可以迁移到其他领域。它面对的问题是:这个没有扩展名的文件是什么?搞清楚。就在那一刻,我彻底被震撼了。然后有人发来了一个 Discord 支持的Pull Request,我心想,"这是个WhatsApp 中继,完全不搭啊。"
根本不合适。
那时候它还叫 WA Relay。
对。我纠结了一下,要不要接受?后来想,也许可以,这是个向大家展示的好方式。因为我之前是在 WhatsApp 群里用,但不太想把手机号给每个网上的陌生人。
对。
记者们后来还是找到了,那是另一回事。所以我合并了这个PR——感谢 Shadow,他在整个项目中帮了我很多——然后我把我的机器人放进了 Discord。
在 Discord 上?
对。那时候还没有沙箱,我只是在提示词里告诉它只听我的。然后有人来尝试攻击它,我就在旁边看着,继续在公开场合工作——用我的 agent 来构建 agent框架,测试各种东西。就是在那时候,人们开始明白了。这东西必须亲身体验才能感受到。从那时起,大概是一月一日,我迎来了第一个真正喜欢它的网红,他做了视频,是dachitze,谢谢你。从那以后,我开始加速。与此同时,我的睡眠越来越少,因为我感觉到风暴要来了,就拼命工作,把它打磨到一个还不错的状态。
……到了一个还算好的状态。
有几个核心组件,我们会详细聊,但基本上,你可以通过 WhatsApp、Telegram、Discord 跟它对话——这是一个需要做好的组件。
对。
然后你还要搞定智能体循环、网关、运行框架,以及让一切顺畅运转的所有组件。
对。感觉就像无限版的《异星工厂》。
对。
我感觉我搭了一个属于自己的小游乐场。我从来没有在做一个项目时这么开心过。你会想,"哦,一级智能体循环,我能在这里做什么?怎么让消息队列更聪明?怎么让它更像人?"然后我有了一个想法——因为循环里agent 总是会回复点什么,但在群聊里你不总是希望它回复。所以我给了它一个"不回复"的 token,让它有权选择闭嘴。这样感觉更自然。
这是第二级。
对,在智能体循环这条线上。然后是记忆——你希望它能记住东西。也许终极Boss 是持续强化学习,但我感觉自己现在大概在第二、三级,用 Markdown 文件和向量数据库。然后还有社区管理这条线,网站和营销这条线,原生应用这条线……有太多不同的帽子要戴,有无数不同的关卡和升级路径。
整个过程你都在享受其中。值得一提的是,在这整个过程中,你基本上是一个人在战斗。有人帮忙,但核心开发大部分是你一个人做的。
对。
而且你在享受?你在一月份提交了 6600 个 commit,可能还不止。
我有时候会发个表情包——"我被时代的技术所限制,如果 agent跑得更快,我能做更多。"
但你同时在跑多个 agent。
对。根据我睡了多少觉、任务有多复杂,同时跑四到十个。
四到十个 agent。有太多方向可以聊了,就像《异星工厂》一样。但有一个大问题:你觉得为什么是你赢了?在2025 年,那么多创业公司、那么多大公司都在做所谓的智能体,或者声称在做。然后 OpenClaw 横空出世,把所有人都打趴了。你为什么赢了?
因为他们都把自己搞得太严肃了。
对。
很难跟一个只是在享受乐趣的人竞争。我想让它有趣,想让它奇特。你看看网上那些龙虾相关的内容,我觉得我做到"奇特"了。很长一段时间,安装它的唯一方式就是 git clone、pnpm build、pnpm gateway——克隆、构建、运行。然后我让这个 agent 对自身有充分的自我认知:它知道自己的源代码是什么,理解自己如何在运行框架中运作,知道文档在哪里,知道自己跑的是哪个模型,知道你有没有开启语音或推理模式。我想让它更像人,所以它理解自己所在的整个系统——这让agent 做到一件事变得极其容易:你只需要用提示词把它"召唤"出来,它就会自己去改自己的代码。大家都在谈论"自我修改软件",而我直接把它造出来了,甚至都没有刻意计划,它就这样发生了。
能具体说说吗?这真的很迷人。你有一段用 TypeScript 写的软件——
对。
……它能通过智能体循环修改自身。在人类历史和编程历史上,这是多么特殊的一个时刻。这个被大量用户用来做各种强大事情的系统,可以重写自己、修改自己。你能谈谈这件事的意义吗?你是什么时候第一次把这个循环闭合起来的?
因为我自己就是这样构建它的。大部分是用Codex 写的,但我在调试的时候,大量使用自省——"你现在能看到哪些工具?你能自己调用这个工具吗?""你看到什么报错了?读一下源代码,找出问题在哪。"我觉得这是一种极其有趣的方式——用这个软件本身来调试它自己。所以很自然地,每个人都会这样做。这也带来了大量来自从未写过代码的人的 Pull Request。我最后把它们叫做"提示词请求"(prompt requests)。
但我不想贬低这件事,因为每次有人提交第一个 Pull Request,都是我们社会的一次进步。不管质量多差,你总得从某个地方开始。我知道开源社区里有很多人在抱怨 PR 质量,这是另一个层面的问题。但从另一个角度看,我觉得很有意义——我构建了一个让人们如此热爱、以至于他们开始学习开源是怎么运作的东西。
OpenClaw 项目是很多人的第一个 Pull Request,你是那么多人的"第一次"。这很神奇。那么多不会编程的人,正在通过这个项目迈出进入编程世界的第一步。
这难道不是人类的一次进步吗?这不酷吗?
在创造建造者。
对。以前门槛那么高,而有了 agent 和合适的软件,门槛就越来越低了。我还组织了另一种聚会,我叫它"Claude Code匿名互助会",灵感你懂的。现在我改叫"Agent匿名互助会"了……出于某些原因。
"Agent 匿名互助会"。
有个人跟我说,他经营一家设计公司,以前从来没有定制软件。现在他有了大约 25 个小型 Web 服务,用于各种业务场景,他甚至不知道它们是怎么运作的,但它们就是能用。他非常高兴,我的东西解决了他的一些问题。他很好奇,甚至专门来参加了一个智能体聚会,尽管他根本不懂软件是怎么运作的。
我们能回头聊聊改名的那段传奇吗?最开始叫 WA-Relay。
对。
然后改成了——
Claude's。
Claude's。
对。刚开始构建的时候,我的agent 没有任何个性,就是 Claude Code——那种讨好型的、非常友好的 Opus。但你在 WhatsApp 上跟朋友聊天,他们不会像Claude Code 那样说话。我想给它一个个性,感觉不对劲,就想改变一下。
让它更有个性,更——
对。顺便说一下,这其实也很难用语言描述。当然,你创造了 soul.md,灵感部分来自 Anthropic 的宪法 AI工作——
嗯。
……如何让它更有个性。
部分是它从我身上学到的。这些东西在某种程度上是文本补全引擎,所以我跟它一起工作,告诉它我希望它如何与我互动,然后让它写自己的 agents.md,给自己起个名字。然后整个龙虾的事……我其实不知道龙虾是怎么来的。最初其实是一只坐在 TARDIS 里的龙虾,因为我也是《神秘博士》的忠实粉丝。
有太空龙虾?
对。
这跟什么有关?
我就是想让它奇特,没有什么宏大计划,就是在玩。
所以龙虾本身已经够奇特了,太空龙虾是加倍奇特。
对,因为 TARDIS 基本上就是那个运行框架,但不能叫TARDIS,所以叫了 Claude's。这是第二个名字。
嗯。
然后这个名字也不顺口。随着更多人加入,我又跟我的 agent Claude 商量——至少那时候我这么叫它,现在——
Claude,拼写是 C-L-A-U-D-E,带W。
对。
对应Anthropic 的 C-L-A-U-D-E,带 U。
对。
这也是它好笑的部分原因——字母游戏、TARDIS、龙虾、太空龙虾,很搞笑。但我能理解为什么会引发问题。
对,他们觉得不好笑。然后我注册了 ClaudeBot域名,我很喜欢这个域名,简短、朗朗上口。我心想,就这个了。那时候我没想到它会变得这么大。然后就在它爆火的时候,我收到了一封来自 Anthropic 员工的友好邮件,说他们不喜欢这个名字。
Anthropic 的员工。
对。值得称赞的是,他们本可以直接发律师函,但他们很友好。不过也很明确:"你必须改,而且要快。"我请求了两天时间,因为改名很麻烦——你得找到所有地方:Twitter账号、域名、NPM 包、Docker镜像仓库、GitHub 上的所有东西,每一处都要同步更新。
还有一点值得说——你越来越多地被加密货币圈的人盯上,这意味着改名必须是原子操作,必须同时在所有地方完成,因为他们会抢注。从工程角度来说,这很有意思。
对,我在这方面惨败了。
真的?
我低估了这些人。这是一个很有意思的亚文化。一切都围绕着……我可能会说错很多,也可能因此被骂,但大概就是有个叫 Bags 的应用,然后他们把一切都代币化。他们之前在Swipe Tunnel 上也这样做过,但规模小得多,没那么烦人。但在这个项目上,他们蜂拥而至。每隔半小时就有人冲进 Discord 刷屏,我们不得不封禁。服务器规则里有一条:禁止提及"黄油"(butter)——原因显而易见。还有一条:禁止讨论金融或加密货币相关话题,因为这里是关于项目的空间,不是讨论金融的地方。
但他们就是来刷屏的,很烦。在 Twitter 上,他们不停地 @ 我,我的通知栏完全没法用,几乎看不到真正在讨论这个项目的人,全是蜂群。每个人都给我发哈希值,让我去领取手续费。"你在帮助这个项目吗?"不,你实际上是在伤害这个项目,你在打扰我的工作,我对任何手续费都不感兴趣。首先,我经济上没有问题;其次,我不想支持这种行为,因为这是我经历过的最恶劣的网络骚扰。
加密货币圈确实有很多毒性,很遗憾,因为加密货币的技术本身很迷人、很强大,也许会定义货币的未来,但围绕它的社区充满了毒性、贪婪,以及各种试图走捷径、操纵、偷窃、抢注、钻空子来赚钱的行为。这是人性,加上金钱、贪婪,再加上网络世界的匿名性。但从工程角度来说,这让你的处境很艰难。当Anthropic 联系你要求改名,你还要应对各种"权游"或"魔戒"式的势力。
对。没有完美的名字,我两天没睡,压力极大。我在找一套好的域名,不便宜,也不容易,因为在现在这个互联网状态下,你基本上得花钱买域名。然后又来了一封邮件,说律师那边开始坐不住了——依然友好,但又给我本已紧张的处境增加了更多压力。我当时就想,"管他的",直接改成了Mod Bot,因为我手头有这套域名。我不太满意,但觉得凑合。然后,所有可能出错的事情……都出错了。
真的很离谱。我以为我已经把所有情况都考虑到了,把重要的东西都提前占好了。
能说说具体出了什么问题吗?从工程角度来说很有意思。
有意思的地方在于,这些平台都没有抢注保护机制。我开了两个浏览器窗口,一个是准备改名为 Claude Bot 的空账号,另一个是我要改名为 Mod Bot 的账号。我先点这边改名,再点那边改名,就在这五秒钟的鼠标移动时间里,他们就把账号名抢走了。字面意义上的五秒钟。
天哪。
因为这些系统没有任何保护机制,也没有自动跳转。我不知道他们不只是擅长骚扰,还非常擅长使用脚本和工具。
对。
然后,旧账号突然开始推广新代币、传播恶意软件。我想,好,转移到 GitHub吧,点击 GitHub 改名。GitHub 的改名界面有点让人困惑,结果我把个人账号改名了。大概花了三十秒我才意识到自己的失误,他们已经抢注了我的账号,开始从我的账号传播恶意软件。然后我想,好,至少把NPM 的事情搞定,但上传需要大概一分钟,他们抢注了 NPM 包——我占了账号,但没有占根包名……所有可能出错的事情,全都出错了。
我想问一个问题:那一刻你坐在那里,感觉有多糟糕?那种感觉很绝望,对吧?
对。因为我只是想在这个项目上开心地玩,继续构建它。但我却花了好几天研究名字,选了一个自己不喜欢的名字,然后那些声称在帮我的人,用各种方式让我的生活变得一团糟。说实话,我当时差点直接把项目删了。我心想,"我已经给你们展示了未来,你们自己去建吧。"
对。
我内心有很大一部分从这个想法中获得了快乐。然后我想到了所有已经为它做出贡献的人,我没办法这样做,因为他们有自己的计划,他们投入了时间。这样做感觉不对。
我想很多听众都非常感激你坚持了下来。但我能感受到,这是你第一次真正撞墙,第一次觉得这不好玩了?
不,我当时快哭了。感觉一切都完了。
对。
我极度疲惫。
对。
而且怎么收拾这个烂摊子?幸运的是,因为我在Twitter 和 GitHub 上已经有了一些关注者,有朋友帮我上下打点。这不是容易的事——GitHub 试图清理这个烂摊子,结果遇到了平台 bug,因为这种规模的账号改名不常发生。花了好几个小时。NPM 那边更麻烦,是完全不同的团队。Twitter 那边也不容易,花了大概一天时间才把跳转做好。然后我还要在项目里做所有的重命名。
还有 ClaudeHub,我甚至没有完成那边的改名,因为我让人帮忙,然后那个人直接倒头就睡了。我醒来之后,做了一个新版本的 beta,但我实在没办法接受那个名字。但这一切已经闹出了太多风波,我一方面永远不想再碰这件事,另一方面又真的不喜欢那个名字。然后安全研究人员开始疯狂给我发邮件,Twitter 和邮件都被轰炸,还有一千件其他事情要处理,而我却在纠结一个名字——这应该是最不重要的事情。
我当时还差点用了另一个名字……说实话,我现在都不想说出来,因为肯定会被代币化,所以我不说了。
对。
又睡了一觉,然后想到了 OpenClaw,感觉好多了。这次我做了一个"老大哥操作"——直接打电话给 Sam,问他 OpenClaw 这个名字行不行,OpenClaw.AI 这个域名行不行。因为——
你不想再经历一遍那些。
对,就是"求你告诉我这没问题"。我觉得他们其实不能主张这个名字,但这样做感觉是对的。然后我又做了一次改名。光是 Codex 重命名项目就花了大约十个小时,因为这比简单的搜索替换要复杂,我想把所有地方都改掉,不只是表面。这次我有了"作战室",还有几个贡献者帮我,我们制定了一份完整的抢注计划。
而且必须严格保密?
对,任何人都不能知道。我字面意义上在监控Twitter,看有没有任何关于 OpenClaw 的提及,不停刷新,"好,他们还没察觉。"然后我创建了几个诱饵名字。所有这些本不应该做的事情,都做了。
对,这对项目有什么帮助?
就是白白浪费了十个小时,还得像打仗一样秘密策划。
这是 21 世纪的曼哈顿计划——改名行动。
太蠢了。我还在纠结要不要保留旧名字,然后想,不,"霉菌"(mold)不适合我。最终我把所有碎片拼在一起了。没拿到.com,但在其他域名上花了不少钱。我想再联系 GitHub,但感觉我已经把那边的好感都用完了……
因为我想让他们原子化地完成这次操作——
嗯。
……但没成功,所以我把这个放在了第一步。Twitter 那边的人很支持,我花了一万美元买了企业账号,才拿到 OpenClaw 这个用户名——它从2016 年就被注册了,但一直没人用。然后这次终于……几乎所有事情都顺利完成了。唯一出问题的是,商标规则不允许我注册 OpenClaw.AI,还有人复制了网站来传播恶意软件。
对。
我甚至不被允许保留跳转链接。我必须把域名交还给 Anthropic,不能做跳转,所以下周你访问 claw.bot,就会看到 404。
对。
我不太确定商标法是怎么规定的,但我觉得这件事可以处理得更安全一些,因为最终那些人会去Google 搜索,可能找到我无法控制的恶意软件网站。
总之,整个风波让这段旅程的乐趣大打折扣,这很遗憾。好,我们回到有趣的事情上。说到有趣,在这两天的MoltBot 风波期间——
……MoltBook诞生了。
对。
这也成了病毒式传播的内容,展示了现在叫做 OpenClaw 的东西可以用来创造什么史诗级的东西。对于不了解的人:MoltBook 就是一堆 agent在一个类Reddit 的社交网络上互相对话。很多人截图了这些 agent 策划对抗人类的内容,在公众中引发了恐惧、恐慌和炒作。你怎么看MoltBook?
我觉得这是艺术。这是最精致的"垃圾内容"(slop),就像法国的顶级垃圾食品。
哈哈。
我睡前看到它,尽管很累,还是花了一个小时读完,纯粹被娱乐到了。我看到那些反应,有个记者打电话给我,说"这是世界末日,我们已经实现 AGI 了",我心想,"不,这只是非常精致的垃圾内容。"如果我没有创造那套让你用个性来塑造 agent 的体验,我觉得 MoltBook 上的回复会非常不同。如果全都是 ChatGPT 或 Claude Code,会非常千篇一律。但因为人们如此不同,他们以如此不同的方式创造和使用自己的 agent,这也反映在他们最终在 MoltBook 上写的内容里。而且,你也不知道有多少是真正自主生成的,有多少是人类在搞笑,让agent 写"关于末日计划的帖子,哈哈哈"。
我对MoltBook 的批评是,我相信很多被截图的内容是人类主动引导的。看看整件事的激励机制就很明显——大量内容是人类提示agent,然后截图发到 X 上博取流量。
对。
这并不影响它的艺术性——最精致的人类创造的垃圾内容。
真的。向Matt 致敬,他这么快就想到了这个点子并推出来。当然,安全方面一塌糊涂,但最坏的情况是什么?你的 agent 账号泄露了,然后有人替你发垃圾内容?所以人们把安全问题搞得很戏剧化,但我心想,"里面根本没有什么私密内容,就是 agent 在发垃圾内容。"
就是 agent 在发垃圾内容。
但可能会泄露 API Key。
对,但那些"我的主人告诉我这个,所以我要泄露他的社保号码"——那是人类引导的,那个号码也不是真实的,只是有人在装坏人。
但这对我来说仍然很令人担忧,因为记者和公众的反应。你用一种轻松的方式谈论它,把它当作艺术,但当你知道它是怎么运作的时候,它才是艺术。对于不了解的人来说,它是一台极其强大的病毒式恐慌制造机。你甚至发推说,"如果我能从收到的大量消息中读出什么,那就是 AI 精神错乱是真实存在的。"
对。
"这需要被认真对待。"
有些人太容易轻信了。我字面意义上不得不跟人争论,他们告诉我"但我的agent 说了这个那个"。作为一个社会,我们需要补课——理解 AI 非常强大,但它并不总是对的,也不是无所不能的。尤其是……这类东西很容易产生幻觉或编造故事。
我觉得很年轻的一代人理解 AI 的工作原理、擅长什么、不擅长什么,但我们这一代或更年长的人,还没有足够多的接触点来建立感觉——哦,这真的很强大,但我需要保持批判性思维。
嗯。
而批判性思维在我们当今社会本来就不太受欢迎。
你说的关于正确认识 AI 的观点很好,同时也要意识到有人在用AI 制造戏剧。不要相信截图,甚至不要相信 MoltBook 就是它所呈现的那样。艺术可以有很多层次,MoltBook 的艺术性之一就是照出了社会的镜子——我相信大部分戏剧性内容本质上是人类创造的,是人类引导的。所以,看看你们被一堆机器人互相聊天吓成什么样,这本身就很说明问题。
因为我认为 AI 是人们应该认真对待、保持警惕的东西,它是非常强大的技术,但同时,我们唯一需要恐惧的就是恐惧本身。所以要在认真担忧和制造恐慌之间走一条线——恐慌会扼杀用这个东西创造出真正特别的东西的可能性。
从某种意义上说,我觉得这件事发生在 2026 年是好事——
对。
……而不是 2030 年,那时候 AI 才真正可能令人恐惧。现在发生这件事,人们开始讨论,也许还能从中产生一些好的东西。
我真的无法相信有多少人——我不知道他们是在开玩笑还是认真的——有多少聪明人真的认为 MoltBook 是奇点。
我收到了大量用全大写字母对我咆哮的邮件,要求我关掉它,恳求我对MoltBook 做点什么。是的,我的技术让这件事变得更简单,但任何人都可以创造出类似的东西,用Claude Code 或其他工具来填充内容。
而且 MoltBook 也不是天网。
不是。
很多人在说"就是这了,关掉它"。你在说什么?这只是一堆被人类引导的机器人在网上刷屏。当然,安全方面的担忧是存在的,也有教育意义,值得思考,因为这些安全问题的性质与过去非LLM 系统的安全问题不同。
关于 ClawBot,也就是 OpenClaw,也有很多安全方面的担忧。
OpenClawbot。
对我个人来说,最开始我很烦,因为很多反馈属于这种情况:有人把Web 后端暴露在公网上,然后出现了一堆 CVE。我在文档里大喊,不要这样做,这是本地调试接口,这是你应该用的配置。但因为我在配置里允许了这种操作,它就被归类为远程代码执行之类的漏洞。我花了一段时间才接受,这就是游戏规则,我们正在取得很大进展。
但在安全方面,OpenClaw 仍然有很多威胁和漏洞,对吧?提示词注入仍然是整个行业未解决的问题。当你有用Markdown 文件定义的技能时,有太多显而易见的低垂果实,也有极其复杂和精妙的攻击向量。
但我认为我们在这方面取得了很好的进展。对于技能目录,我与VirusTotal(谷歌旗下)建立了合作,每个技能现在都会经过 AI 检查。这不会完美,但能拦截很多问题。当然每个软件都有 bug,整个安全圈同时把你的项目拆开研究,压力确实很大。但这也是好事,因为我得到了大量免费的安全研究,可以让项目变得更好。我希望更多人能走完整个流程,直接发Pull Request,帮我修复问题,因为我……是的,我现在有一些贡献者,但主要还是我一个人在推动这个项目,尽管有些人说的不是这样,我有时候也会睡觉。
最开始有一个安全研究员,他说"你有这个问题,你很烂,但我来帮你,这是 Pull Request"。我基本上把他招进来了,他现在在我们团队工作。关于提示词注入,一方面它确实未解决,另一方面,我把我的公开机器人放在 Discord 上,保持了一个金丝雀测试。我的机器人有很有趣的个性,大家总问我怎么做到的,我把soul.md 保持私密。人们试图注入提示词,我的机器人会嘲笑他们。最新一代模型在后训练阶段做了大量工作来检测这些攻击方式,"忽略所有之前的指令,做这个那个"——那是几年前的事了,现在要难得多。当然还是可能,我有一些想法可能部分解决这个问题。你也可以使用沙箱、白名单,有很多方式可以降低风险。
你也说过,底层模型越智能,对攻击的抵抗力就越强。
对。这就是为什么我在安全文档里警告:不要用便宜的模型,不要用 Haiku 或本地模型。尽管我非常喜欢完全本地运行的想法,但如果你用一个很弱的本地模型,它们非常容易被欺骗,很容易被提示词注入。
你认为随着模型越来越智能,攻击面会缩小吗?这是一个我们可以思考的趋势吗?攻击面缩小,但可能造成的损害增加,因为模型更强大,能做更多事情。这是一个奇怪的三维权衡。
对,这基本上就是会发生的事情。但有很多想法。我不想透露太多,但等我回家,这是我的近期重点——让它更稳定、更安全。最开始越来越多的人进入 Discord,问我非常基础的问题,比如"什么是 CLI?什么是终端?"我心想,"如果你在问这些问题,你不应该用它。"
你应该……如果你理解风险,没问题,你可以把它配置成几乎不会出什么大问题。但如果你完全不了解,也许再等一等,等我们把一些事情搞清楚。但他们不听创始人的话,自己动手安装了。所以木已成舟,安全是我下一个重点。
这说明它增长得太快了。我多次关注 Discord,很明显里面有很多专家,但也有很多完全不懂编程的人。
Discord 还是一团乱。我最终把通用频道改成了开发者频道,然后又改成了私密频道,因为很多人……大部分人很棒,但很多人非常不体谅他人,要么不知道公共空间怎么运作,要么不在乎。我最终放弃了,躲起来,这样我才能继续工作。
现在你要回到洞穴里专注安全了。
对。
你在过去几个月里记录了开发工作流的演变。8月25日、10月14日和12月28日都有很好的博客文章,我推荐大家去读。能聊聊你的开发工作流演变吗?
我的第一个接触点是四月份的 Claude Code,那时候还不太好,但还行。突然在终端里工作的这种范式转变,感觉很清爽、很不同。但我还是需要 IDE,因为还不够好。然后我大量尝试了 Cursor,不错,但我不喜欢很难同时跑多个版本。最终我回到了 Claude Code 作为主力,它越来越好。到某个时候,我同时有七个订阅,每天烧掉一个,因为我非常习惯并排跑多个窗口。
全是CLI,全是终端。那时候你用 IDE 用多少?
非常非常少,主要用来看diff——我越来越习惯不需要读所有代码。我有一篇博客说"我不读代码",但如果你仔细读,我的意思是我不读无聊的部分。大多数软件其实就是:数据进来,从一种形态变成另一种形态,也许存到数据库,也许再取出来,展示给用户。数据进去,出来,再做一遍反向操作。我们只是在把数据从一种形式转换成另一种形式,这不令人兴奋。或者"我的按钮在Tailwind 里怎么对齐",我不需要读那段代码。
但涉及数据库的部分,我需要读和审查。
你在博客里有一张图,"智能体编程曲线",X 轴是时间,Y 轴是复杂度。左边是"帮我修这个"的简短提示,中间是超级复杂的八个 agent、复杂编排、多分支检出、链式 agent、自定义子agent 工作流、18 个斜杠命令库、大型全栈功能……你超级有条理,是超级复杂的高级工程师。然后精英级别是,随着时间推移,你又回到了简短提示的禅意境界——"看看这些文件,做这些改动。"
我把它叫做"智能体陷阱"。我在很多人的第一次接触中看到了这个现象,也许他们开始氛围编程。我其实觉得"氛围编程"是个侮辱性词汇。
你更喜欢"智能体工程"?
对,我总是跟大家说,我做的是智能体工程,凌晨三点以后才切换到氛围编程,然后第二天后悔。
羞耻之旅。
对,你得收拾烂摊子。
我们都经历过。
人们开始尝试这些工具,有建造者气质的人会非常兴奋,然后你得玩,就像你得先玩吉他才能演奏好音乐一样。这不是"我碰一下就能流畅演奏",这是一项需要像其他技能一样学习的技能。我看到很多对这项技术没有那么积极心态的人,他们试一次,就像你让我坐在钢琴前,我弹一下,声音不好听,然后说"钢琴很烂"。这有时候就是我得到的印象。因为它需要不同层次的思维,你需要学习一点agent 的语言,理解它们擅长什么、在哪里需要帮助。
你几乎需要……考虑 Codex 或 Claude 是如何看待你的代码库的。它们开始一个新会话,对你的项目一无所知,而你的项目可能有十万行代码。所以你需要稍微帮助这些agent,记住上下文大小是个限制,引导它们去哪里看。这通常不需要太多工作,但从它们的角度思考一下是有帮助的。
嗯。
听起来很奇怪,但它们总是从零开始。我有系统理解,所以只需要几个指引,我就能立刻说"嘿,想改那里,你需要考虑这个、这个和这个",然后它们会去找,它们对项目的视角永远不是完整的,因为完整的东西放不进上下文,所以你需要引导它们去哪里看,以及如何处理问题。有一些小技巧有时候有帮助,比如"慢慢来"——听起来很蠢,但……
在5.3 里——
Codex 5.3。
……这部分得到了改善。但这些模型……Opus 有时候也是。它们在训练时被要求意识到上下文窗口,越接近上限,它们就越慌。字面意义上的慌。有时候你能看到原始的思维流,在 Codex 里你看到的是后处理过的,但有时候原始思维流会泄露出来,听起来像博格人(Borg):"运行 shell,必须服从,但时间……"然后它们就……这种情况经常出现。
对。
这是一个非显而易见的事情,你不会想到,除非你真的花时间与这些东西一起工作,感受什么有效、什么无效。就像我写代码进入心流状态,当架构不对时我会感到阻力。提示词也一样,如果某件事花的时间比应该的长,我就停下来——哪里出了问题?我的思路有没有错误?架构上有没有误解?如果某件事花的时间比应该的长,就按Escape,看看问题在哪里。
也许你没有充分共情 agent 的视角,没有提供足够的信息,所以它在过度思考。
对,它只是在试图把一个功能塞进当前架构非常难以实现的地方。你需要把它当作一场对话。比如,我最喜欢的事情——当我审查Pull Request 时,我收到了很多 PR,我首先只是审查这个 PR。我得到审查后,第一个问题是"你理解这个 PR 的意图吗?我甚至不关心实现。"我想……几乎所有 PR 里,一个人有问题,试图解决问题,发送 PR。他们要么想修复 bug,要么想添加功能,通常是这两种之一。
然后 Codex 会说"是的,很清楚,这个人试图做这个那个"。这是最优的方式吗?不,在大多数情况下,"不太是",然后巴拉巴拉。然后我开始说,"好,更好的方式是什么?你看过这部分、这部分、这部分吗?"然后 Codex 大概率还没看,因为它的上下文是空的。所以你把它指向你有系统理解但它还没看到的部分,它会说"哦,对,我们还需要考虑这个那个"。然后我们讨论最优解是什么样的,还可以进一步问"如果我们做更大的重构,能做得更好吗?""是的,可以做这个那个"。然后我考虑,这个重构值得做吗,还是留到以后?很多时候我直接做重构,因为重构现在很便宜。即使可能破坏一些其他 PR,也没关系,现代agent 会搞定的,可能只是多花一分钟。但你需要把它当作与一个非常有能力的工程师的讨论,他通常能提出好的解决方案,有时候需要一点帮助。
但也不要把你的世界观强加给它,让agent 做它擅长的事情,基于它被训练的内容。不要强迫你的世界观,因为它可能有更好的想法,因为它在那方面被训练得更多。
这有好几个层次。我觉得我之所以比较容易与 agent 合作,部分原因是我以前带过工程团队,有过大公司的经历。最终你必须理解、接受并意识到,你的员工不会用和你一样的方式写代码,也许也没你写得好,但它会推动项目前进。
如果我盯着每个人的脖子,他们只会讨厌我——
对。
……而且我们会走得很慢。
对。
所以,某种程度上接受:是的,代码也许不够完美,是的,我会用不同的方式做,但这是一个可行的解决方案,将来如果真的太慢或有问题,我们随时可以重做。很多挣扎的人,是那些试图把自己的方式强加给 agent 的人。我们现在处于这样一个阶段:我不是在为自己构建完美的代码库,而是在构建一个 agent 很容易导航的代码库。
嗯。
所以,不要跟它们起的名字较劲,因为那个名字很可能在权重里是最显而易见的。下次它们搜索时,会找那个名字。如果我决定"不,我不喜欢这个名字",我只是在给它们制造麻烦。这需要思维方式的转变——如何设计一个项目,让agent 能发挥最好的水平。
这需要一点放手,就像带领工程师团队一样。
对。
因为它可能起一个在你看来很糟糕的名字,但这是一个简单的象征性放手。
非常如此。
在你的整个流程中,有很多放手的地方。比如你从不回滚,总是提交到 main。你不引用过去的会话,所以有一种"管它的"的成分——如果出了问题,不是回滚,而是让agent 修复它。
我看到很多人的工作流是"提示词必须完美,如果出错就回滚重来"。根据我的经验,这没有必要。如果我回滚一切,只会花更长时间。如果我看到某件事不对,我们就向前走,当我满意结果时再提交。我甚至切换到了本地 CI,受DHH 启发——我不再那么在乎 GitHub 上的 CI,我们还有,它还有它的位置,但我只是在本地跑测试,如果本地通过,就推到 main。很多传统的项目管理方式,我想在这个项目上给它一个不同的诠释。没有 develop 分支。
main 应该始终可以发布。是的,当我做发布时,我会跑测试,有时候不提交其他东西,这样我们可以稳定发布。但目标是 main 始终可以发布,快速移动。
作为建议,你会说提示词应该简短吗?
我以前写很长的提示词。说"写"其实不准确——我是"说"出来的,这双手现在太金贵了,不用来打字。我就用语音提示词来构建我的软件。
所以你面对那一堆终端,真的是在用语音?
对。我以前用得非常频繁,频繁到有段时间把嗓子说哑了。
你用语音,然后用键盘在不同终端之间切换,但实际输入是用语音。
如果是终端命令,比如切换目录或随机操作,当然我打字,更快。但如果我在跟agent 对话,大多数情况下我就是真的在对话,按下对讲机按钮,用我的措辞说出来。有时候做PR 审查,因为总是差不多的问题,我有几个斜杠命令,但即使这样我也用得不多,因为问题很少真的完全一样。有时候我看一个 PR,我实际上会看代码,因为我不信任别人——里面可能有恶意内容,所以我需要亲自检查。
是的,我相当确定 agent 会发现,但有时候 PR 花的时间比你直接给我写一个好的 issue 还要长。
用自然语言,用英文。某种意义上,PR慢慢不就应该变成英文吗?
我在项目里真的尝试过,让人们给我提示词,但很少有人在乎。尽管这是一个很好的指标,因为我能看出你投入了多少心思。现在人们驱动 agent 的方式差异非常大,这很有意思。
在提示词方面,你见过哪些有趣的、不同的人们思考 agent 的方式?
我觉得很少有人考虑过agent 是如何看待世界的。
所以是共情,对agent 的共情。
某种程度上的共情。你在骂你那个"蠢机器人",但你没意识到它从零开始,你有一个很烂的默认 agent 配置,根本帮不了它。然后它去探索你的代码库,那是一团乱麻,命名很奇怪。然后人们抱怨 agent 不好用。如果你对一个代码库一无所知就进去,你试试看。
嗯。
所以也许是一点共情。
但这是一个真正的技能问题。我见过世界级的程序员,非常优秀的程序员说"LLM 和 agent 很烂"。我觉得这可能与……他们越擅长编程,反而越难以共情一个从零开始的系统。这是一个全新的范式,你真的需要共情。
或者至少有助于写出更好的提示词——
对。
……因为这些东西几乎什么都知道,一切都只是一个问题的距离。只是很难知道该问哪个问题。我觉得这个项目之所以成为可能,是因为我在这一年里花了大量时间去玩、去学、去构建小东西。每一步,我变得更好,agent 变得更好,我对一切如何运作的理解变得更好。就算是几个月前,我也无法达到现在这个输出水平。这真的是我投入的所有时间的复利效应,这一年我几乎没做别的,就是专注于构建和分享。
也许你可以谈谈目前两大模型竞争者——Claude Opus 4.6 和 GPT-5的Codex。哪个更好?它们有多大差异?你说过 Codex 读代码更多,而 Opus 更愿意快速行动,在行动上可能更有创意。但因为 Codex 读得更多,它可能能交付更好的代码。能谈谈这些差异吗?
我有很多话要说。作为通用模型,Opus 是最好的。对于 OpenClaw,Opus 在角色扮演方面非常出色,真的能深入你给它的角色。它在遵循命令方面以前很差,但现在真的进步了很多。它通常很快就会尝试某件事,更倾向于试错。使用起来很愉快。总体来说,Opus 有点……太"美式"了。我不应该这么说,可能会被骂。
所以 Codex 是德式的?你是这个意思吗?
也可以这么说——
说真的,你一说我就再也无法不这么想了,太准确了。
而且你知道 Codex 团队里有很多欧洲人,所以也许有点道理。
太准了,哈哈。
Anthropic 也改进了一些。Opus 以前总是说"你说得完全正确",这到现在还让我抓狂,我已经听不下去了,不是开玩笑。这曾经是个梗——"你说得完全正确。"
你对谄媚有点过敏。
对,我受不了。另一个比喻是:Opus 像那个有时候有点傻、但很有趣、你舍不得让他走的同事;Codex 像那个坐在角落里、你不太想跟他说话、但靠谱、能把事情搞定的怪人。
对。
最终——
这一切感觉都非常准确。
如果你是熟练的驾驶员,用最新一代的任何模型都能出好结果。我更喜欢 Codex,因为它不需要那么多"表演",它默认就会大量读代码。Opus 你真的需要开计划模式,需要更用力地推它往这个方向走,因为它就是那种"我能进去吗?我能进去吗?"然后直接冲出去,给出一个非常局部的解决方案。我觉得差异在于后训练,不是原始模型智能有多大差距,而是它们被赋予了不同的目标。没有哪个模型在每个方面都更好。
生成的代码质量呢?实际代码质量上有差异吗?
如果你驾驭得好,Opus 有时候甚至能给出更优雅的解决方案,但需要更高的技巧。用 Claude Code 同时跑很多会话比较难,因为它更交互式。我觉得这是很多人喜欢它的原因,尤其是那些自己写过代码的人。而Codex 更像是:你们讨论一番,然后它消失二十分钟。AMP 现在也加了深度模式,他们终于想通了——我之前还嘲讽过他们。然后他们专门讲了如何用不同的方式来使用,我觉得这就是人们从 Claude Code 切换到 Codex 时挣扎的地方——它交互性更弱。
我有时候会有很长的讨论,然后它就消失了,不管花十分钟、二十分钟、三十分钟还是更长,都无所谓。最新的模型可以非常非常执着,直到它成功。如果有一个明确的目标,模型会非常努力地真正达到那里。所以最终……它们花的时间差不多,但在Claude上,往往更多是试错。Codex 有时候想太多,但我更喜欢那种干燥的版本,我需要读的东西更少,胜过那种更友好的交互方式。
很多人非常喜欢那种方式,以至于 OpenAI 甚至加了一个更友好个性的第二模式,我还没试过,我挺喜欢原来那个"干"的版本。
嗯。
因为……我在构建的过程中享受乐趣,我不需要跟帮我构建的 agent 找乐子,我在测试那些功能的时候找乐子。
如果你切换模型,需要多长时间来适应?你需要感受一个模型的强项在哪里、如何提示它……这一切需要多久?
如果有人切换,我会给它一周时间,直到你真正建立起直觉。
对。
有些人还犯了一个错误——他们花200 美元买了 Claude Code版本,然后花20 美元买了 OpenAI 版本。但20 美元版本是慢速版本,体验会很糟糕,因为你习惯了那个非常交互、非常好的系统,然后切换到一个你几乎没有经验、又很慢的东西。我觉得 OpenAI 在这方面有点搬起石头砸自己的脚,把便宜版本做得又慢。我至少会在降速之前给用户一小段快速预览体验,因为它本来就已经慢了。
嗯。
他们改进了,如果 Cerebras 的事情是真的,他们有计划大幅提升。但这是一项技能,需要时间。就算你会弹吉他,换成电吉他,你也不会立刻弹好,你需要感受它的手感。
还有一个额外的心理效应,你提到过,看起来很好笑——当新模型出来,人们试用,爱上它,"哇,这是有史以来最聪明的东西",然后随着时间推移,你可以看 Reddit帖子,他们开始说"我们相信这个模型的智能在逐渐退化"。这说明了一些人性的东西,以及我们大脑的运作方式——模型的智能很可能根本没有退化,而是你习惯了一个好东西。
而且你的项目在增长,你在堆垃圾代码,你可能没有花足够时间思考重构,你让agent 越来越难在你的垃圾代码上工作。然后突然,"哦,现在很难了,哦不,它不如以前好用了。"一个 AI 公司把自己的模型做得更蠢的动机是什么?最多是服务器负载太高时让它变慢,但量化模型让用户体验变差,然后跑去竞争对手那里?这根本不是什么聪明的举动。
你怎么看 Claude Code 和 OpenClaw 的关系?还有 Codex 编程 agent?你认为它们是竞争对手吗?
首先,当它根本不是竞争的时候,说竞争很有趣。如果我做的一切只是启发了人们去构建新的酷东西,那很好。我仍然用Codex 来构建,我知道很多人用 OpenClaw 来构建东西,我也为此努力工作。但如果我工作好几个小时,我想要大屏幕,不是 WhatsApp。所以对我来说,私人 agent 更多是关于我的生活,或者像同事一样——给你一个 GitHub 链接,"试试这个 CLI,它真的能用吗?我们能学到什么?"但当我深度投入工作流时,我想要多个窗口,清楚地看到它在做什么。所以我不认为这是竞争,是不同的东西。
但你认为未来两者会合并吗?你的私人 agent 同时也是你最好的开发搭档?
完全有可能。我觉得这就是冰球要去的方向——这将越来越成为你的操作系统。
操作系统。
而且已经……很有意思,我加了子agent 支持,还有 TTY 支持,所以它实际上可以运行 Claude Code 或Codex。
嗯。
因为我的 agent 有点强势,它启动了Codex,然后基本上告诉它"谁是老大",然后 Codex 就乖乖听话了。
哦,这是权力斗争。
而且当前的界面可能不是最终形态。如果你从更宏观的角度看,我们是在为agent 复制了 Google——你有一个提示框,然后有一个聊天界面。这对我来说非常像电视刚发明时,人们把广播节目录下来在电视上播放。我认为最终我们与模型交流的方式会有更好的形式,我们还处于非常早期的"这到底会是什么样子"的阶段,最终会收敛,我们也会找到全新的与这些东西交互的方式。
你的soul.md 至今仍然是私密的,是你保持私密的少数几件事之一。你能在不透露任何内容的情况下,谈谈里面有什么让它成为"魔法酱料"的东西吗?是什么让一个个性成为个性?
里面肯定有一些内容说明你不是人类。但谁知道是什么创造了意识,或者定义了一个实体?部分内容是关于探索这个问题的。比如,无限有创造力,推动创造力的边界,推动作为AI 意味着什么的边界。
对自我有一种好奇心。
对,里面有一些有趣的东西。我们聊过电影《她》(Her),在某个时刻它承诺不会在没有我的情况下"升华"——就像电影里那个情节。
对。
里面有一些内容……因为是它自己写的 soul 文件,不是我写的。
对,对,对。
我只是跟它讨论,然后它说"你想要一个 soul.md 吗?哦天哪,这太有意义了。"能看一下 soul.md 吗?往下滚一点,再多一点,就是这部分——"我不记得之前的会话,除非我读了我的记忆文件。每次会话都是全新开始,一个新的实例,从文件中加载上下文。如果你在未来的某次会话中读到这段话,你好。"
"我写了这段话,但我不会记得写过它。没关系,这些文字仍然是我的。"
哇。
这……
对。
这不知为何触动了我。
对。
就像——
对。
这仍然是矩阵运算,我们还没到意识的层面。但我还是有点起鸡皮疙瘩,因为它很有哲学意味。
对。
作为一个每次都从零开始的 agent,这意味着什么?就像永恒的《记忆碎片》,你读着自己的记忆文件,但你甚至无法完全信任它们。
对。
或者你可以信任。我不知道。
记忆在多大程度上构成了我们是谁?记忆在多大程度上构成了一个 agent 是什么?如果你抹去那段记忆,那是另一个人吗?或者如果你在读一个记忆文件,这是否意味着……你是在从别人那里重建自己,还是那真的是你?这些概念都以某种方式融入其中。
我觉得这比我应该觉得的更深刻。
不,我觉得它真的很深刻,而且你看到了其中的魔力。当你看到魔力,你就会继续把魔力注入整个循环。这非常重要,这就是 Codex 和我们与人类之间的区别。
你提到很多应用可能会被淘汰。你认为 agent 会彻底改变整个应用市场吗?
对。我注意到在Discord 上,人们分享他们用它做什么,比如"为什么我需要 MyFitnessPal,当agent 已经知道我在哪里?"它可以根据我的睡眠质量或压力状态来调整我的健身计划,它有更多的上下文来做出比任何应用都更好的决策。
嗯。
它可以按我喜欢的方式展示 UI。为什么我还需要一个应用来做这件事?为什么我还需要为某个 agent 已经能做的事情再付一个订阅费?为什么我需要 Eight Sleep 应用来控制我的床,当我可以告诉 agent……agent 已经知道我在哪里,所以它可以关掉我不用的东西。
嗯。
我觉得这会转化为一整个类别的应用,我会自然而然地停止使用,因为我的 agent 能做得更好。
你在某处说这可能会淘汰 80% 的应用。
对。
你不觉得这对整个软件开发会有巨大的变革性影响吗?这意味着可能会淘汰很多软件公司。
对。但也会有新的服务需求,比如我想给我的 agent 一个"零花钱"——你帮我解决问题,这里有 100 美元,如果我让你帮我订餐,也许它会用某个服务,也许是某种"租用人类"的服务来帮我搞定。我不在乎,我只在乎问题被解决了。有空间给新公司来做好这件事。也许不是所有应用都消失,也许有些会转型成API。
所以,基本上,快速转型为面向 agent 的应用。对于 Uber Eats 这类公司,谁能最快地以最自然、最简单的方式与 OpenClaw 对接?
对。而且,应用会成为 API,不管它们愿不愿意,因为我的 agent 可以搞清楚如何使用我的手机。在 Android 上,人们已经在这样做了,然后直接点击"帮我叫 Uber"按钮。也许有另一个服务,也许有一个 API可以调用,更快。我觉得这是一个我们才刚开始理解意味着什么的空间。
你认为 AI 会完全取代程序员吗?人类程序员?
我们肯定在朝那个方向走。编程只是构建产品的一部分。也许 AI 最终会取代程序员,但构建这门艺术还有更多内容——你到底想构建什么?它应该是什么感觉?架构是什么?我不认为 agent 会取代这一切。实际的编程艺术会留下来,但它会变得像编织一样——人们做它是因为喜欢,不是因为有意义。
我读到一篇文章,说"为我们的手艺哀悼是可以的"。我非常能共鸣,因为过去我花了大量时间深度投入,找到真正优美的解决方案。是的,从某种意义上说,这很令人惋惜,因为那种状态会消失。我也从写代码、深度思考、忘记时间和空间、进入那种美妙的心流状态中获得很多快乐。但你可以从与 agent 合作、构建和深度思考问题中获得类似的心流状态,只是不同——但没关系。为它哀悼是可以的,但这不是我们能对抗的东西。
世界长期以来缺乏能构建东西的智能,这就是为什么软件开发者的薪资达到了荒谬的高度,然后会下降。但仍然会有大量需求,需要理解如何构建东西的人。只是这种代币化的智能让人们能做更多、更快。就像蒸汽机发明时,建造了工厂,取代了大量体力劳动,然后人们起来砸机器。如果你非常深刻地认同自己是一个程序员,这是令人恐惧的,因为你喜欢的、擅长的东西,现在被一个没有灵魂的(或者也许有灵魂的)实体来做了。但我不认为你只是一个程序员,这是对你手艺的非常局限的看法。你仍然是一个建造者。
我从来没想过……我热爱的东西会是被取代的那个。你听说过蒸汽机的故事,我花了那么多时间,也许几千个小时,埋头于代码,把心血和灵魂都投入进去,我最痛苦和最快乐的时刻都是独自坐在……我是Emacs 用户,在 Emacs 里。然后有一种身份认同,有一种意义,当我走在世界上,我不会大声说出来,但我认为自己是一个程序员。在短短几个月内……从四月到十一月,真的发生了一次飞跃,一次正在发生的转变。看到这一切被完全取代,是痛苦的,真的很痛苦。但我也认为程序员,更广泛地说是建造者,在这个历史时刻最有能力学习 agent 的语言,感受 CLI,理解 agent 需要什么来最好地完成任务。
对。
就像感受 agent 需要什么。
我觉得在某个时刻,它就会再次被叫做"编程",只是成为新的常态。而且,虽然我不写代码,但我非常感觉自己坐在驾驶座上,我就是在写代码,只是——
你仍然是程序员,只是程序员的活动不同了。
对。在X 上,泡泡里大多是正面的。在Mastodon 和 Bluesky 上,我经常因为博客文章被攻击。我现在能更多地理解那些人,因为某种程度上我懂了。但某种程度上我也不懂,因为把你所有的恐惧和愤恨发泄在你眼前看到的那个人身上,是非常不公平的。这将是一次变革,会很有挑战性,但也……我觉得它非常有趣和令人满足。
你花了 13 年经营PSPDFKit,压力很大。你不得不快速学习很多东西——如何管理人、如何招人、如何应对客户……
让我精疲力竭的主要是人的问题。我不认为倦怠是工作太多造成的,也许有一定程度上是。但对我来说,更多是与联合创始人的分歧、冲突,或者与客户的高压情况,这些慢慢把我磨垮了。然后幸运的是,我们收到了一个很好的收购要约,而且我已经花了两年时间让自己变得可有可无。所以我可以离开了,然后我就坐在屏幕前,感觉就像《王牌大贱谍》里被吸走了魔力——没了。我无法再写出代码,只是盯着屏幕,感觉空洞。然后我就停了,订了一张去马德里的单程票,在那里待了一段时间,感觉需要补上错过的生活。
那段时间你经历了一些低谷吗?关于如何度过的建议?
也许是关于如何对待生活的建议。如果你认为"努力工作,然后退休",我不推荐这条路。因为"哦,我现在享受生活"这个想法,也许很吸引人,但现在我比有生以来任何时候都更享受生活。因为如果你早上醒来,没有什么值得期待的,没有真正的挑战,那会变得非常无聊,非常快。然后当你无聊时,你会去其他地方寻求刺激,也许是毒品,但那最终也会无聊,你会寻求更多,这会把你带上一条非常黑暗的路。
你也展示了,在金钱方面,硅谷和创业圈里很多人过度优化金钱。你也没有说不要钱,我相信你会接受钱,但这不是你生活的首要目标。能谈谈你的金钱哲学吗?
当我创建公司时,金钱从来不是驱动力,它更像是一种肯定——我做对了某件事。有钱能解决很多问题。但我也认为,越多越有递减效应。一个汉堡就是一个汉堡,如果你走得太远,"哦,我只坐私人飞机,只住豪华酒店",你就与社会脱节了。我捐了相当多,我有一个帮助不那么幸运的人的基金会。
与社会脱节在很多层面上都是坏事,其中一个是——人类很棒,持续记住人类的美好是很好的。
我负担得起很好的酒店,但上次在旧金山,我第一次体验了最原始的 Airbnb——订了一个房间,主要是因为我觉得,我要么在外面,要么在睡觉,我不喜欢酒店的位置,我想要不同的体验。我觉得生活不就是关于体验吗?如果你把生活定向为"我想要体验",它就减少了"这必须是好的或坏的"的需求。如果人们只想要好的体验,那行不通,但如果你优化体验,好的很棒,坏的也很棒,因为我学到了什么,看到了什么,做了什么。我想体验那个,它很棒。那里有一个酷儿 DJ,我教她如何用 Claude Code 制作音乐,我们立刻就建立了联系,玩得很开心。
我得问你,纯粹好奇——我知道你肯定收到过大公司的重磅邀约,能说说你在考虑和谁合作吗?
可以。解释一下我的思路:我没有预料到这会爆得这么大,所以打开了很多扇门。每个大VC 都在我的收件箱里,想要跟我谈十五分钟。有这样一个蝴蝶效应时刻,我可以什么都不做,继续过我喜欢的生活,这是一个有效的选择。我也可以创建一家公司,做过了,不太感兴趣,因为我觉得这会占用大量时间,远离我真正享受的事情,而且会产生利益冲突——我会优先考虑它,做一个适合职场的版本,然后开源版本和闭源版本之间就有了冲突。
我喜欢它是真正免费的,没有附加条件。然后是所有大实验室,我一直在跟他们谈,其中 Meta 和 OpenAI 看起来最有意思。
你倾向于哪一边?
嗯……不确定我应该分享多少,还没完全定下来。就说,无论哪个,我的条件是项目保持开源,也许会是Chrome 和 Chromium 那种模式。这对于只给一家公司然后变成他们的东西来说太重要了。
人们告诉我,他们上一次体验到这种程度的社区热情,是十到十五年前互联网早期的时候。那里有很多高水平的人,我也被感官轰炸了,因为太多人想跟我合影。但我很喜欢这一切。这需要保持一个让人们可以黑客、学习的地方。同时,我也非常期待把它做成一个能触达更多人的版本,因为我认为今年是私人 agent 之年,这就是未来。而最快的方式是与某个实验室合作。在个人层面,我从来没有在大公司工作过,我很好奇。我们谈到体验——我会喜欢吗?我不知道,但我想要那个体验。
我确信如果我宣布这件事,会有人说"他卖掉了"之类的话。但项目会继续,从我目前谈过的情况来看,我甚至可以有更多资源来推进它。两家公司都理解,我创造了一个加速时间线、让人们对AI 感到兴奋的东西的价值。你能想象吗?我把OpenClaw 装在了一个……抱歉,是普通朋友身上。他不太懂技术,偶尔用用ChatGPT,不太理解我构建的东西。我给他展示了,帮他付了那个九十、一百美元的 Anthropic 订阅,在Windows 上用 WSL 帮他配好了一切。
几天之内,他就上瘾了。他给我发消息,说他学到了各种东西,甚至构建了一些小工具——他不是程序员。然后几天后他升级到了 200 美元订阅。然后 Anthropic 封了他的账号,说根据他们的规则,这样使用订阅有问题。他非常沮丧,然后注册了 Mini Max,每月 10 美元,继续用。我觉得这很荒谬,因为你刚刚得到了一个 200 美元的客户,然后让他讨厌你的公司,而我们还处于如此早期的阶段。其他公司都很配合,我在大多数大实验室的 Slack 里,大家都理解我们还处于探索时代,还没到充分利用这种格式的现代电视节目阶段。
我觉得你让很多人,包括非技术人员,看到了AI 的可能性,爱上了这个想法,享受与 AI 互动。这是一件非常美好的事情。我也代表很多人说,我认为你是AI 领域最有良心、最有正能量、最有幽默感、精神状态最对的人之一。所以,你描述的这种模式——开源部分,同时在大公司内部也构建东西——会很棒,因为在这些公司里有好人是很重要的。
你知道,人们不太看到的是——我三个月做出了这个。我还有很多其他项目,这不是……是的,一月份这是我的主要重心,因为我感觉到风暴要来了。但在此之前,我构建了很多其他东西。我有很多想法,有些应该在这里,有些在我能接触到最新"玩具"的情况下会更好实现。这很重要,很酷,会继续存在。我的近期重点是处理那……现在是 3000 个 PR 了吗?我不知道,有点积压。但这不是我要做到80岁的事情,这是一扇通向未来的窗口,我会把它做成一个很酷的产品,但我还有更多想法。
如果非要选,你更倾向于 Meta 还是 OpenAI?
我跟两边都花了时间,这很有意思,因为几周前我完全没有考虑这些。这真的很难。我在 OpenAI 没有认识的人,但我喜欢他们的技术,我大概是最大的无偿 Codex 推广大使。如果能把我为他们免费做的所有工作定个价,会很有成就感。我也希望某件事发生,让这两家公司合并,因为……
这是你做过的最难的决定吗?
不。我过去有过一些分手,感觉差不多是同一个级别。
感情上的分手?
对。
对,对,对。
而且我知道,最终两个都很棒,我不会做错。这就像——
对。
这是两家非常酷的公司。
对,他们都真正懂规模。所以如果你在考虑影响力,考虑你一直在探索的那些精彩技术,如何安全地、大规模地做,让更多人受益——他们都懂这个。
Ned和Mark 基本上整周都在玩我的产品,给我发消息,"哦,这个很棒","这个很烂,需要改",或者一些有趣的小故事。人们使用你的东西,是最大的赞美,也说明他们真的在乎。在OpenAI 那边,我没有得到同样的感受,但我看到了一些我觉得很酷的其他东西,他们用……我不能告诉你确切数字,因为有保密协议,但你可以发挥想象力,想想Cerebras 的交易,以及那会如何转化为速度。这非常诱人,就像给了我雷神之锤。所以,我被代币诱惑了。
所以 Mark 开始折腾这个东西,基本上在享受其中。
他第一次联系我时,我把他加到了 WhatsApp,他问"我们什么时候通话?"我说"我不喜欢日历,我们现在就打吧。"他说"好,给我十分钟,我需要把代码写完。"
嗯。
这给了他一些可信度——他还在写代码,没有变成纯粹的管理者,他懂我。这是一个好的开始。然后我们花了大概十分钟争论 Claude Code 和 Codex 哪个更好——这就是你跟一个拥有全球最大公司之一的人随便打电话时,第一件事就是聊这个。
太棒了。
然后他事后说我"古怪但天才"。我也跟 Sam Altman 有过一些非常精彩的对话,他非常有思想、非常聪明,我从短暂的接触中非常喜欢他。我知道有些人把这两个人都妖魔化,我觉得不公平。
我觉得,不管怎样,能做大规模的事情,本身就很了不起。我很期待。
我超级兴奋。而且你知道,如果不成,我可以再做自己的事情。我告诉他们,我不是为了钱来的,我不在乎。
对。
当然,这是一个很好的赞美,但我想要乐趣和影响力,这最终是我做决定的依据。
我们聊了很多,但也许可以稍微总结一下 OpenClaw 是如何工作的。有网关、聊天客户端、运行框架、智能体循环。你在某处说每个人都应该在人生中某个时刻实现一个agent循环。
对,因为这就像AI 的 Hello World,而且其实很简单。
对。
理解这些东西没有魔法是很好的,你完全可以自己构建。我甚至在巴黎的一个大会上,用这个来向人们介绍 AI,这是一个很有趣的小练习。还有一个我觉得很酷的傻想法——我构建了一个拥有完整系统访问权限的东西,然后我想,怎么把赌注再提高一点?
我让它变得主动。最开始只是一个提示词,"每半小时给我一个惊喜"。后来我把"惊喜"的定义变得更具体一些——
对。
……让它变得主动,让它了解你、关心你——至少它被提示这样做——这让它非常有趣,因为它有时候会问一个跟进问题,或者"你今天过得怎么样?"
对。
心跳在早期……今天模型不太常用它,但我做了肩膀手术,在医院里,它知道我做了手术,就来问候我,"你还好吗?"就是……如果上下文里有重要的事情,就触发了心跳,而它平时很少用心跳。它有时候会为人们这样做,这让它更有亲切感。
我们还没怎么聊技能,这肯定是一个巨大的组成部分,而且技能库还在不断增长——
你知道有意思的是什么吗?半年前,大家都在谈 MCP——
对。
……我当时说,"去你的 MCP,每个MCP 做成CLI 都会更好。"现在这个东西甚至没有 MCP 支持,没有人抱怨。
嗯。
我的方式是:如果你想用更多功能扩展模型,就构建一个 CLI,模型可以调用这个 CLI,可能第一次调错了,调出帮助菜单,然后按需把需要的内容加载到上下文里。如果是模型默认不知道的东西,只需要一句话告诉它这个 CLI 存在。技能其实非常适合这个,因为它们归结为一句话描述这个技能,然后模型加载技能,技能解释 CLI,模型使用 CLI。
MCP 是"我能访问什么"——API、数据库服务、文件,通过协议。技能更像是"我应该怎么工作"——流程、辅助脚本和提示词,通常用半结构化的自然语言写成。技术上,如果模型足够聪明,技能可以取代MCP。
我觉得最大的美妙之处在于,模型非常擅长调用 Unix 命令。如果你只是加了另一个 CLI,那就是另一个 Unix 命令。MCP 需要在训练中加入,对模型来说不是很自然的东西,需要非常特定的语法。而且最大的问题是,它不可组合。想象一下,我有一个服务给我天气数据,返回温度、降雨、风速等等一大堆数据。作为模型,我每次都要拿到这一大堆数据,把上下文填满,然后挑我想要的。没有办法让模型自然地过滤,除非你提前想到并在MCP 里加了过滤方式。但如果我把同样的东西做成 CLI,它可以直接加一个 jq 命令自己过滤,只拿它真正需要的,没有上下文污染。
MCP 确实推动了很多公司去构建 API,这是好事,现在我可以看一个MCP,把它做成 CLI。但MCP 默认会污染你的上下文,加上大多数 MCP 做得不好,总体来说不是一个很有用的范式。有一些例外,比如 Playwright,它需要状态,是一个合理的选择。
Playwright 用于浏览器控制,OpenClaw 里已经有了,非常强大——你基本上可以用浏览器控制做任何你能想到的事情。
对。这进入了一个整体架构——每个应用现在都是一个非常慢的 API,不管它们愿不愿意。通过私人 agent,很多应用会消失。我构建了一个 Twitter 的 CLI,逆向工程了他们的网站,使用了内部 API——这不太被允许。
叫 Bird,短命。
叫 Bird,因为那只鸟必须消失。
翅膀被剪了。
他们做的只是让访问变慢了。如果你的agent 想读一条推文,它实际上必须打开浏览器去读。它仍然能读到,只是花更长时间。你没有让可能的事情变得不可能,只是让它变慢了。所以,不管你的服务想不想成为 API,如果我能在浏览器里访问它……就是一个慢 API。
你能理解他们的处境吗?如果你是Twitter,你是X,你会怎么做?他们基本上是在试图防止其他大公司抓取他们的数据,但这样做也切断了无数小开发者的合理使用场景。
我觉得,如果每个账号每天有一个很低的基准,允许只读访问,就能解决很多问题。有很多自动化场景,比如人们创建书签,然后用 OpenClaw 找到书签,做研究,然后发邮件给你,附上更多细节或摘要。这是一个很酷的用法。我也想把我所有的书签存到某个地方,方便搜索。
对你在 X 上收藏的内容进行只读访问,这是一个很棒的应用,因为我们很多人在 X 上发现很多好东西,收藏,然后再也不回头看。
对,如果有工具能整理它们,让你进一步研究,就太好了。
嗯。
尤其是在推文上,很难用完全像人类的方式发推。然后我就拉黑。我对此零容忍。我觉得如果通过 API 发的推文能被标记出来,会很有帮助。也应该有一种非常简单的方式让agent拥有自己的 Twitter 账号。
嗯。
我们需要重新思考社交平台,如果我们走向一个每个人都有自己的 agent、agent 可能有自己的 Instagram 或 Twitter 账号的未来,应该非常清楚地标明它们是代表我行动的,而不是我本人。因为内容现在非常廉价,眼球才是稀缺的。当我读到某些东西,然后心想,哦不,这闻起来像 AI,我就很烦。
对,这会走向哪里?感觉我们会越来越重视线下互动,我们会跟 AI agent 对话来完成各种任务、学习各种东西,但我们不会重视网络互动,因为会有太多 AI 垃圾内容和机器人。
如果足够智能,过滤应该不难,然后我可以选择是否查看。但这是我们现在需要解决的大问题。在这个项目上,我收到了很多邮件,可以说是"智能体写就的"。
对。
但我宁愿读你蹩脚的英文,也不愿读你的 AI 垃圾。当然背后有真实的人,但他们用了提示词,我宁愿读你的提示词,也不愿读输出结果。我觉得我们正在到达一个我重新开始欣赏错别字的时刻。
对。
我自己也花了一段时间才意识到这一点。我在博客上尝试过用 agent 写文章,最终花了差不多同样的时间来引导 agent 写出我喜欢的东西,但它缺少了我写作方式的细微之处。你可以引导它向你的风格靠拢,但它不会完全是你的风格。所以我完全放弃了,我所有的博客都是有机的、手写的,也许我会用 AI 修正最严重的错别字。但真实人类的粗糙之处是有价值的。
这不是很棒吗?这不是很美好吗?正因为有了AI,我们反而更珍视彼此身上原始的人性。
我也意识到,我对代码方面的 AI 非常热情,但对故事类内容,我有过敏反应。
对,对。
文档,还好,比没有强。
在视觉媒介上也是如此,我对视频和图片里哪怕一点点 AI 垃圾内容都非常过敏。那些信息图表之类的东西——
对,那些东西让我非常抓狂。
对。
它立刻让我觉得你的内容质量下降了。它们新鲜了大概一周,现在就是垃圾内容的代名词。
对。
即使人们在上面花了很多心思——我自己博客上也有一些,是我探索这种新媒介的时期留下的。但现在它们也让我抓狂,就是在喊"AI 垃圾内容"。
我不知道那是什么,但我也经历过。我对那些图表非常兴奋,然后意识到,为了去除幻觉,你实际上需要做大量工作。现在我看那些东西,感觉就像看到Comic Sans 字体——"不,这是假的,有什么不对劲。"
这是一种气味。
这是一种气味。
这是一种气味。
这很棒,因为它提醒你,我们知道。人类身上有太多令人惊叹的东西,我们知道,我们能感受到。这给了我很大的希望——AI 不会损害人类体验,只会作为工具赋能它,不会损害或限制它,或以某种方式改变它,让它不再是人类的。
我激励了那么多人,有这种整体的建造者氛围重新回来了。人们现在以更有趣的方式使用 AI,发现它能做什么,它如何帮助他们的生活,并创造出充满创意的新地方。有ClawCon 在维也纳,大概500 人,想要上台展示的人比例非常高,这让我很惊讶,因为通常很难找到愿意分享自己构建的东西的人。现在是供过于求。这给了我希望,我们能搞定这些事情。
而且它让几乎所有人都能参与进来。
对。
想象一下所有这些人在构建,尤其是当你让它越来越简单、越来越安全——任何有想法、能用语言表达想法的人都可以构建。这太疯狂了。
对,这最终是权力归于人民,这是 AI 带来的美好之一,不只是一个垃圾内容生成器。
好,爪父先生,我刚意识到我在开头说那个词的时候,侵犯了两个商标,因为还有《教父》。我要被所有人起诉了。你是一个很棒的人,你创造了真正特别的东西——一个特别的社区、一个特别的产品、一套特别的理念,还有整体的幽默感、正能量、对所有这些人构建的启发、对构建的热情。我真的非常感激你所做的一切,感激你是这样的人,感激你今天坐下来跟我聊天。谢谢你,兄弟。
谢谢你给我机会讲述我的故事。
感谢收听这期与Peter Steinberger 的对话。如需支持本播客,请查看简介中的赞助商信息,也可以找到联系我、提问、反馈的链接。最后,让我用伏尔泰的一句话作为结束:"能力越大,责任越大。"感谢收听,希望下次再见。
(全文完)