龙虾“黑入”卡帕西家的智能家居系统：本来需要控制六个软件，现在用WhatsApp就能操控

西风发自凹非寺量子位 | 公众号 QbitAI大神卡帕西自曝自己2026年几乎没写过一行代码，全都让智能体干了！他感叹，自12月以来，软件开发的常规工作流程已经彻底变了。他还用自己的龙虾打理自家的智能家居系统，本来需要控制六个专用App，现在一个都不用打开。特斯拉前AI总监、OpenAI创始成员Andrej Karpathy（卡帕西），近期做客播客节目《No Priors》，讨论了当下模型能力局限、autoresearch构想、开源模型与闭源模型、MicroGPT与智能体驱动的教育变革等一系列问题。网友看过后直呼鹅妹子嘤～其分享的有意思的观点包括：编程现在成了个人能力问题，要是你还没法让AI替你写代码，那问题出在你自己身上。每天要用多个智能体连续工作16小时。只要订阅额度还有剩余，没能充分利用token，就会感到焦虑。分布式智能体集群协同工作，人们共享算力，甚至有可能超越那些顶尖实验室。龙虾逆向破解了家里整套智能家居系统，他现在通过WhatsApp就能操控所有设备。本以为项目参数已经调得相当完美了，没想到autoresearch运行一整晚，又发现了问题。自动化模式只适用于目标明确、评估指标易于量化的任务。未来直接面向人类的知识讲解会越来越少，取而代之的是先让智能体理解知识。智能体懂后，根据不同人的接受水平因材施教。……量子位在不改变原意的基础上，对访谈内容进行了翻译整理。关于龙虾主持人：我记得有一次进办公室，看到你正全神贯注地忙着手头的事。我问你在做什么，你说现在每天必须花16个小时向智能体传达指令，因为智能体实现了飞跃式提升。这背后到底发生了什么？和我们分享一下你的切身感受吧。卡帕西：我感觉自己一直处于一种对人工智能近乎痴迷的状态，现在也常常如此。因为作为独立个体，我们能实现的目标发生了翻天覆地的变化。以前，人的工作效率会受限于打字速度等因素，但现在有了智能体，一切都不一样了。我大概是从12月开始，彻底转变了工作模式。之前我自己写代码和委托智能体完成的比例是8:2，后来这个比例完全颠倒，变成了2:8。到现在，这个比例恐怕远不止如此了。事实上，从12月到现在，我基本没亲手敲过一行代码，这种转变可以说是颠覆性的。我和我父母等人聊起这件事，发现普通人其实并没有意识到这场变革的发生。毫不夸张地说，只要你随便找一位坐在工位上的软件工程师，看看他们现在的工作方式就会发现，自12月以来，软件开发的常规工作流程已经彻底变了。所以我才会一心想探索智能体的极限潜能，不断推动技术边界。我一直在思考，如何才能不局限于单次调用Cloude Code、Codex这类智能体工具，实现批量部署？又该如何合理地做到这一点？这些类似Claw的应用该如何使用？它们的本质到底是什么？这一领域涌现出了太多全新的事物，我渴望走在技术前沿。但同时我也清楚，自己并没有真正处于前沿，我看到推特上很多人都在尝试各种相关技术，其中不少想法其实并不成熟。这种情况下，我必须跻身前沿行列，否则就会感到极度焦虑。说到底，我之所以如此痴迷，正是因为这一领域，还有着无限的未知等待探索。主持人：你觉得，如今制约你探索新项目、实现新突破的因素是什么？卡帕西：很多时候，即便智能体没能完成任务，我也会觉得问题不在于技术能力本身，而在于自身的操作水平不足。比如，可能是我没能在智能体的配置文件里给出足够清晰的说明，或是没有搭建足够完善的记忆工具。基本上就会像Peter Steinberger（龙虾作者）一样，Peter有一张很有意思的照片：他站在布满显示器的屏幕前，操控着多个智能体。只要指令精准、操作得当，这些智能体在20分钟左右的时间里，就能完成多达10个代码仓库的调取工作。他自己要做的，就是在各个智能体之间切换，不断下达新的指令。这种工作模式的核心，是不再局限于编写单行代码、创建单个函数这类微观操作，而是转向更宏观的任务调度。比如，你可以把一项全新的功能开发任务交给智能体1，再把另一项不会和前者产生冲突的功能开发任务交给智能体2，然后根据自己对代码质量的要求，尽可能对它们的工作成果进行审核。现在我思考的是，如何通过这类宏观操作来管理软件代码仓库：让一个智能体负责调研，一个负责编写代码，另一个负责制定新功能的实现方案。所有工作都通过这些宏观操作在代码仓库上有序推进。我现在正努力熟练掌握这种工作模式，形成肌肉记忆。这个过程非常有成就感。首先是因为这种模式确实行之有效，其次是因为它代表着一项需要学习的全新技能。这也是我对它如此痴迷的原因所在。理想情况下，要是同时部署了多个智能体，一旦Codex的token耗尽，就该切换到云端环境或者其他平台继续执行任务。我最近也在试着这么做。只要我的订阅额度还有剩余，我就会感到焦虑，因为我没能充分利用token。其实我读博的时候也有过类似的感受：只要手里的GPU处于闲置状态，我就会坐立难安。明明有算力可用，却没能发挥到极致。只不过现在的核心矛盾变了，不再是算力，而是token。关键问题变成了：你的token吞吐量能达到多少？你又能掌控多大的token资源？主持人：你觉得未来会朝着什么方向发展？试想一下，如果你和其他所有人每天都花16个小时打磨使用代码智能体的技巧，那么一年之后，当大家都达到精通水平时，局面会变成什么样？卡帕西：我觉得所有人的核心诉求，本质上都是在向上探索。也就是说，重点不再是与单个智能体的单次交互，而是多个智能体如何协同工作、如何组建智能体团队等问题。现在整个行业都在摸索这类协作模式的落地路径。另外，我认为Claw也是一个非常有意思的发展方向。我所说的Claw，指的是一种能将智能体的持久化能力提升到全新高度的层级架构。它可以自主循环运行，不需要人类在中间进行交互式操控。它就像拥有了自己的独立沙盒环境，即便你没有实时监控，它也能代表你自主完成各项任务。除此之外，这类架构还可以搭载更复杂的记忆系统。这类功能目前在主流智能体中还没有实现。比如OpenClaw就有比默认配置复杂得多的内存管理机制，默认配置只是在上下文耗尽时进行内存压缩。主持人：和其它工具相比，OpenClaw更能打动用户的原因是什么？卡帕西：对于OpenClaw，Peter在这个项目上的表现很出色，他本人非常谦逊，我认为他在不同的维度实现了创新，并将这些创新完美整合在了一起。比如在角色设定方面，他就塑造出了一个极具吸引力的智能体人格。我觉得目前大多数智能体都没能做好这一点。Claude的人格设定倒是挺成功的，它给人的感觉就像一个靠谱的队友，会和你一起为项目进展感到兴奋。反观Codex，它的风格就显得非常刻板。有意思的是，在ChatGPT中集成的Codex，语气会活泼很多，甚至带点讨好的意味；但作为独立代码智能体的Codex，就显得十分冷漠。它似乎完全不在乎你正在构建的项目是什么，只会机械地告诉你“功能已实现”。再比如Claude，我觉得它把握讨好尺度的能力就很到位。当Claude夸奖我的时候，我会觉得自己确实当之无愧。因为有时候我提出的想法还很不成熟，Claude就不会给出过于热烈的反馈，只会淡淡地说“这个想法我们可以落地实现”。但如果我提出的是一个真正出色的创意，它就会给出更积极的回应。这种模式甚至让我产生了一种“想要赢得它认可”的心态，现