原文链接:The Anatomy of Autonomy: Why Agents are the next AI Killer App after ChatGPT
本文作者:SWYX 编译:CoinTime Candice
“GPT是通用技术”,但每个GPT都需要一个杀手级的应用程序。个人计算需要VisiCalc,智能手机给我们带来了Uber、Instagram、Pokemon Go和iMessage/WhatsApp,而mRNA研究使Covid疫苗得以快速生产。
GPT-3后的人工智能浪潮不仅仅是“炒作”,其中一个最有力的指标是杀手级应用已经很明显,每个应用程序都有超过1亿美元的机会:
- 用于写作的生成文本——Jasper AI将在2年内实现0至7500万美元的ARR
- 用于非艺术家的生成艺术——Midjourney/Stable Diffusion Multiverses
- 面向知识工作者的Copilot——GitHub的CopilotX和“Copilot for X”
- 对话式AI用户体验——ChatGPT/Bing Chat,拥有Doc QA初创公司的小众数据
我写这一切是为了暗示:
第五个杀手级应用就在这里,它就是自主性代理。

Auto-GPT执行摘要
Auto GPT(及其新版本BabyAGI)是独立开发的Python项目,分别于3月30日和4月2日开源,并且在过去两周内引起了极大的关注。Auto-GPT在Twitter和GitHub上的趋势排名均位居第一(远超其他开源AI项目,包括Segment-Anything、Stable Diffusion以及现在被Sequoia冠以2亿美元估值的LangChain)。
这两个项目都不涉及基础模型训练或任何深度ML创新;相反,它们证明了在无限循环中应用现有LLM API(GPT3、4或任何替代品)和推理/工具选择提示模式的可行性,以完成潜在的无限期长期运行的迭代工作,完成人类用户设定的高层次目标。
我们确实指的是“高级别”——Toran Richards最初为Auto-GPT制作的演示是“一个旨在自主开发和经营企业以增加你的净资产的AI”,而Yohei Nakajima则在ChatGPT上编程了Jackson Fall的热门HustleGPT提示,并让它“开始并发展一个移动AI创业公司”。在此后的两周内,社区成员构建了扩展和克隆、代理管理器和框架、ChatGPT插件和可视化工具包等,并在市场研究、测试驱动开发和科学文献综述中提供了用例。
除了这些相似之处之外,这些项目在方法上也大不相同。
- BabyAGI是故意设计得很小,添加和剥离LangChain,其初始代码不到150行,只有10个环境变量(现在约为800LOC)。

- Auto-GPT则非常庞大(7300 LOC),具有克隆GitHub存储库、启动其他代理、语音、发送推文和生成图像等功能,需要50个环境变量来支持每个矢量数据库和LLM提供者/文本到图像模型/浏览器。

这些项目也引起了AI领军人物的想象,Andrej Karpathy称AutoGPT是“提示工程的下一个前沿”。
自主性人工智能的简史
根据我对神经生物学的理解,每一次使大脑思考更复杂的事情都会让我们变得更聪明一些。以类似的方式,人工智能的进步也是通过“思考”实现的,在回顾历史时,我们的进展之路是显而易见的。我想将其梳理一下:

按大致时间顺序排列的关键自主能力
- 基础模型:
一切都始于大规模LLM的演变和普及(通过API或开源)。这些模型的巨大规模最终实现了3个主要特征:
- 完美的自然语言理解和生成
- 世界知识(175B参数可以存储320GB,相当于15个维基百科)
- 背景学习等主要能力的出现
这导致了早期提示工程师的崛起,比如Gwern Branwern和Riley Goodside,他们探索了创造性的单次提示。
- 功能1:元认知(纯推理的自我提升)
- Kojima等人(2022年)发现,简单地在提示中添加“让我们逐步思考”一句话就可以显著提高GPT3在基准测试中的性能,后来发现这是由于将工作记忆外部化以应对更难的任务的效果。
- Wei等人(2022年)正式规范化了“思维链”提示技术,进一步提高了基准测试的性能。
- Wang等人(2022年)发现,在普通的思维链提示无效的情况下,采用多个思维链的多数投票方法也是有效的。
- 越来越多的技术开始出现,如使用前校准、自我询问、递归批评和改进、自动提示工程。
- 功能2:外部存储器(读取大部分静态外部数据)
- 由于背景长度限制,需要使用嵌入、分块和链接框架(如LangChain),以及向量数据库(如Pinecone,现价值7亿美元)、Weaviate(价值2亿美元)和Chroma(价值7500万美元)。
- 另一种使用自然语言访问和回答关系型数据库问题的方法是Text to SQL公司,其中包括Perplexity AI(2600万美元A轮融资)、Seek AI(750万美元种子轮融资)以及其他一些小众的包括CensusGPT和OSS Insight。
- 功能3:浏览器自动化(浏览器中的沙盒式读写)
- Sharif Shameem于2021年首次展示了通过GPT-3在Chrome自动化购买Airpods的演示。
- Adept与Transformer组成的全明星团队进行了A轮融资,并推出了ACT-1 Action Transformer(尽管Vaswani等人离开了,但现在B轮融资已高达3.5亿美元)。
- 一年后,Nat Friedman的NatBot将浏览器自动化重新带入时代潮流,展示了代理是如何通过单一的自然语言指令在谷歌搜索和地图中进行餐厅预订的。
- Dust XP1也发布了,但是只读的,没有进行任何自动化。
- 浏览器代理的一个很好的变体是桌面代理——Embra AI似乎是这里最受欢迎的,尽管它仍然是预发布的,而Rewind AI可能是下一个。
- 多模式GPT4的可视化能力似乎能够极大地促进桌面代理,特别是在没有可访问性文本或DOM的情况下。
- 功能4:工具制作和工具使用(服务器端,与一切挂钩)
- 搜索。从记忆的世界知识中生成答案,或者从数据库中检索并输入背景,永远不会像搜索网络那样是最新的。OpenAI用WebGPT打开了这扇门,展示了他们抓取网络、总结内容和用参考资料回答问题的解决方案(现在在ChatGPT插件和Bing Chat中使用,但在Dust和其他地方也有复制)。
- 编写要运行的代码。我们知道GPT-3可以编写代码,但它需要像Riley Goodside这样有勇气的人来要求它为已知的糟糕功能(如数学)生成代码,并运行所生成的代码。Replit被证明是增强这种能力的完美托管平台。
- ReAct。Yao等人(2022年)创造了ReAct模式,该模式引入了一个非常简单的提示模板,使LLM能够在给定一组工具的情况下为推理和动作做出可靠的工具选择。Schick等人(2023年)介绍了专门用特殊代币训练模型的Toolformer,但这似乎并不受欢迎。
- 多模型方法。正在探索使用模型调用其他具有其所不具备能力的模型的方法,例如HuggingGPT/Microsoft JARVIS和VisualChatGPT。
- 自主学习。自主学习API代理(SLAPA)搜索API文档,以教会自己如何使用工具,而不仅仅是什么时候使用。这种方法被用于ChatGPT插件的OpenAPI(前身为Swagger)规范,并使用自然语言。
- 在这一领域可能值得探索的其他半隐形模式初创公司有Fixie AI和Alex Minion AI。
在这一点上,值得一提的是,我们几乎已经达到了John McDonnell在6个月前提到的全部愿景:

那么,在最近的能量爆发中,我们看到了什么全新的东西呢?
我认为线索就在BabyAGI中自然进化的4个代理中(见上图表):
“背景代理”(能力1+2)可能是LlamaIndex和Langchain正在开发的数据增强检索的一个更智能的版本。Yohei补充道,需要“相关(任务)背景”,这可能与向量数据库提供的经典语义相似性算法略有不同。
- 主动学习可能会重新受到青睐,因为自主的“背景代理”会主动将他们不知道的事情浮出水面,以确定优先级。
- “执行代理”调用OpenAI或任何其他基础模型,并可以选择制作或使用任何提供的工具来完成任务(能力3+4)。
- “任务创建代理”创建任务,但不能产生错误,必须自我批评并从以前的任务中学习(能力1+2)。具有挑战性,但不超出简单常识基准的范围。
- 最后一个代理是“优先级代理”。是一项新任务!
这让我们发现:
- 功能5:计划、反思和确定优先次序
- Shinn等人(2023年)表明,Reflexion——一种具有动态记忆和自我反思的自主代理,可以显著提高GPT-4基准。
- Shoggoth the Coder作为一个能够向开源项目提出和提交PR修复的独立代理,赢得了最近的ChatGPT插件黑客马拉松。
- Meta的Simulacra论文展示了自主NPC代理在类似游戏的环境中相互作用的娱乐性潜力。
- 无论使用情况如何,自主代理将被期望进一步提前计划,对任务清单进行优先排序,对错误进行反思,并将所有相关的背景保存在内存中。“AGI的火花”论文特别指出,规划是GPT-4的一个显著弱点,这意味着我们很可能需要进一步的基础模型的进步,才能使其可靠。
- 最近的LangChain代理网络研讨会的讨论也强调了堆叠代理并在它们之间进行协调能力的需求。
- 在Latent Space社区,人工智能虚拟软件开发者平台e2b已经在讨论拥有人工智能开发者团队的潜力。
为什么自主性人工智能是圣杯
是什么让软件对人类有价值?在我的投资和职业建议中,我喜欢鼓励人们发展“软件价值理论”。
软件最明显的价值驱动因素之一是自动化。我们永远都没有足够的时间,而无论是通过巧妙的系统设计、雇佣他人还是对机器编程来代替人工,都会让我们有更多的时间,并通过并行地做更多的事情来提高我们扩大产出的能力。事实上,这可以被视为技术和文明的核心定义:
“文明的进步是通过扩大我们无需思考就能完成的操作数量来实现的”——Alfred North Whitehead
自动化和自主性之间的关系是微妙且重要的:
- ChatGPT不需要你的输入就可以做任何事情,但是一旦你输入正确的提示,它就可以为你做大量的研究,特别是使用插件
- 默认情况下,AutoGPT需要你输入一个目标,然后点击“是”来批准它所进行的每一步,但这比必须编写答复要容易的多
- AutoGPT也有有限的(运行N个步骤)和无限的(永远运行)“连续模式”,它们是完全自主的,但很可能出错,因此必须密切监控
正如我们刚刚解释的那样,技术和文明的进步要求我们能够在不思考的情况下完成某些任务,因此,全面自主性并尽可能具有信任和可靠性是最终目标。让成千上万的代理出现!大多数人开始使用AI助手,但Josh Browder正在研究AI律师,Replika正在研究AI Waifu,我想要AI初级开发人员和AI视频、播客和通讯编辑,Karpathy希望我们继续推进AI C-Suite。
幸运的是,我们不必从第一原则出发推理出这一进展的每一步,因为汽车工程师协会几乎在十年前就建立了一个速记法:

我想你对一些自动驾驶汽车的讨论很熟悉,但是现在是时候明白,2023年的自动驾驶AI代理与自动驾驶汽车在2015年左右的水平差不多。我们开始在使用的工具中加入一些智能,比如Copilot和Gmail自动完成,但这些智能非常轻量级。
在下一个十年,我们会想把一些方向盘交给人工智能,然后是监控,这可能也会映射出我们与自主性人工智能代理的进展。
在接下来的十年中,我们将对我们的代理人产生足够的信任,从而从“一个AI对应多个人”的范式转变为“一个人对应一个AI”,最终发展成“一个人对应多个AI”的模式,这是计算机产业从1960年代到2010年代加速工业化的另一个版本。
关于自主人工智能将有两种风格,或者说是思想流派:
- Jobs学派:人工智能代理增强了你的能力,就像“你头脑中的自行车”
- Zuck学派:人工智能算法取代你的能力,劫持你的思维
我们会尽力将我们的努力引导到前者,但我们不一定会成功。
*本文由CoinTime整理编译,转载请注明来源。
所有评论