Cointime

扫码下载App
iOS & Android

自主性剖析:为什么代理是继ChatGPT之后的下一个AI杀手级应用

原文链接:The Anatomy of Autonomy: Why Agents are the next AI Killer App after ChatGPT 

本文作者:SWYX  编译:CoinTime Candice

“GPT是通用技术”,但每个GPT都需要一个杀手级的应用程序。个人计算需要VisiCalc,智能手机给我们带来了Uber、Instagram、Pokemon Go和iMessage/WhatsApp,而mRNA研究使Covid疫苗得以快速生产。

GPT-3后的人工智能浪潮不仅仅是“炒作”,其中一个最有力的指标是杀手级应用已经很明显,每个应用程序都有超过1亿美元的机会:

  • 用于写作的生成文本——Jasper AI将在2年内实现0至7500万美元的ARR
  • 用于非艺术家的生成艺术——Midjourney/Stable Diffusion Multiverses
  • 面向知识工作者的Copilot——GitHub的CopilotX和“Copilot for X”
  • 对话式AI用户体验——ChatGPT/Bing Chat,拥有Doc QA初创公司的小众数据

我写这一切是为了暗示:

第五个杀手级应用就在这里,它就是自主性代理。

Auto-GPT执行摘要

Auto GPT(及其新版本BabyAGI)是独立开发的Python项目,分别于3月30日和4月2日开源,并且在过去两周内引起了极大的关注。Auto-GPT在Twitter和GitHub上的趋势排名均位居第一(远超其他开源AI项目,包括Segment-Anything、Stable Diffusion以及现在被Sequoia冠以2亿美元估值的LangChain)。

这两个项目都不涉及基础模型训练或任何深度ML创新;相反,它们证明了在无限循环中应用现有LLM API(GPT3、4或任何替代品)和推理/工具选择提示模式的可行性,以完成潜在的无限期长期运行的迭代工作,完成人类用户设定的高层次目标。

我们确实指的是“高级别”——Toran Richards最初为Auto-GPT制作的演示是“一个旨在自主开发和经营企业以增加你的净资产的AI”,而Yohei Nakajima则在ChatGPT上编程了Jackson Fall的热门HustleGPT提示,并让它“开始并发展一个移动AI创业公司”。在此后的两周内,社区成员构建了扩展和克隆、代理管理器和框架、ChatGPT插件和可视化工具包等,并在市场研究、测试驱动开发和科学文献综述中提供了用例。

除了这些相似之处之外,这些项目在方法上也大不相同。

  • BabyAGI是故意设计得很小,添加和剥离LangChain,其初始代码不到150行,只有10个环境变量(现在约为800LOC)。
GPT4可视化的代码库。
  • Auto-GPT则非常庞大(7300 LOC),具有克隆GitHub存储库、启动其他代理、语音、发送推文和生成图像等功能,需要50个环境变量来支持每个矢量数据库和LLM提供者/文本到图像模型/浏览器。

这些项目也引起了AI领军人物的想象,Andrej Karpathy称AutoGPT是“提示工程的下一个前沿”。

自主性人工智能的简史

根据我对神经生物学的理解,每一次使大脑思考更复杂的事情都会让我们变得更聪明一些。以类似的方式,人工智能的进步也是通过“思考”实现的,在回顾历史时,我们的进展之路是显而易见的。我想将其梳理一下:

按大致时间顺序排列的关键自主能力

  • 基础模型:

一切都始于大规模LLM的演变和普及(通过API或开源)。这些模型的巨大规模最终实现了3个主要特征:

  1. 完美的自然语言理解和生成
  2. 世界知识(175B参数可以存储320GB,相当于15个维基百科)
  3. 背景学习等主要能力的出现

这导致了早期提示工程师的崛起,比如Gwern Branwern和Riley Goodside,他们探索了创造性的单次提示。

  • 功能1:元认知(纯推理的自我提升)
  1. Kojima等人(2022年)发现,简单地在提示中添加“让我们逐步思考”一句话就可以显著提高GPT3在基准测试中的性能,后来发现这是由于将工作记忆外部化以应对更难的任务的效果。
  2. Wei等人(2022年)正式规范化了“思维链”提示技术,进一步提高了基准测试的性能。
  3. Wang等人(2022年)发现,在普通的思维链提示无效的情况下,采用多个思维链的多数投票方法也是有效的。
  4. 越来越多的技术开始出现,如使用前校准、自我询问、递归批评和改进、自动提示工程。
  • 功能2:外部存储器(读取大部分静态外部数据)
  1. 由于背景长度限制,需要使用嵌入、分块和链接框架(如LangChain),以及向量数据库(如Pinecone,现价值7亿美元)、Weaviate(价值2亿美元)和Chroma(价值7500万美元)。
  2. 另一种使用自然语言访问和回答关系型数据库问题的方法是Text to SQL公司,其中包括Perplexity AI(2600万美元A轮融资)、Seek AI(750万美元种子轮融资)以及其他一些小众的包括CensusGPT和OSS Insight。
  • 功能3:浏览器自动化(浏览器中的沙盒式读写)
  1. Sharif Shameem于2021年首次展示了通过GPT-3在Chrome自动化购买Airpods的演示。
  2. Adept与Transformer组成的全明星团队进行了A轮融资,并推出了ACT-1 Action Transformer(尽管Vaswani等人离开了,但现在B轮融资已高达3.5亿美元)。
  3. 一年后,Nat Friedman的NatBot将浏览器自动化重新带入时代潮流,展示了代理是如何通过单一的自然语言指令在谷歌搜索和地图中进行餐厅预订的。
  4. Dust XP1也发布了,但是只读的,没有进行任何自动化。
  5. 浏览器代理的一个很好的变体是桌面代理——Embra AI似乎是这里最受欢迎的,尽管它仍然是预发布的,而Rewind AI可能是下一个。
  6. 多模式GPT4的可视化能力似乎能够极大地促进桌面代理,特别是在没有可访问性文本或DOM的情况下。
  • 功能4:工具制作和工具使用(服务器端,与一切挂钩)
  1. 搜索。从记忆的世界知识中生成答案,或者从数据库中检索并输入背景,永远不会像搜索网络那样是最新的。OpenAI用WebGPT打开了这扇门,展示了他们抓取网络、总结内容和用参考资料回答问题的解决方案(现在在ChatGPT插件和Bing Chat中使用,但在Dust和其他地方也有复制)。
  2. 编写要运行的代码。我们知道GPT-3可以编写代码,但它需要像Riley Goodside这样有勇气的人来要求它为已知的糟糕功能(如数学)生成代码,并运行所生成的代码。Replit被证明是增强这种能力的完美托管平台。
  3. ReAct。Yao等人(2022年)创造了ReAct模式,该模式引入了一个非常简单的提示模板,使LLM能够在给定一组工具的情况下为推理和动作做出可靠的工具选择。Schick等人(2023年)介绍了专门用特殊代币训练模型的Toolformer,但这似乎并不受欢迎。
  4. 多模型方法。正在探索使用模型调用其他具有其所不具备能力的模型的方法,例如HuggingGPT/Microsoft JARVIS和VisualChatGPT。
  5. 自主学习。自主学习API代理(SLAPA)搜索API文档,以教会自己如何使用工具,而不仅仅是什么时候使用。这种方法被用于ChatGPT插件的OpenAPI(前身为Swagger)规范,并使用自然语言。
  6. 在这一领域可能值得探索的其他半隐形模式初创公司有Fixie AI和Alex Minion AI。

在这一点上,值得一提的是,我们几乎已经达到了John McDonnell在6个月前提到的全部愿景:

那么,在最近的能量爆发中,我们看到了什么全新的东西呢?

我认为线索就在BabyAGI中自然进化的4个代理中(见上图表):

“背景代理”(能力1+2)可能是LlamaIndex和Langchain正在开发的数据增强检索的一个更智能的版本。Yohei补充道,需要“相关(任务)背景”,这可能与向量数据库提供的经典语义相似性算法略有不同。

  • 主动学习可能会重新受到青睐,因为自主的“背景代理”会主动将他们不知道的事情浮出水面,以确定优先级。
  • “执行代理”调用OpenAI或任何其他基础模型,并可以选择制作或使用任何提供的工具来完成任务(能力3+4)。
  • “任务创建代理”创建任务,但不能产生错误,必须自我批评并从以前的任务中学习(能力1+2)。具有挑战性,但不超出简单常识基准的范围。
  • 最后一个代理是“优先级代理”。是一项新任务!

这让我们发现:

  • 功能5:计划、反思和确定优先次序
  1. Shinn等人(2023年)表明,Reflexion——一种具有动态记忆和自我反思的自主代理,可以显著提高GPT-4基准。
  2. Shoggoth the Coder作为一个能够向开源项目提出和提交PR修复的独立代理,赢得了最近的ChatGPT插件黑客马拉松。
  3. Meta的Simulacra论文展示了自主NPC代理在类似游戏的环境中相互作用的娱乐性潜力。
  4. 无论使用情况如何,自主代理将被期望进一步提前计划,对任务清单进行优先排序,对错误进行反思,并将所有相关的背景保存在内存中。“AGI的火花”论文特别指出,规划是GPT-4的一个显著弱点,这意味着我们很可能需要进一步的基础模型的进步,才能使其可靠。
  5. 最近的LangChain代理网络研讨会的讨论也强调了堆叠代理并在它们之间进行协调能力的需求。
  6. 在Latent Space社区,人工智能虚拟软件开发者平台e2b已经在讨论拥有人工智能开发者团队的潜力。

为什么自主性人工智能是圣杯

是什么让软件对人类有价值?在我的投资和职业建议中,我喜欢鼓励人们发展“软件价值理论”。

软件最明显的价值驱动因素之一是自动化。我们永远都没有足够的时间,而无论是通过巧妙的系统设计、雇佣他人还是对机器编程来代替人工,都会让我们有更多的时间,并通过并行地做更多的事情来提高我们扩大产出的能力。事实上,这可以被视为技术和文明的核心定义:

“文明的进步是通过扩大我们无需思考就能完成的操作数量来实现的”——Alfred North Whitehead

自动化和自主性之间的关系是微妙且重要的:

  • ChatGPT不需要你的输入就可以做任何事情,但是一旦你输入正确的提示,它就可以为你做大量的研究,特别是使用插件
  • 默认情况下,AutoGPT需要你输入一个目标,然后点击“是”来批准它所进行的每一步,但这比必须编写答复要容易的多
  • AutoGPT也有有限的(运行N个步骤)和无限的(永远运行)“连续模式”,它们是完全自主的,但很可能出错,因此必须密切监控

正如我们刚刚解释的那样,技术和文明的进步要求我们能够在不思考的情况下完成某些任务,因此,全面自主性并尽可能具有信任和可靠性是最终目标。让成千上万的代理出现!大多数人开始使用AI助手,但Josh Browder正在研究AI律师,Replika正在研究AI Waifu,我想要AI初级开发人员和AI视频、播客和通讯编辑,Karpathy希望我们继续推进AI C-Suite。

幸运的是,我们不必从第一原则出发推理出这一进展的每一步,因为汽车工程师协会几乎在十年前就建立了一个速记法:

我想你对一些自动驾驶汽车的讨论很熟悉,但是现在是时候明白,2023年的自动驾驶AI代理与自动驾驶汽车在2015年左右的水平差不多。我们开始在使用的工具中加入一些智能,比如Copilot和Gmail自动完成,但这些智能非常轻量级。

在下一个十年,我们会想把一些方向盘交给人工智能,然后是监控,这可能也会映射出我们与自主性人工智能代理的进展。

在接下来的十年中,我们将对我们的代理人产生足够的信任,从而从“一个AI对应多个人”的范式转变为“一个人对应一个AI”,最终发展成“一个人对应多个AI”的模式,这是计算机产业从1960年代到2010年代加速工业化的另一个版本。

关于自主人工智能将有两种风格,或者说是思想流派:

  • Jobs学派:人工智能代理增强了你的能力,就像“你头脑中的自行车”
  • Zuck学派:人工智能算法取代你的能力,劫持你的思维

我们会尽力将我们的努力引导到前者,但我们不一定会成功。

*本文由CoinTime整理编译,转载请注明来源。

评论

所有评论

推荐阅读

  • 美FDIC拟为寻求发行支付稳定币的受监管机构建立申请程序

    美国联邦存款保险公司(FDIC)宣布批准一项拟议规则,为寻求发行支付稳定币、并且受联邦存款保险公司监管的机构建立申请程序,目前已开启为期 60 天的公众评论期,据悉这是《GENIUS 法案》 “美国稳定币创新法案 ”通过后首个正式的规则制定提案。

  • BTC突破88000美元

    行情显示,BTC突破88000美元,现报88002.21美元,24小时涨幅达到1.34%,行情波动较大,请做好风险控制。

  • Bitwise认为2026年处于加密货币牛市并发布十大预测

    Bitwise认为2026年将是加密货币牛市的一年。从机构采用到监管进步,加密货币目前积极的趋势过于强劲,难以长期被压制。以下是Bitwise对未来一年的十大预测。 预测 1:比特币将打破四年周期,创下历史新高。 预测 2:比特币的波动性将低于英伟达。 预测 3:随着机构需求加速,ETF将购入超过100%的新增比特币、以太坊和Solana供应量。 预测 4:加密货币股票的表现将优于科技股。 预测 5:Polymarket 的未平仓合约量将创下历史新高,超过 2024 年大选时的水平。 预测 6:稳定币将被指责破坏新兴市场货币的稳定。 预测 7:链上金库(又称“ETF 2.0”)的资产管理规模将翻一番。 预测 8:以太坊和 Solana 将创下历史新高(如果 CLARITY 法案获得通过)。 预测9:常春藤盟校一半的捐赠基金将投资加密货币。 预测10:美国将推出超过100只加密货币挂钩ETF。 额外预测:比特币与股票的相关性将会下降。

  • 中国置业投资计划购买并持有BNB作为战略储备资产

    中国置业投资(00736)发布公告,为推进公司资产配置多元化及把握数字经济发展机遇的战略,已决议公司计划使用自有资金,在遵守相关法律法规及风险管控的前提下,于公开市场购买并持有BNB (Binance Coin)及其他合适的数字资产,作为公司的战略储备资产。公司长期看好数字资产行业的发展前景,并对BNB所依托的运营主体及其技术研发、生态布局与行业竞争力抱有充分信心,认可其在区块链领域的长期发展潜力与价值成长空间。 该计划拟动用的资金全部来源于公司现有的自有资金,资金调配符合公司财务管理规範及整体经营规划,不会影响公司日常业务的正常开展。董事会将根据市场情况,在授权额度内分批实施购买。

  • 美国白宫国家经济委员会主任哈塞特:在供应方面出现积极冲击的情况下,降息仍存在许多空间。

    美国白宫国家经济委员会主任哈塞特:在供应方面出现积极冲击的情况下,降息仍存在许多空间。

  • 稳定币支付公司 RedotPay 完成 1.07 亿美元 B 轮融资

    专注于稳定币支付的香港金融科技公司 RedotPay 宣布完成 1.07 亿美元 B 轮融资,Goodwater Capital 领投,Pantera Capital、Blockchain Capital 和 Circle Ventures,以及现有投资者 HSG(前身为红杉资本中国)参投。

  • 币安 Alpha 将于 22:00 上线 Theoriq(THQ)

    币安 Alpha 上线 Theoriq(THQ),Alpha 交易将于 2025 年 12 月 16 日 22:00(UTC+8)开始。持有至少 220 个币安 Alpha 积分的用户可申领代币空投。在 Alpha 活动页面申领 400 个 THQ 代币空投。 本次活动采用“扣分递减”模式,活动开始的第一分钟,申领空投将消耗 30 个币安 Alpha 积分。若活动未结束,此后每过一分钟,领取所需消耗的积分将减少 1 分,最低可降至 10 个积分。

  • 美国10月政府部门就业人口大减15.7万人

    美国劳工统计局公布11月非农报告和10月部分非农数据,数据显示,美国11月非农就业人数增加6.4万人,各行业中,增幅最大的是医疗保健和社会援助行业,为6.4万人,减幅最大的是运输和仓储行业,为减少1.77万人。10月份非农就业人数大减10.5万人,其中减幅最大的是政府部门,大减15.7万人,为连续两个月录得就业岗位减少;增幅最大的是医疗保健和社会援助行业,为增加6.46万人。

  • 美国10月就业人数出现2020年底以来的最大降幅

    美国劳工统计局周二公布的数据显示,11月份非农就业人数增加了6.4万人,而10月份减少了10.5万人。上个月的失业率为4.6%,高于9月份的4.4%,为2021年以来的最高水平。美国劳工统计局不得不放弃公布10月份的失业率,因为它无法在政府关门后追溯收集该数据。而10月份就业人数的下降是自2020年底以来的最大降幅,原因是参加特朗普政府的买断辞职计划的工人正式退出就业名单,联邦政府就业人数减少了16.2万人。

  • 美国11月失业率意外上升或引发美联储关注 劳动参与率回升料缓解部分担忧

    分析师Anstey速评美国非农报告指出,11月非农就业数据小幅高于预期,录得6.4万个。11月失业率意外升至4.6%,这可能引起美联储的关注。不过劳动参与率有所上升,因此失业率的上升未必完全是坏消息,我们还需细看具体数据。美国股指期货走高,两年期美债收益率下跌——基于过去数月非农就业数据的疲软表现,市场对美联储进一步放宽货币政策的预期有所升温。需注意的是,8月和9月的数据也被合计下修了3.3万。