为什么这么多AI巨头却把GPT弄得如此糟糕？

一些人工智能领域的巨头（如Yann LeCun、Rodney Brooks、Noam Chomsky）严重低估了大型语言模型的能力。

作为证据，我展示了我用GPT-4生成的具体例子，这些例子的复杂程度越来越高。

这些例子需要花时间阅读，略读一下即可；但我认为具体的例子是反驳一些非常笼统的说法的最好方法。

我所看到的这些低估并不能让我对人工智能安全辩论感到放心；如果今天有这么多专家把它搞错了，这并不令人鼓舞。

设置

这些是我要回应的评论：

https://twitter.com/ylecun/status/1659642861166403590

LeCun对布鲁克斯在《IEEE Spectrum》上写的内容表示赞同：

也就是说，LeCun和Brooks说LLM没有任何潜在的世界模型--"它正在查找"。也就是说，这里没有语义暗示。

里奇-萨顿似乎也对LLMs与智力有什么关系表示怀疑：

https://twitter.com/RichardSSutton/status/1654643464959819776

也就是说，认为智能可能来自于文本预测这一观点是荒谬的。

总的主题是，这些模型实际上并不了解这个世界的任何东西；它们只是从它们的训练集中反省数据。

诺姆-乔姆斯基等人在《纽约时报》上的文章也对此表示赞同（"ChatGPT的虚假承诺"）

“他们最大的缺陷是缺乏所以智能的最关键的能力：不仅要说出现在是什么情况，已经发生了什么以及将要发生什么--这就是描述和预测--而且说什么不是当下的情况，什么可能发生什么不可能发生。这些就是解释的要素，是真正智慧的标志。

这里有一个例子。假设你手里拿着一个苹果。现在你放开苹果。你观察结果并说，"苹果掉下来了"。这就是一种描述。预测则可能是 "如果我张开手，苹果就会掉下来 "的说法。两者都是有价值的，而且都可能是正确的。但一个解释是更多的东西：它不仅包括描述和预测，还包括反事实的猜想，如 "任何这样的物体都会掉下来"，再加上附加条款 "因为引力 "或 "因为时空的曲率 "或其他。这就是一种因果解释： "如果不是因为万有引力，苹果就不会掉下来。" 这就是思维。”

但GPT-4显然似乎有一个世界模型

让我们从乔姆斯基关于苹果的例子开始，并以此为基础。我选择乔姆斯基等人，因为他们是最具体的；但我认为同样的精神被广泛发现。

我的目标是向你展示GPT-4：

1. 预测和处理非事实的问题

2. 证明对其训练数据中无法遇到的情景进行的合理预测，从而提供证据证明它不是 "只是查找事物 "或转述相关资料。(或者说，至少转述相关资料和真正的智能之间的界限是不明确的！)

评估ML模型的大问题是，如果你不小心在它们的训练数据中问了它们一些问题，他们会显得非常聪明。我们必须避免这种错误。

让我们设置一个不太可能在训练数据中发生的复杂场景，并尝试关注GPT-4在该场景中的解释能力。

下面是一个场景的初试版本，是为这个博客制作的，不是精心挑选出来的。

让我们拿一个经典的恶作剧举例--把一桶水平衡在门上，并将这桶水修改为以苹果为特征。我在谷歌上搜索了一下，没有发现网上有类似的东西。

好吧，那么这个系统正在处理一个它可能从未遇到过的场景，对可能发生的事情做出合理的预测。

这并不容易。你必须明白，胶水是有粘性的，会导致苹果粘在一起，使事情变得混乱。

这里可以说有一个错误--我本来想说苹果可能太重了，接触后会粘住。我并不是说GPT-4是一个超级智能体。

但是，即使要走到这一步，你也得做很多推理。

让我们再推敲一下：

GPT-4意识到随着时间的推移，胶水会变得不那么粘稠，并意识到其中的含义。

在我看来，这是在做乔姆斯基说他们做不到的解释，这似乎表明了一个世界模型。

我要告诉它，苹果没有掉出来，然后让它来解释：

我们开始了。

关于超级胶水遇水更快固化的这一点在互联网上似乎得到了支持。我不知道这一点。这并不能证明它有一个世界模型，但作为一个旁观者，显示了它庞大的事实数据库。

让我们把事情进一步混合起来，并真正确保我们在训练数据集之外：

我很难相信它看到过关于月球上的一桶苹果的训练数据。我很难相信它正确地结合这些场景可以被认为是没有世界模型的'标记性操作'。

这似乎远远超出了乔姆斯基在原文中设定的标准。

那么：

我们真的应该接受GPT-4只是转述在训练数据集中发现的数据，而且这里没有世界模型吗？

看来，至少，举证责任必须转移到那些声称这一点的人身上。

我想起了理查德-费曼（Richard Feynman）解释 "常识 "或 "常识 "是多么困难的视频。你必须有很多关于世界奇奇怪怪的知识了解，才能产生上述的反应。

事实上，由于我们把我们的常识--我们自己的世界模型--视为理所当然，我想说我们有可能低估了GPT-4必须有多么复杂的世界模型才能做到上述事情。

参考视频：

重述Brooks 和 LeCun的立场：

我真的很惊讶听到能把这句话说得如此自信。

下面我将分享另一个例子，以进一步推动事情的发展。

但首先我想分享一些想法。

这到底是怎么回事？

既然GPT-4的表现在没有参考的情况下很难解释，为什么一些专家对存在世界模型的想法如此不屑一顾？

我在讨论中反复看到的一件事是对形式的争论：

但转换器只是功能吗？

转换器只是从输入到输出的功能，或者我们知道转换器是如何工作的，而它们什么都不懂。

鉴于我们所看到的复杂行为，这种论点感觉类似于说 "计算机只是输入和输出的函数 "或 "我们知道NAND gates是如何工作的，他们什么都不懂"。

这些事实可能是孤立的，但这里的论点是似是而非的。

建立比其组成部件强大得多的系统是有可能的。我们从计算机科学中知道这一点。

偶然发现一个新的计算系统是非常容易的，有时是非常简单的，然后后来了解到它的图灵完全性，从而发现它可以进行非常广泛的操作。

叠加变压器可能不是图灵完备的；但这并不意味着它们不是一个非常强大的计算范式。

我认为，在有如此复杂的行为显示的情况下，例如推理，责任应该转移到那些声称GPT不能推理的人身上，纯粹是架构上的原因。

但这个的训练目标只是用于预测代币？

GPT所要做的就是预测下一个代币。我们只是更新它们的权重来优化这一点。因此它们无法思考。

这个论点感觉就像一个外星机器人看着地球说 "嗯，那个星球是一个进化系统。所以它上面的生命并不像我们这样被设计出来。他们所做的一切是为了传播他们的基因，哪种基因有最好的适应性，就传播更多。因此他们无法思考。"

重点是，仅仅因为训练目标是简单的或者很好理解的，并不意味着它不能刺激复杂或强大的行为出现。

事实上，这正是重点所在。

此外，有很多理由怀疑序列预测是一项很好的衡量一般智力的任务；智力和压缩之间有很深的联系；参见Hutter奖等。

因此，它甚至不清楚训练目标在任何意义上是简单的或低功率的；即使是这样，一个简单的训练目标也不能证明系统不会进化出复杂的行为来优化它。

第二个例子

这个例子故意扯远了，为了清楚地得到训练数据之外的东西，同时也使我们能够对世界模型提出更多的测试问题。(注意，为了清晰起见，我确实交互地改变了这个例子的提示；但我不会把它描述为是精心挑选的）。

好的，这是对我们的介绍的一个合理回应。

这肯定是非常具有挑战性的领域。现在我们要检查的不仅仅是它看起来有一个世界模型，而是它是否能够推理出一个世界模型被破坏的人。

更进一步：

我认为GPT-4在推理许多不确定性方面做得很好，包括对故事中的人物是否准确感知现实的不确定性。

我们是否应该相信在训练数据集中有很多关于摩托车熊的例子？根据 Ted Chiang 的《纽约客》文章，该模型只是压缩互联网文本的“模糊 jpeg”？也许这里的明显建模是运造成的？

我发现很难解释这种行为，如果不参考世界模型（或者不定义 "世界模型"，那么人类是否有这样的模型就会受到质疑！）。

我不明白，鉴于这种经验表现，一些专家怎么能自信地否定这种可能性。

AGI的论文Sparks一文讨论了微软研究院进行的GPT-4发布前的分析，对GPT-4的能力做了很好的探索，所以我在这里说的不在讨论安范围之外。

这只是增加了我的困惑，为什么这么多受人尊敬的研究人员似乎只为捕猎熊而错过了一整个森林。

同样，这并不能为我们预测人工智能安全的能力建立信心。

附录：第三个例子：规划

很多 "好的老式人工智能 "是关于规划的。然而，规划系统在现实世界中经常失败，因为无法排除相关事实，以及由此产生的组合爆炸。

我认为这是一个使用LLM的代理规划的整洁的例子；同样，这似乎是一个世界模型的证据：

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

设置

但GPT-4显然似乎有一个世界模型

这到底是怎么回事？

第二个例子

附录：第三个例子：规划

所有评论

推荐阅读

美FDIC拟为寻求发行支付稳定币的受监管机构建立申请程序

BTC突破88000美元

Bitwise认为2026年处于加密货币牛市并发布十大预测

中国置业投资计划购买并持有BNB作为战略储备资产

美国白宫国家经济委员会主任哈塞特：在供应方面出现积极冲击的情况下，降息仍存在许多空间。

稳定币支付公司 RedotPay 完成 1.07 亿美元 B 轮融资

币安 Alpha 将于 22:00 上线 Theoriq（THQ）

美国10月政府部门就业人口大减15.7万人

美国10月就业人数出现2020年底以来的最大降幅

美国11月失业率意外上升或引发美联储关注劳动参与率回升料缓解部分担忧

每日必读

2025，特朗普的敛财之年

2025 年，加密市场那些无法回头的改变

当黑客开始「狙击」：复盘 2025 年 Web3 十大至暗时刻

5分钟带你看懂EASY S2 亮相的17个项目

a16z：2026 年加密领域 17 大潜力趋势前瞻

a16z：2026 年重大构想：第二部分

热门标签

分享

最近浏览

热门币种

每日趋势

每日必读

欢迎回来

注册账号

使用 email 登录

使用 email 注册

检查您的收件箱

为什么这么多AI巨头却把GPT弄得如此糟糕？

设置

但GPT-4显然似乎有一个世界模型

这到底是怎么回事？

第二个例子

附录： 第三个例子： 规划

所有评论

推荐阅读

每日必读

热门标签

分享

附录：第三个例子：规划