一起来认识下为AI竞赛提供动力的10,000美元的Nvidia芯片
- 像微软和谷歌这样的公司正在为将最先进的人工智能整合到他们的搜索引擎中而奋斗,因为像OpenAI和Stable Diffusion这样价值数十亿美元的竞争对手正在争先恐后地向公众发布其软件。
- 为许多这些应用提供动力的是一个大约1万美元的芯片,它已经成为人工智能行业最关键的工具之一:Nvidia A100。

能够写出一段段文字或画出看起来像人类创造的图片的软件,在技术行业掀起了一场淘金热。
微软和谷歌等公司正在争夺将尖端人工智能整合到他们的搜索引擎中,而像OpenAI和Stable Diffusion这样价值数十亿美元的竞争对手则争先恐后地向公众发布他们的软件。
为许多这些应用提供动力的是一个大约1万美元的芯片,它已经成为人工智能行业最关键的工具之一:Nvidia A100。
Nathan Benaich说,A100已经成为目前人工智能专业人士的 “主力军”,他是一位投资者,出版了一份涵盖人工智能行业的通讯和报告,包括一份使用A100的超级计算机的部分清单。据New Street Research称,Nvidia占据了可用于机器学习的图形处理器市场的95%。
A100非常适用于为ChatGPT、Bing AI或Stable Diffusion等工具提供动力的那种机器学习模型。它能够同时进行许多简单的计算,这对训练和使用神经网络模型很重要。
A100背后的技术最初是用于在游戏中渲染复杂的3D图形。它通常被称为图形处理器,或GPU,但这些天Nvidia的A100被配置并针对机器学习任务,在数据中心运行,而不是在发光的游戏PC内。
从事聊天机器人和图像生成器等软件工作的大公司或初创公司需要成百上千个Nvidia的芯片,他们要么自己购买,要么从云提供商那里获得计算机。
训练人工智能模型需要数百个GPU,如大型语言模型。这些芯片需要足够强大,能够快速压缩数千兆字节的数据以识别模式。之后,像A100这样的GPU还需要用于 “推理”,或使用模型来生成文本,进行预测,或识别照片中的物体。
这意味着,人工智能公司需要获得大量的A100。该领域的一些企业家甚至将他们能够获得的A100的数量视为进步的标志。
Stability AI首席执行官Emad Mostaque 1月在Twitter上写道:“一年前,我们有32台A100。大梦想需要堆积更多的GPU”,Stability AI是帮助开发Stable Diffusion的公司,这是一个去年秋天引起关注的图像生成器,据说其估值超过10亿美元。
现在,根据《人工智能状况》报告的一项估计,Stability人工智能可以使用5400多颗A100 GPU,该报告对哪些公司和大学拥有最多的A100 GPU进行了统计和跟踪,尽管它不包括云供应商,因为他们没有公开发表他们的数字。
Nvidia正在搭乘人工智能的列车
Nvidia在人工智能炒作周期中最受益。在本周三的第四财季财报中,虽然Nvidia整体销售额下降了21%,但投资者在周四将该股推高了约14%,主要是因为该公司的人工智能芯片业务(作为数据中心报告),Nvidia在该季度的销售额增长了11%,超过了36亿美元,显示出持续增长。
2023年至今,Nvidia股价上涨了65%,超过了标普500指数和其他半导体股票。
Nvidia首席执行官Jensen Huang在周三与分析师的电话会议上不住地谈论人工智能,暗示最近人工智能的繁荣是该公司战略的中心。
黄仁勋说:“围绕我们建立的人工智能基础设施的活动,以及围绕使用Hopper和Ampere来影响大型语言模型的推理活动,在过去60天里已经达到了顶峰。毫无疑问,无论我们对今年的看法如何,在过去的60、90天里,已经发生了相当大的变化。”
Ampere是Nvidia对A100代芯片的代号。Hopper是新一代的代号,包括最近开始出货的H100。
AI需要更多的计算机

与其他类型的软件相比,比如为网页提供服务,偶尔会在微秒内突击使用处理能力,而机器学习任务可能会占用整个计算机的处理能力,有时会持续几个小时或几天。
这意味着那些发现自己的人工智能产品大受欢迎的公司往往需要购买更多的GPU来处理高峰期或改进他们的模型。
这些GPU并不便宜。除了可以插入现有服务器的卡上的单个A100之外,许多数据中心还使用包括八个A100 GPU一起工作的系统。
这种系统,即Nvidia的DGX A100,建议价格接近20万美元,尽管它带有所需的芯片。本周三,Nvidia表示,它将直接出售DGX系统的云访问权,这可能会降低修理工和研究人员的入门成本。
很容易看出A100的成本是如何增加的。
例如,New Street Research的一项估计发现,必应搜索中基于OpenAI的ChatGPT模型可能需要8个GPU才能在不到一秒的时间内对一个问题做出反应。
按照这个速度,微软将需要超过20,000台8-GPU服务器,只是为了向每个人部署必应中的模型,这表明微软的功能可能需要40亿美元的基础设施支出。
New Street Research的技术分析师Antoine Chkaiban说:“如果你是微软的人,你想扩大这个规模,以必应的规模,那可能是40亿美元。如果你想达到谷歌的规模,每天提供80或90亿次查询,你实际上需要在DGX上花费800亿美元。我们得出的数字是巨大的。但它们只是反映了这样一个事实,即每一个采取到如此大的语言模型的用户在使用时都需要一台大规模的超级计算机。”
根据Stability AI在网上发布的信息显示,最新版本的Stable Diffusion,一个图像生成器,是在256个A100 GPU上训练的,或者说是32台机器,每台有8个A100,总共有20万个计算小时。
Stability AI首席执行官Mostaque在推特上说,按照市场价格,仅训练该模型就花费了60万美元,他在推特交流中表示,与竞争对手相比,这个价格异常便宜。这还不算 “推理”的成本,或部署模型的成本。
Nvidia的CEO 黄仁勋在接受媒体采访时说,对于这类模型所需的计算量来说,该公司的产品实际上是很便宜的。
黄仁勋说:“我们把本来是一个运行CPU的10亿美元的数据中心,缩减为一个1亿美元的数据中心。现在,1亿美元,当你把它放在云端并由100家公司共享时,几乎是一无所有。”
黄仁勋说,Nvidia的GPU允许初创公司以比使用传统计算机处理器低得多的成本来训练模型。
黄仁勋说:“现在你可以建立像大型语言模型这样的东西,比如GPT,只需要1000万或2000万美元。这真是非常、非常实惠。”
新的竞争
Nvidia并不是唯一一家为人工智能用途制造GPU的公司。AMD和英特尔
有竞争性的图形处理器,而像谷歌和亚马逊这样的大型云计算公司和亚马逊正在开发和部署他们自己的芯片,专门为人工智能工作负载设计。
尽管如此,根据《人工智能计算现状》报告显示:“人工智能硬件仍然强烈地巩固了英伟达的地位”。截至去年12月,超过21,000篇开源AI论文表示他们使用了英伟达芯片。
纳入AI计算指数状况的大多数研究人员使用的是V100,即Nvidia在2017年推出的芯片,但A100在2022年快速增长,成为使用最多的Nvidia芯片,仅次于原本用于游戏的1500美元或更少的消费图形芯片。
A100还有一个特点,那就是它是仅有的几个因国防原因而被实施出口管制的芯片之一。去年秋天,Nvidia在一份SEC文件中说,美国政府实施了一项许可要求,禁止A100和H100出口到中国、香港和俄罗斯。
Nvidia在其文件中说:“美国政府表示,新的许可证要求将解决所涉产品可能用于或转用于中国和俄罗斯的'军事最终用途'或'军事最终用户'的风险”。Nvidia此前表示,它为中国市场调整了一些芯片,以符合美国的出口限制。
A100最激烈的竞争可能是其继任者。A100于2020年首次推出,在芯片周期中是一个永恒的话题。2022年推出的H100开始批量生产,事实上,Nvidia周三表示,在截至1月底的季度中,H100芯片的收入超过了A100,尽管H100的单位成本更高。
Nvidia称,H100是其数据中心GPU中第一款针对变压器进行优化的产品,这是一项日益重要的技术,许多最新和顶级的人工智能应用都在使用这项技术。Nvidia在周三表示,它希望使人工智能训练的速度提高100万分之多。这可能意味着,最终,人工智能公司将不需要这么多Nvidia芯片。
所有评论