Cointime

扫码下载App
iOS & Android

微软将数万颗芯片串联成一台价格不菲的超级计算机用于OpenAI

Cointime Official

现在,这家软件制造商的云技术为公司和客户的人工智能产品提供支持,同时它还在组建一款后继产品。

当微软公司于2019年向OpenAI投资10亿美元时,它同意为这家人工智能研究初创公司建造一台大规模的尖端超级计算机。唯一的问题是:微软没有像OpenAI所需要的东西,也不完全确定它能在其Azure云服务中建造这么大的东西而不至于崩溃。

OpenAI试图训练一套越来越大的被称为模型的人工智能程序,这些程序正在吸收更多的数据,并学习越来越多的参数,即人工智能系统通过训练和再训练而发现的变量。这意味着OpenAI需要长期使用强大的云计算服务。

为了应对这一挑战,微软不得不想方设法将数以万计的英伟达公司(Nvidia Corp.)的A100图形芯片(训练人工智能模型的主力)串联起来,并改变其在机架上放置服务器的方式以防止断电。负责云计算和人工智能的微软执行副总裁Scott Guthrie不愿透露该项目的具体成本,但他说 “可能会大于”几亿美元。

微软Azure AI基础设施总经理Nidhi Chappell说:“我们建立了一个系统架构,可以在非常大的规模下运行和可靠。这就是ChatGPT成为可能的原因。这就是其中的一个模型。以后将会有很多很多其他的模式。”

这项技术让OpenAI发布了ChatGPT,这个病毒式的聊天机器人在去年11月上市后几天内就吸引了100多万用户,现在正被拉入其他公司的商业模式,从亿万富翁对冲基金创始人Ken Griffin经营的公司到食品配送服务Instacart Inc. 随着ChatGPT等生成型人工智能工具获得企业和消费者的兴趣,微软、亚马逊公司和Alphabet公司旗下的谷歌等云服务提供商将面临更多压力,以确保其数据中心能够提供所需的巨大计算能力。

现在,微软使用它为OpenAI建立的那套资源来训练和运行自己的大型人工智能模型,包括上个月推出的新的Bing搜索机器人。它还将该系统卖给其他客户。这家软件巨头已经开始着手开发下一代人工智能超级计算机,这是微软与OpenAI扩大交易的一部分,微软在其中增加了100亿美元的投资。

Guthrie在采访中说:“我们没有为他们建造一个定制的东西,它一开始就是一个定制的东西,但我们总是以一种方式来构建它,使任何想要训练大型语言模型的人都可以利用同样的改进。这确实帮助我们成为一个更好的人工智能广泛的云。”

训练一个大规模的人工智能模型需要像微软组装的人工智能超级计算机那样,在一个地方有一个大型的连接图形处理单元池。一旦一个模型投入使用,回答用户提出的所有查询(称为推理)需要一个稍微不同的设置。微软也部署了用于推理的图形芯片,但这些处理器(数十万个)在地理位置上分散在该公司60多个地区的数据中心。微软周一在一篇博文中说: 现在,该公司正在为人工智能工作负载添加最新的Nvidia图形芯片(H100)以及Nvidia最新版本的Infiniband网络技术,以更快地分享数据。

新的必应仍处于预览阶段,微软正在逐步从等待名单中增加更多的用户。Guthrie的团队每天与大约二十几名员工举行会议,他们被称为 “维修人员”,因为他们是在比赛中调整赛车的“机械师”。该小组的工作是弄清楚如何快速上线更多的计算能力,以及解决出现的问题。

Guthrie说:“这在很大程度上是一种集合,就像,'嘿,任何人有一个好主意,让我们今天把它放在桌子上,让我们讨论一下,让我们弄清楚,我们能在这里减少几分钟吗?我们可以减少几个小时吗?几天?”。

云服务依赖于数以千计的不同部件和物品(服务器、管道、建筑物的混凝土、不同的金属和矿物等各个部分)任何一个部件的延迟或短缺,无论多么微小,都会使一切都中断。最近,维修人员不得不处理电缆托架的短缺问题,这种篮子一样的装置用来放置机器上的电缆。所以他们设计了一种新的电缆盘,微软可以自己生产或找地方购买。Guthrie说,他们还在研究如何在全球现有的数据中心中尽可能多地压缩服务器,这样他们就不必等待新的创造。

当OpenAI或微软正在训练一个大型的人工智能模型时,工作在同一时间发生。它被分到所有的GPU上,在某些时候,这些单元需要相互交谈,以分享它们所做的工作。对于人工智能超级计算机,微软必须确保处理所有芯片之间通信的网络设备能够处理这种负载,而且它必须开发软件,使GPU和网络设备得到最佳利用。该公司现在已经提出了一个软件,可以让它训练具有几十万亿个参数的模型。

因为所有的机器都是一次性启动的,所以微软必须考虑到它们的放置位置和电源的位置。Guthrie说,否则就会出现数据中心的情况,就像你在厨房里同时打开微波炉、烤面包机和吸尘器一样。

Azure全球基础设施总监Alistair Speirs说,该公司还必须确保它能够冷却所有这些机器和芯片,并使用蒸发,在较凉爽的气候下使用外部空气,在炎热的气候下使用高科技沼泽冷却器。

Guthrie说,微软将继续研究定制的服务器和芯片设计以及优化其供应链的方法,以获得任何速度上的提高、效率和成本上的节省。

他说:“现在让世界惊叹的模型是建立在我们几年前开始建造的超级计算机上的。新的模型将建立在我们现在正在培训的新的超级计算机上,这台计算机大得多,将实现更多的复杂性”。

评论

所有评论

推荐阅读

  • 美国现货比特币ETF昨日净流出3.8547亿美元

    据TraderT监测,美国现货比特币ETF昨日净流出3.8547亿美元。

  • 6月9日晚间重要动态一览

    12:00-21:00关键词:Turnkey、美国加州、Strategy、Tether 1.Tether在Tron网络铸造10亿枚USDT 2.加密钱包Turnkey完成3000万美元B轮融资 3.美国加州州长纽森:将对特朗普政府提起诉讼 4.Strategy上周耗资1.1亿美元购入1045枚比特币 5.中美经贸磋商机制首次会议在英国伦敦开始举行 6.Tether计划第四季度开源比特币矿机操作系统MOS 7.CoinShares:上周数字资产投资产品净流入2.86亿美元 8.The Blockchain Group联合TOBAM启动3亿欧元比特币增资计划

  • 中美经贸磋商机制首次会议在英国伦敦开始举行

    当地时间6月9日,中共中央政治局委员、国务院副总理何立峰与美方在英国伦敦开始举行中美经贸磋商机制首次会议。

  • 特朗普:密切关注洛杉矶,将向任何地方派军

    美国总统特朗普8日就加利福尼亚州洛杉矶骚乱表示,联邦政府“将向任何地方派遣军队”。美国军方同一天说,大约500名海军陆战队人员正在待命。特朗普告诉媒体记者,洛杉矶的抗议活动是“暴乱”,“我们将向任何地方派遣军队”,“不会让施暴者逍遥法外”。

  • 花旗:预计美联储将在2026年1月和3月(累计)降息50个基点

    花旗:预计美联储将在2026年1月和3月(累计)降息50个基点。

  • 特朗普称决不允许国家撕裂

    美国总统特朗普当地时间6月8日下午在新泽西州换乘“空军一号”登机前对媒体表示,洛杉矶存在“暴力分子”,“还冲执法人员吐口水、投掷东西”,但他们“吐口水就得挨揍”,“他们休想逍遥法外”。当被问及是否计划向洛杉矶派遣军队时,特朗普回应称,“我们将在各地部署军队,绝不允许国家被撕裂,不会重蹈拜登任内的覆辙。”特朗普同时警告称,阻挠非法移民驱逐行动的加州官员将面临指控。

  • 美联储任命 Michael Horowitz 担任新一任监察长,负责内部监督

    美联储近日宣布,迈克尔·霍洛维茨(Michael Horowitz)将出任美联储新任监察长。霍洛维茨接替自 2011 年起担任该职并于今年4月退休的Mark Bialek。作为美联储监察长,他还负责对消费者金融保护局(CFPB)进行独立监督。他此前的职务是司法部监察长(IG)。美联储的监察长是由主席挑选的,这在政府监管机构中不同寻常。一些参议员认为,这种安排使监察长无法对美联储进行真正的监督,他们已提出立法,要求由总统来挑选监察长,然后经参议院确认。在美联储内幕交易风波后,美联储监察长成为公众关注的焦点,该机构负责评判一些联储官员的交易行为是否符合道德要求。

  • 去中心化人工智能公司RabitiAI完成500万美元融资

    去中心化人工智能公司RabitiAI宣布完成500万美元融资,Nortiyus领投,新资金拟用于支持其构建工具和基础设施,使用户能够在基于跨区块链的架构上部署和管理人工智能模型,目前其解决方案主要应用于医疗、金融和物流等领域,预计将于今年Q3发布企业级商业版本去中心化AI工具。

  • 日本参议院通过《资金结算法》修正案,确立加密资产中介业新制度

    日本参议院于 6 月 6 日通过《资金结算法》修正案,确立 “加密资产中介业” 新制度,允许企业在无需注册为加密资产交换业者的前提下,从事撮合服务,旨在降低市场准入门槛、推动加密金融创新。 修正案还新增 “国内保有命令”条款,赋予政府在必要时命令平台将部分用户资产留存在日本境内的权力,以防止类似 FTX 破产事件造成的资产外流风险。新法预计将在公布日起一年内正式施行。

  • 何立峰将访问英国并举行中美经贸磋商机制首次会议

    外交部发言人宣布:应英国政府邀请,中共中央政治局委员、国务院副总理何立峰将于 6 月 8 日至 13 日访问英国。其间,将与美方举行中美经贸磋商机制首次会议。