Cointime

扫码下载App
iOS & Android

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

今天,OpenAI悄悄的发布了文字生成3D的模型Shap.E,并且在Github上开源的模型。

OpenAI总裁发推:

文字生成3D一直Generative AI领域的下一个明珠,就在最近Midjourney也被报道正在进行相关研究,OpenAI和各家大厂也进行过类似的研究。

text to 3d是一种将文本描述转换为三维模型的技术,近年来有很多研究机构和公司在这方面进行了探索和创新:

  • Magic3D:这是NVIDIA研究院的一个新的text to 3d内容创作工具,它可以创建高质量的三维网格模型,并且支持图像条件生成和基于提示的编辑。它利用了低分辨率和高分辨率的扩散模型,以及一个高效的可微渲染器,来优化神经辐射场(NeRF),从而实现了比DreamFusion更快更清晰的text to 3d合成效果。
  • Point-E:这是OpenAI发布的一个text to 3d生成器,它可以从文本输入生成点云模型,而不是网格或表面模型。它的优点是生成速度快,计算资源少,只需要一块GPU就可以在几分钟内完成text to 3d转换。它还可以与OpenAI的点云到网格模型结合,从而得到更完整的三维模型。
  • Imagen:这是Google开发的一个神经网络,它可以从文本描述生成三维模型,并且不需要人工标注数据。它基于一个预训练的图像生成模型,通过自注意力机制和对抗学习,来学习文本和图像之间的对应关系,并且能够处理复杂和抽象的文本输入。

OpenAI公布了详细的论文,以及在Github上公布了模型。

https://github.com/openai/shap-e

根据论文的内容:

作者们提出了一种名为Shap·E的3D生成模型。Shap·E与其他3D生成模型的不同之处在于,它可以同时生成两种类型的3D表示:纹理网格(textured meshes)和神经辐射场(neural radiance fields)。这使得生成的3D模型可以通过多种方式渲染或导入其他3D应用程序。

为了实现这一目标,作者们分两个阶段训练Shap·E模型。首先,他们训练一个编码器,将3D资源确定性地映射到隐含函数的参数。其次,他们在编码器的输出上训练一个条件扩散模型。在大量成对的3D和文本数据集上训练后,Shap·E能够在短短几秒钟内生成复杂且多样化的3D资源。

与最近提出的基于点云的显式3D生成模型Point·E相比,Shap·E收敛得更快,并在相同的模型架构、数据集和条件机制下实现了可比较甚至更好的样本质量。有趣的是,Shap·E和Point·E在图像条件下的成功和失败案例相似,这表明不同的输出表示方式可能会导致类似的模型行为。然而,在直接使用文本描述进行条件化时,两者之间还是存在一些质量上的差异。

尽管Shap·E模型在文本条件下的3D生成样本质量仍不如基于优化的方法,但其推理时间比这些方法快得多,从而可能实现更优的性能权衡。作者在https://github.com/openai/shap-e上发布了模型、推理代码和样本。

作者将Shap·E与其他3D生成技术进行了比较,使用了CLIP R-Precision指标(见表2)。正如Nichol等人所做的那样,他们在这个表格中包括了采样延迟,以强调基于优化的方法在生成质量上的优越性是以显著的推理成本为代价的。

值得注意的是,Shap·E的推理速度比Point·E更快,因为Shap·E不需要额外的上采样扩散模型。

作者也提到了模型目前的缺陷包括:

首先,虽然基于文本的模型可以理解许多具有简单属性的单个物体,但它在组合概念方面的能力有限。例如,该模型在处理需要计数和属性绑定的提示时可能会遇到困难。这些问题可能是由于有限的成对训练数据所导致的,通过收集或生成更大的带注释的3D数据集可能有助于解决这些问题。

其次,尽管Shap·E通常可以生成可识别的3D资产,但生成的样本通常看起来粗糙或缺乏细节。例如,编码器有时会丢失详细的纹理(如仙人掌上的条纹),这表明改进的编码器可能有助于恢复一些丢失的生成质量。

文字生成3D的研究虽然还不如图片成熟,但是这是一个非常重要的方向因为:

  • 它可以提高三维内容创作的效率和质量:text to 3d可以让用户通过简单的文本描述来生成高质量的三维模型,而不需要复杂的建模软件或专业的设计技能。text to 3d还可以结合图像条件生成和基于提示的编辑,让用户更好地控制三维合成的过程和结果。text to 3d可以为各种领域提供更快速、更便捷、更创新的三维内容创作工具。
  • 它可以拓展三维内容的应用场景和价值:text to 3d可以将文本转换为不同格式的三维模型,如网格、点云、神经辐射场等,适合用于不同的应用场景,如游戏、动画、教育、娱乐等。text to 3d还可以与其他技术结合,如虚拟现实、增强现实、3D打印等,为用户提供更丰富和更沉浸的三维体验。
  • 它可以促进三维内容的共享和交流:text to 3d可以将文本作为一种通用和易于理解的媒介,来表达和传递三维内容。text to 3d可以让用户通过文本来搜索、浏览、评论、修改或生成三维内容,而不需要下载或安装任何软件或数据。text to 3d可以为用户提供更方便和更友好的三维内容共享和交流平台
评论

所有评论

推荐阅读

  • 美国现货比特币ETF昨日净流出3.8547亿美元

    据TraderT监测,美国现货比特币ETF昨日净流出3.8547亿美元。

  • 6月9日晚间重要动态一览

    12:00-21:00关键词:Turnkey、美国加州、Strategy、Tether 1.Tether在Tron网络铸造10亿枚USDT 2.加密钱包Turnkey完成3000万美元B轮融资 3.美国加州州长纽森:将对特朗普政府提起诉讼 4.Strategy上周耗资1.1亿美元购入1045枚比特币 5.中美经贸磋商机制首次会议在英国伦敦开始举行 6.Tether计划第四季度开源比特币矿机操作系统MOS 7.CoinShares:上周数字资产投资产品净流入2.86亿美元 8.The Blockchain Group联合TOBAM启动3亿欧元比特币增资计划

  • 中美经贸磋商机制首次会议在英国伦敦开始举行

    当地时间6月9日,中共中央政治局委员、国务院副总理何立峰与美方在英国伦敦开始举行中美经贸磋商机制首次会议。

  • 特朗普:密切关注洛杉矶,将向任何地方派军

    美国总统特朗普8日就加利福尼亚州洛杉矶骚乱表示,联邦政府“将向任何地方派遣军队”。美国军方同一天说,大约500名海军陆战队人员正在待命。特朗普告诉媒体记者,洛杉矶的抗议活动是“暴乱”,“我们将向任何地方派遣军队”,“不会让施暴者逍遥法外”。

  • 花旗:预计美联储将在2026年1月和3月(累计)降息50个基点

    花旗:预计美联储将在2026年1月和3月(累计)降息50个基点。

  • 特朗普称决不允许国家撕裂

    美国总统特朗普当地时间6月8日下午在新泽西州换乘“空军一号”登机前对媒体表示,洛杉矶存在“暴力分子”,“还冲执法人员吐口水、投掷东西”,但他们“吐口水就得挨揍”,“他们休想逍遥法外”。当被问及是否计划向洛杉矶派遣军队时,特朗普回应称,“我们将在各地部署军队,绝不允许国家被撕裂,不会重蹈拜登任内的覆辙。”特朗普同时警告称,阻挠非法移民驱逐行动的加州官员将面临指控。

  • 美联储任命 Michael Horowitz 担任新一任监察长,负责内部监督

    美联储近日宣布,迈克尔·霍洛维茨(Michael Horowitz)将出任美联储新任监察长。霍洛维茨接替自 2011 年起担任该职并于今年4月退休的Mark Bialek。作为美联储监察长,他还负责对消费者金融保护局(CFPB)进行独立监督。他此前的职务是司法部监察长(IG)。美联储的监察长是由主席挑选的,这在政府监管机构中不同寻常。一些参议员认为,这种安排使监察长无法对美联储进行真正的监督,他们已提出立法,要求由总统来挑选监察长,然后经参议院确认。在美联储内幕交易风波后,美联储监察长成为公众关注的焦点,该机构负责评判一些联储官员的交易行为是否符合道德要求。

  • 去中心化人工智能公司RabitiAI完成500万美元融资

    去中心化人工智能公司RabitiAI宣布完成500万美元融资,Nortiyus领投,新资金拟用于支持其构建工具和基础设施,使用户能够在基于跨区块链的架构上部署和管理人工智能模型,目前其解决方案主要应用于医疗、金融和物流等领域,预计将于今年Q3发布企业级商业版本去中心化AI工具。

  • 日本参议院通过《资金结算法》修正案,确立加密资产中介业新制度

    日本参议院于 6 月 6 日通过《资金结算法》修正案,确立 “加密资产中介业” 新制度,允许企业在无需注册为加密资产交换业者的前提下,从事撮合服务,旨在降低市场准入门槛、推动加密金融创新。 修正案还新增 “国内保有命令”条款,赋予政府在必要时命令平台将部分用户资产留存在日本境内的权力,以防止类似 FTX 破产事件造成的资产外流风险。新法预计将在公布日起一年内正式施行。

  • 何立峰将访问英国并举行中美经贸磋商机制首次会议

    外交部发言人宣布:应英国政府邀请,中共中央政治局委员、国务院副总理何立峰将于 6 月 8 日至 13 日访问英国。其间,将与美方举行中美经贸磋商机制首次会议。