Cointime

扫码下载App
iOS & Android

OpenAI放出最新文字生成3D模型Shap.E,公开论文、模型和代码!

今天,OpenAI悄悄的发布了文字生成3D的模型Shap.E,并且在Github上开源的模型。

OpenAI总裁发推:

文字生成3D一直Generative AI领域的下一个明珠,就在最近Midjourney也被报道正在进行相关研究,OpenAI和各家大厂也进行过类似的研究。

text to 3d是一种将文本描述转换为三维模型的技术,近年来有很多研究机构和公司在这方面进行了探索和创新:

  • Magic3D:这是NVIDIA研究院的一个新的text to 3d内容创作工具,它可以创建高质量的三维网格模型,并且支持图像条件生成和基于提示的编辑。它利用了低分辨率和高分辨率的扩散模型,以及一个高效的可微渲染器,来优化神经辐射场(NeRF),从而实现了比DreamFusion更快更清晰的text to 3d合成效果。
  • Point-E:这是OpenAI发布的一个text to 3d生成器,它可以从文本输入生成点云模型,而不是网格或表面模型。它的优点是生成速度快,计算资源少,只需要一块GPU就可以在几分钟内完成text to 3d转换。它还可以与OpenAI的点云到网格模型结合,从而得到更完整的三维模型。
  • Imagen:这是Google开发的一个神经网络,它可以从文本描述生成三维模型,并且不需要人工标注数据。它基于一个预训练的图像生成模型,通过自注意力机制和对抗学习,来学习文本和图像之间的对应关系,并且能够处理复杂和抽象的文本输入。

OpenAI公布了详细的论文,以及在Github上公布了模型。

https://github.com/openai/shap-e

根据论文的内容:

作者们提出了一种名为Shap·E的3D生成模型。Shap·E与其他3D生成模型的不同之处在于,它可以同时生成两种类型的3D表示:纹理网格(textured meshes)和神经辐射场(neural radiance fields)。这使得生成的3D模型可以通过多种方式渲染或导入其他3D应用程序。

为了实现这一目标,作者们分两个阶段训练Shap·E模型。首先,他们训练一个编码器,将3D资源确定性地映射到隐含函数的参数。其次,他们在编码器的输出上训练一个条件扩散模型。在大量成对的3D和文本数据集上训练后,Shap·E能够在短短几秒钟内生成复杂且多样化的3D资源。

与最近提出的基于点云的显式3D生成模型Point·E相比,Shap·E收敛得更快,并在相同的模型架构、数据集和条件机制下实现了可比较甚至更好的样本质量。有趣的是,Shap·E和Point·E在图像条件下的成功和失败案例相似,这表明不同的输出表示方式可能会导致类似的模型行为。然而,在直接使用文本描述进行条件化时,两者之间还是存在一些质量上的差异。

尽管Shap·E模型在文本条件下的3D生成样本质量仍不如基于优化的方法,但其推理时间比这些方法快得多,从而可能实现更优的性能权衡。作者在https://github.com/openai/shap-e上发布了模型、推理代码和样本。

作者将Shap·E与其他3D生成技术进行了比较,使用了CLIP R-Precision指标(见表2)。正如Nichol等人所做的那样,他们在这个表格中包括了采样延迟,以强调基于优化的方法在生成质量上的优越性是以显著的推理成本为代价的。

值得注意的是,Shap·E的推理速度比Point·E更快,因为Shap·E不需要额外的上采样扩散模型。

作者也提到了模型目前的缺陷包括:

首先,虽然基于文本的模型可以理解许多具有简单属性的单个物体,但它在组合概念方面的能力有限。例如,该模型在处理需要计数和属性绑定的提示时可能会遇到困难。这些问题可能是由于有限的成对训练数据所导致的,通过收集或生成更大的带注释的3D数据集可能有助于解决这些问题。

其次,尽管Shap·E通常可以生成可识别的3D资产,但生成的样本通常看起来粗糙或缺乏细节。例如,编码器有时会丢失详细的纹理(如仙人掌上的条纹),这表明改进的编码器可能有助于恢复一些丢失的生成质量。

文字生成3D的研究虽然还不如图片成熟,但是这是一个非常重要的方向因为:

  • 它可以提高三维内容创作的效率和质量:text to 3d可以让用户通过简单的文本描述来生成高质量的三维模型,而不需要复杂的建模软件或专业的设计技能。text to 3d还可以结合图像条件生成和基于提示的编辑,让用户更好地控制三维合成的过程和结果。text to 3d可以为各种领域提供更快速、更便捷、更创新的三维内容创作工具。
  • 它可以拓展三维内容的应用场景和价值:text to 3d可以将文本转换为不同格式的三维模型,如网格、点云、神经辐射场等,适合用于不同的应用场景,如游戏、动画、教育、娱乐等。text to 3d还可以与其他技术结合,如虚拟现实、增强现实、3D打印等,为用户提供更丰富和更沉浸的三维体验。
  • 它可以促进三维内容的共享和交流:text to 3d可以将文本作为一种通用和易于理解的媒介,来表达和传递三维内容。text to 3d可以让用户通过文本来搜索、浏览、评论、修改或生成三维内容,而不需要下载或安装任何软件或数据。text to 3d可以为用户提供更方便和更友好的三维内容共享和交流平台
评论

所有评论

推荐阅读

  • 8月5日午间重要动态一览

    7:00-12:00关键词:Bitsonic、Coinbase、白宫 1.特朗普发文庆祝美股大涨:这样的上涨还会有很多; 2.韩国加密货币交易所Bitsonic代表因涉嫌1亿韩元诈骗案再次入狱; 3.Coinbase CEO:美国政府将持有超过6000亿美元的比特币储备; 4.Benchmark:Coinbase盈利疲软和股价下跌“从大局来看无关紧要”; 5.Coinbase与PayPal坚持发放稳定币奖励,回应《GENIUS法案》监管争议; 6.Bitcoin Magazine CEO David Bailey计划为新政治行动委员会筹集2亿美元; 7.The ETF Store总裁:白宫正在准备一项行政命令,旨在惩罚歧视加密货币公司的银行。

  • USDC Treasury新增铸造3.16亿枚USDC

    过去 3 小时内,USDC Treasury 新增铸造 316,765,680 枚 USDC。

  • 8月5日隔夜重要动态一览

    21:00-7:00关键词:OpenMind、欧盟、降息

  • The ETF Store总裁:白宫正在准备一项行政命令,旨在惩罚歧视加密货币公司的银行

    The ETF Store总裁Nate Geraci在X平台发文表示,白宫正在准备一项行政命令,旨在惩罚那些歧视加密货币公司的银行。

  • IPO在即,灰度创始人Barry Silbert回归出任董事会主席

    Grayscale Investments 在提交保密 IPO 申请后,宣布四项高管任命并迎回创始人 Barry Silbert 担任董事会主席。新任命的高管包括:首席运营官 Diana Zhang、首席营销官拉蒙娜·波士顿 Ramona Boston、首席传讯官 Andrea Williams、首席人力资源官 Maxwell Rosenthal。四位高管都将向灰度首席执行官 Peter Mintzberg 汇报,他们均来自传统金融巨头,包括桥水基金、阿波罗全球管理、高盛和城堡投资。 Barry Silbert 于 2013 年创立灰度,于 2023 年底辞去灰度董事长一职,此次将接替 Mark Shifke 担任董事会主席,Shifke 将继续留任董事会,目前董事会成员已增至五人。公司表示正在考虑增加独立董事。 Barry Silbert 表示:「我很荣幸能够在公司乃至更广泛的数字资产生态系统的关键时刻重新加入灰度董事会。我始终坚信公司的长期定位以及引领公司前进的领导团队。」

  • SharpLink Gaming增持18,680枚以太坊,总持有498,884枚

    据链上分析师 Onchain Lens 监测,SharpLink Gaming(股票代码:SBET)今日再次增持18,680枚以太坊,价值约6,663万美元。此次增持后,该公司以太坊储备总量达到498,884枚,总价值约18亿美元。

  • Bullish向美国证交会提交IPO申请,拟募资6.29亿美元

    数字资产交易所Bullish及其子公司CoinDesk已向美国证券交易委员会(SEC)提交首次公开募股(IPO)申请。根据申请文件,Bullish计划发行2030万股,发行价区间为28-31美元/股,最高募资金额为6.29亿美元,对应公司估值约42亿美元。 Bullish业务范围包括数字资产现货交易、杠杆交易和衍生品交易,同时为稳定币发行机构提供流动性服务。财务数据显示,该公司2025年第一季度数字资产销售额达8020万美元,净亏损3.49亿美元。Bullish曾于2023年以7260万美元收购加密货币媒体平台CoinDesk。

  • 欧盟将对美国的贸易反制措施暂停6个月

    市场消息:欧盟将对美国的贸易反制措施暂停6个月

  • 去中心化操作系统 OpenMind 完成 2000 万美元融资,Pantera Capital 领投

    智能机器去中心化操作系统 OpenMind 宣布完成 2000 万美元融资,Pantera Capital 领投,Coinbase Ventures、Digital Currency Group 和 Ribbit 等参投。 据悉,这家初创公司正在开发一款名为 FABRIC 的“硬件无关”操作系统,旨在支持“智能机器融入日常生活”。该协议为支持人工智能的机器人提供了一种通信和协调的方式。

  • 加强个人境外收入监管 境外买卖股票收入也要缴税

    《金融时报》刊文,据了解,近期有纳税人收到了税务部门通知,告知其需要依法办理境外所得申报并缴纳相应税款。“根据我国个人所得税法,个人股票交易所得属于财产转让所得,应当适用20%的税率按次征收。其中,个人在境内二级市场的股票交易所得暂免征收个人所得税;在境外直接进行股票交易所得没有免税规定,需要在取得所得的次年申报纳税。”吉林财经大学税务学院院长张巍解释说。为了更加合理的征收,我国税务部门在征管时,允许纳税人按照纳税年度盈亏相抵,但不允许跨年互抵。依法纳税是每个公民应尽的义务。个人未申报或者未如实申报境外所得,除了会被税务机关要求补缴税款外,还会被加收滞纳金,情形严重的还可能被稽查部门立案检查,将面临税务处罚。纳税人如果发现自己此前申报个税时,存在少报、漏报境外所得的,要及时补正。