账号:
密码:
最新动态
 
产业快讯
CTIMES/SmartAuto / 新闻 /
英特尔实验室推出AI扩散模型 从文字提示产生360度影像
 

【CTIMES / SMARTAUTO ABC_1 报导】    2023年06月27日 星期二

浏览人次:【1791】

英特尔实验室与Blockade Labs合作推出Latent Diffusion Model for 3D(LDM3D),这是一款新颖的扩散模型,使用生成式AI创造栩栩如生的3D视觉内容。LDM3D是业界首款使用扩散过程产生深度图的模型,建立可360度观看的生动、沉浸式3D影像。从娱乐、游戏再到建筑、设计等方面,LDM3D具备为内容创作、元宇宙应用和数位体验带来革命性变化的潜力。

英特尔实验室推出AI扩散模型,从文字提示产生360度影像
英特尔实验室推出AI扩散模型,从文字提示产生360度影像

英特尔实验室AI/ML研究科学家Vasudev Lal,生成式AI技术可以进一步扩大和提升人类的创造力并节省宝贵的时间。然而,今日绝大多数的生成式AI模型均局限在产生2D影像,仅有极少数能够从文字提示中产生3D影像。与目前潜在扩散模型(latent diffusion model)不同的是,LDM3D使用叁数数量几??相同的模型,从给定的文字提示中产生影像和深度图。相较於标准深度估测後处理法,可为影像中每个像素提供更准确的相对深度,为开发者节省建构场景所耗费的大量时间。

封闭的生态系仅具备有限的规模,而英特尔真正落实AI民主化的承诺,未来将透过开放式生态系让人们更广泛地运用AI优势。近年来在电脑视觉领域,特别是生成式AI取得显着进展。然而,今日许多先进的生成式AI模型仅限於产生2D影像。与通常仅能从文字提示中产生2D RGB影像的现有扩散模型不同,LDM3D让使用者能够从给定的文字提示中同时产生影像和深度图。LDM3D在使用与潜在扩散模型几??相同的叁数数量情况下,相较标准的深度估测後处理法,为每个像素提供更为精确的相对深度。

这项研究可能彻底改变人们与数位内容的互动方式,使用者能够以过往想像不到的方式去体验他们的文字提示。LDM3D所产生的影像和深度图,让使用者能够把静谧的热带海滩、科幻宇宙中的未来世界,透过文字叙述转换成精细的360度全景图。这种捕捉深度资讯的能力可以立即强化整体的真实感和沉浸感,为娱乐、游戏、室内设计、房地产销售,以及虚拟博物馆和沉浸式虚拟实境(VR)体验等各式各样的行业开启创新应用。

6月20日,LDM3D在电脑视觉与图型辨识会议(CVPR)的3DMV工作坊上获得最隹海报奖(Best Poster Award)。

LDM3D是由LAION-400M资料库中的10,000个样本进行训练,该资料库内含超过4亿个影像与文字标注。该团队使用Dense Prediction Transformer(DPT)大型深度估测模型(先前由英特尔实验室所开发)对训练语料库进行标注。DPT大型模型为影像中的每个像素提供高度精确的相对深度。LAION-400M资料集专为研究目的而打造,让广大的研究人员和其它有兴趣的社群,以更大的规模进行模型训练测试。LDM3D模型在搭载Intel Xeon处理器和Intel Habana Gaudi AI加速器的英特尔AI超级电脑上进行训练。生成的模型和流程结合产生的RGB影像和深度图,可以产生360度视角,带来沉浸式体验。

为证明LDM3D的潜力,英特尔和Blockade的研究人员开发出一款利用标准2D RGB照片和深度图来创造沉浸式、可互动360度视角体验的应用程式━DepthFusion。DepthFusion使用以节点为基础的可视化程式设计语言TouchDesigner,该语言应用於即时互动多媒体内容,能将文字提示转换为可互动和沉浸式的数位体验。LDM3D模型为可同时建立RGB影像及其深度图的单一模型,可节省记忆体耗用量并改善延迟。

LDM3D和DepthFusion的推出,为多视角生成式AI和电脑视觉的进一步发展铺路。英特尔将继续探索运用生成式AI来扩大人类的能力,并建立强大的开放原始码AI研发生态系,让这项技术的使用更加民主化。英特尔持续大力支持AI开放式生态系,目前正透过HuggingFace进行LDM3D开源工作,将让AI研究人员和从业人员能够进一步改善系统,并为客制化应用进行微调。

關鍵字: 沉浸式3D  生成式AI  Intel 
相关新闻
资策会2024 STI TECH DAY 协助企业导入生成式AI应用
亚大生医系获国科会GenAI Star生成式AI百工百业应用竞赛优选
Crayon加入AWS生成式AI合作夥伴创新联盟
生成式AI发展前瞻 资策会携手专家解密趋势
研究:2028年趋势观察 生成式AI将驱动智慧手机市场未来
comments powered by Disqus
相关讨论
  相关文章
» 光通讯成长态势明确 讯号完整性一测定江山
» 分众显示与其控制技术
» 新一代Microchip MCU韧体开发套件 : MCC Melody简介
» 最隹化大量低复杂度PCB测试的生产效率策略
» 公共显示技术迈向新变革


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK8B8AZLQTYSTACUK6
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw