Adobe的新AI可以将2D照片变成3D场景
今天,在奥多比MAX公司的年度创意会议上,奥多比将预览一项名为“超越所见”的新技术。该技术利用人工智能扩展二维图像的边界,甚至将它们变成身临其境的三维场景。虽然只是一个演示,但它展示了为特定目的设计的人工智能图像生成器如何具有深远的商业和艺术应用。
图像生成器的工作原理是从建筑物内部拍摄风景或照片,并将其扩展为相机周围的完整360度球形全景。当然,它无法知道相机后面到底有什么,所以它使用机器学习来创建一个合理且无缝的环境——无论输入的图像是山区景观还是音乐厅内部。Adobe的算法还可以估计新环境的3D几何形状,这使得视点能够改变,甚至让相机看起来在环境中移动。
虽然图像扩展或外绘并不新鲜,但奥多比的人工智能生成器是第一个专门围绕它构建的。例如,DALL-E 2允许用户在小块中扩展他们的图像,而稳定扩散需要解决。
Adobe的AI图像生成器在几个关键方面与DALL-E 2和稳定扩散等更通用的图像生成器略有不同。首先,它在一个更有限的数据集上进行训练,并考虑到特定的目的。DALL-E 2和稳定扩散是在数十亿个文本图像对上进行训练的,涵盖了从鳄梨和艾薇儿·拉维尼到斑马和赞达亚的所有概念。Adobe的生成器专门在大约25万张高分辨率360度全景图的数据集上进行训练。这意味着它非常擅长从种子图像生成逼真的环境,但它没有文本到图像的功能(换句话说,你不能输入文本提示并得到奇怪的结果)或任何其他通用生成功能。这是一个具有特定工作的工具。然而,它输出的图像要大得多。
Adobe的生成器目前使用一种称为通用对抗网络或GAN的人工智能技术,而不是扩散模型。GAN通过使用两个神经网络相互对抗来工作。生成器负责创建新的输出,判别器必须猜测它呈现的任何图像是生成器的输出还是训练集的实际图像。随着生成器在创建逼真图像方面变得更好,它在愚弄判别器方面变得更好,从而创建了一个有效的图像生成算法。
与此同时,DALL-E 2和稳定扩散使用的扩散模型从随机噪声开始,并对其进行编辑以创建一个可信的图像。最近的研究表明,它们可以产生比GAN更逼真的结果。考虑到这一点,奥多比研究副总裁兼负责人加文·米勒告诉PopSci,该算法可以在商业发布前调整为使用扩散模型。
尽管这项技术仍处于早期开发阶段,但Adobe强调了这项技术的几个潜在用途。虽然有人声称元宇宙和从2D快照生成3D世界,但可能首先证明有价值的是常规的图像扩展功能。Adobe在演示视频中展示的一个例子是,它的算法如何允许将“镜面”(或闪亮)渲染的对象插入图像中。人工智能生成器被用来推断相机后面和物体上方可能存在的东西,以便从闪亮的物体上创建逼真的反射。这种东西可以让建筑师和室内设计师更容易地为他们的项目创建看起来准确的效果图。
同样,它将允许摄影师和摄像师以更自然的方式扩展他们图像的背景。米勒解释说,自2010年以来,Adobe的Photoshop等应用程序中的内容感知工具能够生成自然纹理,而新的生成模型能够创建纹理和结构。
米勒说,虽然还没有消息说这项技术什么时候会向公众开放,但今天披露这项技术只是奥多比正在追求的“更具创造性技术的更大议程的一部分”。用硬件创建360度全景图一直是可能的,但很快就有可能只用软件创建逼真的全景图。 这真的可以改变事情——是的,也许可以让小型创作者创造与Metaverse相邻的体验。
Adobe的新AI可以将2D照片变成3D场景