Meta正在通过其新的AI生成器转向视频

AI资讯 2026-01-28 12:14:00 姜婉融

由人工智能驱动的文本到图像生成器，如DALL-E 2和稳定扩散，经历了巨大的一年。在推特上滚动，几乎不可能不看到一些由（通常很荒谬的）书面提示生成的图像。然而，研究人员已经在研究下一代生成器：文本到视频。

在本周发表的一篇论文中， Meta AI的研究人员展示了一种文本转视频生成器，他们称之为Make-A-Video。它需要一个书面提示，比如“一只泰迪熊在画肖像”或“一只穿着超级英雄服装、红色斗篷在天空飞过的狗”，然后返回一个简短的视频剪辑，描述机器学习模型重现它的最佳尝试。这些视频显然是人为的，但仍然非常令人印象深刻。

除了书面提示，Make-A-Video还可以根据其他视频或图像制作视频。它可以为静态图像添加运动，并创建链接两个图像的视频。

目前，Make-A-Video的无声剪辑由64 x 64像素的16帧输出组成，然后使用另一个人工智能模型将其放大到768 x 768像素。它们只有五秒钟长，只描绘一个动作或场景。虽然我们离人工智能从头开始创作故事片还有很长的路要走（尽管人工智能以前写过剧本，甚至导演过电影），但元数据的研究人员打算通过未来的研究来克服其中的一些技术限制。

与最好的文本到图像生成器一样，Make-A-Video使用一种称为“扩散”的技术工作。它从随机生成的噪声开始，然后逐步调整它以更接近目标提示。结果的准确性在很大程度上取决于训练数据的质量。

根据宣布这一消息的博客文章，Make-A-Video的人工智能“从配对的文本图像数据中了解了世界是什么样子，以及世界是如何从没有相关文本的视频片段中移动的。”它接受了来自LAOIN-5B数据库的23亿文本图像对以及来自网络视频-10M和HD-维拉-100M数据库的数百万视频的训练。

Meta声称，带有配对文本的静态图像足以训练文本到视频模型，因为运动、动作和事件可以从图像中推断出来——比如女人喝咖啡或大象踢足球。类似地，即使没有任何文字描述它们，“无监督视频也足以了解世界上不同实体是如何移动和交互的。”Make-A-Video的结果表明他们是对的。

研究人员表示，他们已经尽了最大努力控制训练数据的质量，过滤了LAOIN-5B包含NSFW内容或有毒词语的所有文本图像对的数据集，他们承认，像“所有在网络数据上训练的大型模型一样，[他们的模型已经学会并可能夸大了社会偏见，包括有害的偏见。”防止人工智能创造种族主义、性别歧视和其他冒犯性、不准确或危险的内容是该领域最大的挑战之一。

目前，Make-A-Video仅供Meta的研究人员使用（尽管您可以在此处注册您对访问感兴趣）。尽管该团队展示的视频令人印象深刻，但我们不得不承认，它们可能是为了尽可能好地展示算法而选择的。尽管如此，很难不认识到人工智能图像生成已经走了多远。就在几年前，DALL-E的结果还只是有点有趣——现在它们是逼真的。

对于人工智能来说，从文本到视频的准确程度肯定更具挑战性。正如马克·扎克伯格在Facebook上的一篇帖子中所说，“生成视频比生成照片要困难得多，因为除了正确生成每个像素，系统还必须预测它们会随着时间的推移而发生怎样的变化。”这些视频有一种抽象、不自然、简陋的品质——描绘不那么自然的运动。

尽管质量低劣，扎克伯格称这个工具“取得了相当惊人的进步”。