为什么你还不能使用谷歌令人印象深刻的文本到图像生成器Imagen
这篇文章最初是在《大众摄影》上发表的。
急性柯基犬生活在寿司做的房子里;雪地里戴着空手道腰带的火龙果;骑着火箭飞船奔向月球的大脑。这些只是谷歌Imagen文本到图像扩散模型生成的人工智能生成的图像中的一小部分,结果非常准确——有时非常幽默。谷歌的研究人员最近在上个月发表的一篇论文中公布了这些结果,并讨论了使用这项最新技术带来的道德影响。
谷歌的Imagen击败了竞争对手
在他们的研究论文中,谷歌计算机科学家证实,现有的预训练大型语言模型在从文本输入创建图像方面表现相当出色。使用Imagen,他们只是增加了语言模型的大小,并发现它导致了更准确的结果。
为了衡量结果,Imagen使用了上下文中的公共对象(COCO)数据集,这是一个开源的视觉数据集纲要,公司和研究人员可以在上面训练他们的人工智能算法进行图像识别。这些模型获得弗雷切特初始距离(FID)分数,该分数根据数据集的提示计算它们渲染图像的准确性。较低的分数表明真实图像和生成图像之间有更多的相似之处,满分为0.0。谷歌的Imagen扩散模型可以创建1024×1024像素的样本图像,FID分数为7.27。
根据这篇研究论文,与包括DALL-E 2、VQ-GAN+CLIP和潜在扩散模型在内的其他模型相比,Imagen以其FID分数位居榜首。发现表明Imagen也受到人类评分者的青睐。
谷歌计算机科学家报告称:“对于照片真实感,Imagen达到了39.2%的偏好率,这表明画质生成率很高。在没有人的场景中,Imagen的偏好率提高到43.6%,这表明Imagen生成照片真实感人物的能力有限。在字幕相似度方面,Imagen的得分与原始参考图像持平,这表明Imagen能够生成与COCO字幕非常一致的图像。”
除了COCO数据集,谷歌团队还创建了自己的数据集,他们称之为DrawBench。该基准由严格的场景组成,测试不同模型基于“构图、基数、空间关系、长篇文本、罕见单词和具有挑战性的提示”合成图像的能力,超越了更有限的COCO提示。
Imagen和其他AI文本到图像软件的道德含义
所有的样本图像都没有人是有原因的。在他们的结论中,Imagen团队讨论了这项技术的潜在道德影响和社会影响,这并不总是最好的。该程序已经展示了西方的偏见和观点。虽然承认有无限创造力的潜力,但不幸的是,也有一些人可能会试图利用该软件进行伤害。正是因为这个原因,以及其他原因,Imagen无法公开使用——但这可能会改变。
研究人员写道:“另一方面,生成方法可能被用于恶意目的,包括骚扰和虚假信息传播,并引发了许多关于社会和文化排斥和偏见的担忧。这些考虑决定不发布代码或公开演示。在未来的工作中,我们将探索一个负责任的外部化框架,平衡外部审计的价值和不受限制的开放访问的风险。”
此外,研究人员指出,由于Imagen接受训练的可用数据集,该程序表现出偏见。“数据集审计显示,这些数据集倾向于反映社会刻板印象、压迫性观点以及对边缘化身份群体的贬损或其他有害联系。”
虽然这项技术肯定很有趣(谁不想在看报纸的时候拍出一张外星章鱼漂浮在传送门上的照片?),但很明显,在Imagen(和其他程序)负责任地向公众发布之前,它还需要更多的工作和研究。一些,比如Dall-E 2,已经部署了保护措施,但效果还有待观察。Imagen承认彻底减轻负面后果是一项艰巨但必要的任务。
“虽然我们在这项工作中没有直接解决这些挑战,但意识到我们训练数据的局限性指导我们决定不发布Imagen供公众使用,”他们最后说。“我们强烈警告不要在没有密切关注训练集内容的情况下,为任何面向用户的工具使用文本到图像的生成方法。”
为什么你还不能使用谷歌令人印象深刻的文本到图像生成器Imagen