人工智能正试图更好地掌握双手

AI资讯 2026-01-28 12:06:53 申屠艳菁

人工智能文本到图像生成器在很短的时间内取得了长足的进步，可以说是令人不安的，但有一部分人体解剖结构他们仍然无法完全掌握：手。今年早些时候，艺术家、佛罗里达大学人工智能和艺术副教授阿米莉亚·温格-熊皮金在接受BuzzFeed采访时解释说，直到现在，人工智能程序基本上还不确定“手”到底是什么。“在图像中，手是非常微妙的，”她当时说。“他们通常抓住某样东西。或者有时，他们抓住另一个人。”虽然过去几个月取得了一些进展，但仍有相当大的改进空间。

尽管一开始这听起来很奇怪，但快速浏览一下我们的附肢的复杂性就可以很快揭示为什么会这样。除非你能确定无数的发音点、各种姿势、皮肤皱纹、静脉和无数其他精确的细节，否则手的渲染会迅速演变成一个怪异和不准确的不可思议的山谷。此外，人工智能程序根本没有像面部和全身那样多的大而高质量的手的图像来学习。但是当人工智能仍然在与这个问题作斗争时——通常会得到极其令人费解、荒谬和彻底令人沮丧的结果——中国合肥科技大学的程序员正在研究一个令人惊讶的简单解决方案：训练人工智能专门研究和改进手的生成。

[相关：人工智能广阔世界的简单指南。]

在最近发表的一篇研究论文中，该团队详细介绍了他们是如何避开更常见的扩散图像制作技术，转而使用所谓的神经辐射场的。正如《新科学家》所指出的，这种3D建模依赖于神经网络，以前曾被谷歌研究公司和瓦伊莫用来创建无缝的大规模城市景观模型。

论文摘要的一部分写道：“通过在[NeRF中引入手部映射和光线合成策略，我们可以自然地处理交互接触，并在双手很少观察到的区域补充几何和纹理。”并补充说，该团队的“HandNeRF”程序与单手和两只交互手都兼容。在这个更新的过程中，一只或多只手的多视图图像最初由“现成的骨架估计器”使用，从内部参数化手的姿势。然后，研究人员通过HandNeRF程序使用变形场，该程序生成我们上部附肢的图像结果，这些图像的形状和表面更加逼真。

尽管NeRF成像很难训练，也不能自己生成完整的文本到图像的结果，但《新科学家》还解释说，将其与扩散技术相结合可能会为人工智能的几代人提供一条新的前进道路。然而，在那之前，大多数程序员将不得不想办法解决人工智能对人类手的糟糕掌握。