观看用于训练AI的奇怪视频，不同的动作是什么样子的

AI资讯 2026-01-28 12:25:20 孟荔萍

通过GIPHY

想想动词“移除”。作为一个人，你理解这个词的不同用法——你知道，从视觉上看，一个场景看起来会有所不同，这取决于从什么中移除了什么。从更大的块中拉出一块蜂窝看起来不同于从田野中拉出防水布，或者从智能手机上分离屏幕保护膜。但你明白了：在所有这些例子中，都有东西被移除了。

然而，需要教计算机和人工智能系统这样的动作是什么样子的。为了帮助实现这一目标，IBM最近发布了一个新的三秒钟视频拆条大数据集，旨在让研究人员通过给他们提供“瞄准”、“潜水”和“除草”等动作动词的视觉例子来帮助训练他们的机器学习系统。探索它（上面的汽车视频和下面的蜜蜂视频来自数据集，并说明了“移除”）提供了一个进入学习机器的香肠制作过程的奇怪之旅。在“眨眼”下，观众可以看到乔恩·哈姆扮演唐·德雷珀眨眼的片段，以及辛普森一家的片刻；还有更多的来源。在这里查看数据集的一部分——总共有300多个动词和100万个视频。

通过GIPHY

教计算机如何理解视频中的动作比让它们理解图像更难。“视频更难，因为如果我们将它与物体识别进行比较，我们正在处理的问题在复杂性方面就高了一步，”IBM-麻省理工学院联合实验室的研究员丹·古特弗伦德说。“因为物体就是物体；热狗就是热狗。”与此同时，他说，理解动词“打开”很棘手，因为狗张开嘴，或者一个人打开门，看起来会有所不同。

这个数据集并不是研究人员为帮助机器理解图像或视频而创建的第一个数据集。一个名为ImageNet的数据集在教计算机学习识别图片方面发挥了重要作用，其他视频数据集也已经出现了：一个名为Kinetics，另一个专注于运动，还有一个来自中佛罗里达大学，包含“篮球扣篮”等动作

但是古特弗伦德说，他们新数据集的优势之一是它专注于他所说的“原子动作”这些包括基础知识，从“攻击”到“打哈欠”古特弗伦德说，将事物分解成原子动作比专注于更复杂的动作更好，比如给某人看换轮胎或系领带。

最终，他说他希望这个数据集将帮助计算机模型能够像我们人类一样轻松地理解简单的动作。