机器人现在可以在网络的帮助下更好地了解我们

AI资讯 2026-01-28 12:03:07 水林凝

科技巨头谷歌及其子公司人工智能研究实验室DeepMind创造了一种基本的人机翻译。他们称之为“首创的vision-language-action模型”周五，两人在两个单独的公告中表示，这种名为RT-2的模型接受了语言和视觉输入的训练，旨在将网络知识转化为机器人可以理解和响应的指令。

在一系列试验中，该机器人证明它可以识别和区分不同国家的国旗、篮球中的足球、泰勒斯威夫特等流行偶像以及一罐红牛等物品。

“寻找有用的机器人一直是一项艰巨的工作，因为一个能够在世界上完成一般任务的机器人需要能够在高度可变的环境中处理复杂、抽象的任务——尤其是以前从未见过的任务，”谷歌DeepMind机器人主管文森特·范豪克在一篇博客文章中说。“与聊天机器人不同，机器人需要在现实世界及其能力中‘扎根’……机器人需要能够在上下文中识别苹果，将它与红球区分开来，理解它的样子，最重要的是，知道如何拿起它。”

这意味着训练机器人传统上需要从头开始生成数十亿个数据点，以及特定的指令和命令。像告诉机器人扔掉一块垃圾这样的任务涉及程序员明确训练机器人识别垃圾、垃圾桶，以及采取什么行动来捡起和扔掉物体。

在过去的几年里，谷歌一直在探索用教人类（或狗）的方式教机器人完成任务的各种途径。去年，谷歌展示了一种机器人，它可以根据人类的自然语言指令编写自己的代码。谷歌的另一家子公司“日常机器人”试图使用一种名为“SayCan”的模型，将用户输入与预测的反应配对。该模型从维基百科和社交媒体上提取信息。

[相关：谷歌正在测试一种可以自行编程的新机器人]

RT-2建立在一个名为RT-1的类似前身模型的基础上，该模型允许机器通过一系列基本推理来解释新的用户命令。此外，RT-2拥有与符号理解和人类识别相关的技能——谷歌认为这些技能将使其成为在以人为中心的环境中工作的通用机器人。DeepMind和谷歌在网上发表的一篇论文中提供了更多关于机器人能做什么和不能做什么的细节。

[相关：人工智能广阔世界的简单指南]

RT-2还借鉴了视觉语言模型（VLM）所做的工作，这些模型已被用于为图像添加标题、识别框架中的对象或回答有关某张图片的问题。因此，与SayCan不同的是，该模型实际上可以看到周围的世界。但为了使VLM能够控制机器人，需要在其上添加一个输出动作组件。这是通过将机器人可以执行的不同动作表示为模型中的标记来完成的。有了这个，模型不仅可以预测某人查询的答案可能是什么，还可以生成最有可能与之相关的动作。

DeepMind指出，例如，如果一个人说他们累了并想喝一杯，机器人可以决定给他们买一杯能量饮料。