观察当人工智能教机器人“手”旋转钢笔时会发生什么

AI资讯 2026-01-28 11:59:09 罗勇松

研究人员正在通过试错强化学习训练机器人执行越来越多的任务,这通常既费力又耗时。为了提供帮助,人类现在正在招募大型语言模型人工智能来加快训练过程。在最近的一项实验中,这产生了一些难以置信的灵巧机器人,尽管是模拟的。

英伟达研究公司的一个团队指导了一个由OpenAI的GPT-4驱动的人工智能协议,来教授机械手近30项复杂任务的模拟,包括投球、推积木、按下开关和一些令人印象深刻的转笔能力。

[相关:这些人工智能驱动的机器人手臂足够精致,可以拿起品客薯片。]

英伟达的新尤里卡“人工智能代理”通过要求大语言模型(LLM)编写自己的基于奖励的强化学习软件代码来利用GPT-4。据该公司称,尤里卡不需要复杂的提示,甚至不需要预先编写的模板;相反,它只是开始磨练一个程序,然后坚持任何后续的外部人类反馈。

在该公司的公告中,英伟达高级研究科学家林西“吉姆”范将尤里卡描述为LLM和图形处理器加速模拟编程的“独特组合”。范补充道:“我们相信尤里卡将实现灵巧的机器人控制,并为艺术家提供一种制作物理逼真动画的新方法。”

从英伟达的演示视频来看,尤里卡训练的机械手可以完成钢笔旋转技巧,即使不能击败极其灵巧的人类。

在高级模拟程序中测试其训练协议后,尤里卡随后分析其收集的数据,并指导LLM进一步改进其设计。最终结果是一个几乎可以自我迭代的人工智能协议,能够成功编码各种机械手设计,以在物理精确的模拟环境中操作剪刀、转笔和开放式橱柜。

人类编写的试错学习程序的替代品不仅有效——在大多数情况下,它们实际上比人类编写的更好。在该团队的开源研究论文中,尤里卡设计的奖励程序在超过80%的任务中优于人类代码——相当于机器人模拟的平均性能提高了50%以上。

[相关:研究人员如何训练廉价机器狗来玩把戏。]

“强化学习在过去十年里取得了令人印象深刻的胜利,但仍然存在许多挑战,比如奖励设计,这仍然是一个反复试验的过程,”英伟达人工智能研究高级总监、尤里卡论文的合著者之一阿尼玛·阿南德库马尔在公司的公告中说。“尤里卡是开发新算法的第一步,这些算法整合了生成和强化学习方法来解决困难任务。”

© 版权声明

相关文章

欧特克为全球150m学生和教育工作者提供免费软件和技术

该公司宣布,欧特克已向全球150m学生和教育工作者免费提供其软件和技术 十多年来,欧特克免费向经认证的机构和经过验证的学生和教育工作者提供其专业级工具,使他们能够获得世界各地建筑师、工程师、制造商和创造者使用的相同技术。
2026-01-29

观察当人工智能教机器人“手”旋转钢笔时会发生什么 暂无评论