观察当人工智能教机器人“手”旋转钢笔时会发生什么
研究人员正在通过试错强化学习训练机器人执行越来越多的任务,这通常既费力又耗时。为了提供帮助,人类现在正在招募大型语言模型人工智能来加快训练过程。在最近的一项实验中,这产生了一些难以置信的灵巧机器人,尽管是模拟的。
英伟达研究公司的一个团队指导了一个由OpenAI的GPT-4驱动的人工智能协议,来教授机械手近30项复杂任务的模拟,包括投球、推积木、按下开关和一些令人印象深刻的转笔能力。
[相关:这些人工智能驱动的机器人手臂足够精致,可以拿起品客薯片。]
英伟达的新尤里卡“人工智能代理”通过要求大语言模型(LLM)编写自己的基于奖励的强化学习软件代码来利用GPT-4。据该公司称,尤里卡不需要复杂的提示,甚至不需要预先编写的模板;相反,它只是开始磨练一个程序,然后坚持任何后续的外部人类反馈。
在该公司的公告中,英伟达高级研究科学家林西“吉姆”范将尤里卡描述为LLM和图形处理器加速模拟编程的“独特组合”。范补充道:“我们相信尤里卡将实现灵巧的机器人控制,并为艺术家提供一种制作物理逼真动画的新方法。”
从英伟达的演示视频来看,尤里卡训练的机械手可以完成钢笔旋转技巧,即使不能击败极其灵巧的人类。
在高级模拟程序中测试其训练协议后,尤里卡随后分析其收集的数据,并指导LLM进一步改进其设计。最终结果是一个几乎可以自我迭代的人工智能协议,能够成功编码各种机械手设计,以在物理精确的模拟环境中操作剪刀、转笔和开放式橱柜。
人类编写的试错学习程序的替代品不仅有效——在大多数情况下,它们实际上比人类编写的更好。在该团队的开源研究论文中,尤里卡设计的奖励程序在超过80%的任务中优于人类代码——相当于机器人模拟的平均性能提高了50%以上。
[相关:研究人员如何训练廉价机器狗来玩把戏。]
“强化学习在过去十年里取得了令人印象深刻的胜利,但仍然存在许多挑战,比如奖励设计,这仍然是一个反复试验的过程,”英伟达人工智能研究高级总监、尤里卡论文的合著者之一阿尼玛·阿南德库马尔在公司的公告中说。“尤里卡是开发新算法的第一步,这些算法整合了生成和强化学习方法来解决困难任务。”
观察当人工智能教机器人“手”旋转钢笔时会发生什么