16
2025
-
01
构建人形机器人学习的合成运动生成管线
浏览:538
发布:2025-01-16 12:01:23
通用人形机器人旨在快速适应现有的以人类为中心的城市和工业工作空间,处理繁琐、重复或体力要求高的任务。这些移动机器人经过设计,能在以人类为中心的环境中有出色的表现,从工厂车间到医疗保健机构,它们的价值日益凸显。
模仿学习是机器人学习的一个子集,它能让人形机器人通过观察和模仿人类专家的示范来获取新技能。在真实世界中收集这些广泛、高质量的数据集既繁琐又耗时,而且成本往往高得令人却步。从物理精确的仿真环境中生成的合成数据有助于加快这一收集过程。
NVIDIA Isaac GR00T为人形机器人开发者提供机器人基础模型、数据管线和仿真框架,有助于应对人形机器人开发中(zhōng)所(suǒ)面(miàn)对(duì)的(de)这(zhè)些(xiē)挑(tiāo)战(zhàn)。用(yòng)于(yú)合(hé)成(chéng)运(yùn)动(dòng)生(shēng)成(chéng)的(de)NVIDIA Isaac GR00T Blueprint是(shì)一(yī)个(gè)用(yòng)于(yú)模(mó)仿(fǎng)学(xué)习(xí)的(de)仿(fǎng)真工作流程,使开发者能够从少量人类示范中生成数量呈指数级扩增的数据集。
在本文中,我们将介绍如何通过 Apple Vision Pro 捕捉远程操作数据,使用 NVIDIA Isaac GR00T 从少数人类示范中生成大量合成轨迹数据集,然后在Isaac Lab中训练机器人运动策略模型。
合成运动生成
该工作流的包括以下关键组成部分:
GR00T-Teleop:
NVIDIA CloudXR:连接到 Apple Vision Pro 头戴设备,使用专门为人形机器人远程操作设计的定制 CloudXR 运行时 ,实现动作的流畅传输 。
Isaac XR Teleop:将远程操作数据流式传输到NVIDIA Isaac Sim或 Isaac Lab,作为 Apple Vision Pro 的参考应用程序。
Isaac Lab:基于 Isaac Sim 的 Isaac Lab 是一个用于机器人学习的开源模块化框架,使用这一框架,可以实现训练机器人策略。
GR00T-Mimic:通过少量人类示范生成大量合成运动轨迹数据。
GR00T-Gen:通过随机化场景中的背景、光照和其他变量来增加多样性,并通过NVIDIA Cosmos对生成的图像进行放大处理。(在本文中,我们不会详细介绍 GR00T-Gen。)

图 1.远程操作架构
合成运动生成管线是一个复杂的过程,旨在创建一个庞大且多样化的数据集来训练机器人。
它从数据收集开始(shǐ),在(zài)这(zhè)个(gè)过(guò)程(chéng)中(zhōng),将(jiāng)使(shǐ)用(yòng)像(xiàng) Apple Vision Pro 这(zhè)样(yàng)的(de)高(gāo)保(bǎo)真(zhēn)设(shè)备(bèi),在(zài)仿(fǎng)真(zhēn)环(huán)境(jìng)中(zhōng)捕(bǔ)捉(zhuō)人(rén)类(lèi)的(de)动作和行为。Apple Vision Pro 将手部追踪数据传输到如 Isaac Lab 的仿真平台,同时仿真平台将机器人环境的沉浸式视图传输回该设备。这种设置使得机器人操作更加直观和互动,有助于收集高质量的远程操作数据。

图 2.准备好通过 Apple Vision Pro 进行远程操作的机器人
Isaac Lab 中的机器人仿真画面被传输到 Apple Vision Pro,让您能够可视化机器人的环境。通过移动手部,您可以直观地控制机器人执行各种任务。这种设置提供了沉浸式且互动的远程操作体验。

图 3.Isaac Lab 中的远程操作
使用 GR00T-Mimic 生成合成轨迹
数据收集后,下一步是合成轨迹生成。使用 Isaac GR00T-Mimic 从少量人类示范中推算出大量合成运动轨迹。
这个过程包括在示范中标记关键点,并使用插值法确保合成轨迹平滑且符合情境。然后对生成的数据进行评估和优化,以满足训练所需的标准。
在这个示例中,我们成功生成了 1000 条合成轨迹。

a.机器人
拿起轮子

b.机器人将轮子
移到托盘

c.机器人将轮子
放到托盘上
图 4.在 Isaac Lab 中生成的一组合成轨迹
在 Isaac Lab 中使用模仿学习进行训练
最后,使用模仿学习技术,利用合成数据集对机器人进行训练。在这个阶段,会训练一个策略,比如 Robomimic 套件的循环高斯混合模型(GMM),以模仿合成数据中的动作。
训练在比如 Isaac Lab 这样的仿真环境中进行,并且通过多次试验来评估训练后的策略的性能。这个管线显著减少了开发和部署机器人系统所需的时间和资源,使其成为机器人领域的一个有价值的工具。
为了展示如何使用这些数据,我们训练(liàn)了(le)一(yī)台(tái)带(dài)有(yǒu)夹(jiā)爪(zhǎo)的(de) Franka 机(jī)器(qì)人(rén),在(zài) Isaac Lab 中(zhōng)执(zhí)行(xíng)堆(duī)叠(dié)任(rèn)务(wu)。这(zhè)个(gè)夹(jiā)爪(zhǎo)类(lèi)似(shì)于(yú)人(rén)形(xíng)机(jī)器(qì)人的“手”。
我(wǒ)们使用了来自 Robomimic 套件的带有循环 GMM 策略的行为克隆方法。该策略使用了两个隐藏维度为 400 的长短期记忆(LSTM)层。
网络的输入包括机器人末端执行器的位姿、夹爪状态以及相对物体的位姿,而输出是一个用于在 Isaac Lab 中驱(qū)动(dòng)机(jī)器(qì)人(rén)的(de)增(zēng)量(liàng)位(wèi)姿(zī)动(dòng)作(zuò)。
使(shǐ)用(yòng)由(yóu) 1000 次(cì)成(chéng)功(gōng)示(shì)范(fàn)组(zǔ)成(chéng)的(de)数(shù)据(jù)集,并(bìng)经过 2000 次迭代,我们实现了大约 50 次迭代 / 秒的训练速度(相当于在 NVIDIA RTX GPU 上大约 0.5 小时的训练时间)。在 50 次实验的平均结果中,训练策略在堆叠任务中的成功率为 84%。

图 5.在 Isaac Lab 中训练的夹爪
开始使用
在本文中,我们讨论了(le)通(tōng)过(guò) NVIDIA Isaac GR00T 生成合成轨迹数据,加速推进人形机器人运动策略学习。
GR00T-Teleop 堆栈目前还处于仅限受邀用户访问的阶段。加入人形机器人开发者计划,以便在该堆栈进入测试版时获取使用权限。
相关新闻