新闻中心
新闻中心

24

2025

-

01

构建人形机器人学习的合成运动生成管线

浏览:530  

发布:2025-01-24 12:52:56


通(tōng)用(yòng)人(rén)形(xíng)机(jī)器(qì)人(rén)旨(zhǐ)在(zài)快(kuài)速(sù)适(shì)应(yīng)现(xiàn)有(yǒu)的(de)以(yǐ)人(rén)类(lèi)为(wèi)中(zhōng)心(xīn)的(de)城(chéng)市(shì)和(hé)工(gōng)业(yè)工(gōng)作(zuò)空(kōng)间(jiān),处(chù)理(lǐ)繁(fán)琐(suǒ)、重(zhòng)复(fù)或(huò)体(tǐ)力(lì)要(yào)求(qiú)高的任务。这些移动机器人经过设计,能在以人类为中心的环境中有出色的表现,从工厂车间到医疗保健机构,它们的价值日益凸显。

模仿学习是机器人学习的一个子集,它能让人形机器人通过观察和模仿人类专家的示范来获取新技能。在真实世界中收集这些广泛、高质量的数据集既繁琐又耗时,而且成本往往高得令人却步。从物理精确的仿真环境中生成的合成数据有助于加快这一收集过程。

NVIDIA Isaac GR00T为人形机器人开发者提供机器人基础模型、数据管线和仿真框架,有助于应对人形机器人开发中所面对的这些挑战。用于合成运动生成的NVIDIA Isaac GR00T Blueprint是一个用于模仿学习的仿真工作流程,使开发者能够从少量人类示范中生成数量呈指数级扩增的数据集。

在本文中,我们将(jiāng)介(jiè)绍(shào)如何通过 Apple Vision Pro 捕捉远程操作数据,使用 NVIDIA Isaac GR00T 从少数人类示范中生成大量合成轨迹数据集,然后在Isaac Lab中训练机器人运动策略模型。

合成运动生成

该工作流的包括以下关键组成部分:

GR00T-Teleop:

NVIDIA CloudXR:连接到 Apple Vision Pro 头戴设备,使用专门为人形机器人远程操作设计的(de)定(dìng)制(zhì) CloudXR 运(yùn)行(xíng)时(shí) ,实(shí)现(xiàn)动(dòng)作(zuò)的(de)流(liú)畅(chàng)传(chuán)输(shū) 。

Isaac XR Teleop:将(jiāng)远(yuǎn)程(chéng)操(cāo)作(zuò)数(shù)据(jù)流(liú)式(shì)传(chuán)输(shū)到(dào)NVIDIA Isaac Sim或(huò) Isaac Lab,作为 Apple Vision Pro 的参考应用程序。

Isaac Lab:基于 Isaac Sim 的 Isaac Lab 是一个用于机器人学习的开源模块化框架,使用这一框架,可以实现训练机器人策略。

GR00T-Mimic:通过少量人类示范生成大量合成运动轨(guǐ)迹(jī)数(shù)据(jù)。

GR00T-Gen:通(tōng)过(guò)随(suí)机(jī)化(huà)场(chǎng)景(jǐng)中(zhōng)的(de)背(bèi)景(jǐng)、光(guāng)照(zhào)和(hé)其(qí)他(tā)变(biàn)量(liàng)来(lái)增(zēng)加(jiā)多(duō)样(yàng)性(xìng),并(bìng)通(tōng)过(guò)NVIDIA Cosmos对(duì)生(shēng)成的图像进行放大处理。(在本文中,我们不会详细介绍 GR00T-Gen。)

efb598fe-d335-11ef-9310-92fbcf53809c.png

图 1.远程操作架构

合成运动生成管线是一个复杂的过程,旨在创建一个庞大且多样化的数据集来训练机器人。

它从数据收集开始,在这个过程中,将使用像 Apple Vision Pro 这样的高保真设备,在仿真环境中捕捉人类的动作和行为。Apple Vision Pro 将手部追踪数据传输到如 Isaac Lab 的仿真平台,同时仿真平台将机器人环境的沉浸式视图传输回该设备。这种设置使得机器人操作更加直观和互动,有助于收集高质量的远程操作数据。

efc5c472-d335-11ef-9310-92fbcf53809c.png

图 2.准备好通过 Apple Vision Pro 进行远程操作的机器人

Isaac Lab 中的机器人仿真画面被传输到 Apple Vision Pro,让您能够可视化机器(qì)人(rén)的环境。通过移动手部,您可以直观地控制机器人执行各种任务。这种设置提供了沉浸式且互动(dòng)的(de)远(yuǎn)程(chéng)操作体验。

efe91508-d335-11ef-9310-92fbcf53809c.png

图 3.Isaac Lab 中的远程操作

使用 GR00T-Mimic 生成合成轨迹

数(shù)据收集后,下一步是合成轨迹生成。使用 Isaac GR00T-Mimic 从少量人类示范中推算出大量合成运动轨迹。

这个过程包括在示范中标记关键点,并使用插值法确保合成轨迹平滑且符(fú)合(hé)情(qíng)境(jìng)。然(rán)后对生成的数据进行评估和优化,以满足训练所需的标准。

在这个示例中,我们成功生成了 1000 条合成轨迹。

f019b082-d335-11ef-9310-92fbcf53809c.png

a.机器人

拿起轮子

f028a4d4-d335-11ef-9310-92fbcf53809c.png

b.机(jī)器(qì)人将轮子

移到托盘

f0581a70-d335-11ef-9310-92fbcf53809c.png

c.机器人将轮子

放到托盘上

图 4.在 Isaac Lab 中生成的一组合成轨迹

在 Isaac Lab 中使用模仿学习进行训练

最后,使用模仿学习技术,利用合成数据集对机器人进行训练。在这个阶段,会训练一个策略,比如 Robomimic 套件的循环高斯混合模型(GMM),以模仿合成数据中的动作。

训练在比如 Isaac Lab 这样的仿真环境中进行(xíng),并(bìng)且(qiě)通(tōng)过(guò)多(duō)次(cì)试(shì)验(yàn)来(lái)评(píng)估(gū)训(xun)练(liàn)后(hòu)的(de)策(cè)略(è)的(de)性(xìng)能(néng)。这(zhè)个(gè)管(guǎn)线(xiàn)显(xiǎn)著(zhe)减(jiǎn)少(shǎo)了(le)开(kāi)发(fā)和(hé)部(bù)署(shǔ)机(jī)器(qì)人(rén)系(xì)统(tǒng)所(suǒ)需(xū)的(de)时(shí)间(jiān)和(hé)资(zī)源(yuán),使(shǐ)其(qí)成(chéng)为(wèi)机(jī)器(qì)人(rén)领(lǐng)域的(de)一(yī)个(gè)有(yǒu)价(jià)值(zhí)的(de)工(gōng)具(jù)。

为(wèi)了(le)展(zhǎn)示(shì)如(rú)何(hé)使(shǐ)用(yòng)这(zhè)些(xiē)数(shù)据(jù),我(wǒ)们(men)训(xun)练(liàn)了一台带有夹爪的 Franka 机器人,在 Isaac Lab 中执行堆叠任务。这个夹爪类似于人形机器人的“手”。

我们使用了来自 Robomimic 套件的带有循环 GMM 策略的行为克隆方法。该策略使用了两个隐藏维度为 400 的长短期记忆(LSTM)层。

网络的输入包括机器人末端执行器的位姿、夹爪状态以及相对物体的位姿,而输出是一个用于在 Isaac Lab 中驱动机器人的增量位姿动作。

使用由 1000 次成功示范组成的数据集,并经过 2000 次迭代,我们实现了大约 50 次迭代 / 秒的训练速度(相当于在 NVIDIA RTX GPU 上大约 0.5 小时的训练时间)。在 50 次实验的平均结果中,训练策略在堆叠任务中的成功率为 84%。

f064c342-d335-11ef-9310-92fbcf53809c.gif

图 5.在 Isaac Lab 中训练的夹爪

开始使用

在本文中,我们讨论了通过 NVIDIA Isaac GR00T 生成合成轨迹数据,加速推进人形机器人运动策略学习。

GR00T-Teleop 堆栈目前还处于仅限受邀用户访问的阶段。加入人形机器人开发者计划,以便在该堆栈进入测试版时获取使用权限。