Language
- 中文版
- English

公司新闻

首页

2025

构建人形机器人学习的合成运动生成流程

发布：2025-04-19 05:00:57

【导语】随着城市和工业工作空间对人形机器人的需求日益增长，快速适应和高效执行任务成为关键。NVIDIA推出的Isaac GR00T Blueprint，通过模仿学习和合成数据生成，为人形机器人的训练提供了创新解决方案。本文将深入探讨这一蓝图如何助力机器人快速掌握新技能，并在真实环境中实现高效应用。

通用人形机器人需要能够快速适应现有的以人类为中心的城市和工业工作空间，处理繁琐、重复或体力要求高的任务。这些移动机器人经过设计，能在以人类为中心的环境中有出色的表现，从工厂车间到医疗医疗机构，它们的价值日益凸显。

模仿学习是机器人学习的一个子集，它能让人形机器人通过观察和模仿人类专家的示范来获取新技能，这些演示可以来自远程操(cāo)作(zuò)演(yǎn)示中的人类真实视频，也可以来自仿真数据。模仿学习使用已标记的数据集，有利于在难以编程定义的不同环境中教授机器人复杂动作。

虽然录制演示可能比指定奖励策略更简单，但创建完美的演示可能具有挑战性，并且机器人可能难以应对一些未曾预见的情况。在真实世界中收集广泛、高质量的数据集既繁琐又耗时，而且成本往往高得令人却步。但是，从物理精确的仿真环境中生成的合成数据，有助于加快数据收集过程。

用于合成运动生成的NVIDIA Isaac GR00T Blueprint是基于NVIDIA Omniverse和NVIDIA Cosmos构建的参考工作流。它从少量的人类演示中创建了大量的合成运动轨迹，用于机器人操作。

利用为该蓝图提供的首批组件，NVIDIA 能够在短短 11 小时内生成 780,000 个合成轨迹，相当于 6,500 小时或连续九个月的人类演示数据。然后，通过将合成数据与真实数据相结合，与仅使用真实数据相比，NVIDIA 将GR00T N1的性能提高了 40%。

在本文中，我们将介绍如何使用空间计算设备（例如 Apple Vision Pro）或其他捕获设备（例如 space mouse）进入仿真机器人的数字孪生，并通过远程操作仿真机器人来记录运动演示。然后，使用这些记录生成更大规模、且物理属性准确的合成运动轨迹集。该蓝图还可以通过生成数量呈指数级增长、逼真且多样化的训练数据集，进一步扩充数据集。然后，我们使用这些数据对机器人策略模型进行后期训练。

Blueprint 概述

图(tú) 1. NVIDIA Isaac GR00T Blueprint 架(jià)构(gòu)

该(gāi)工(gōng)作(zuò)流(liú)包(bāo)括(kuò)以(yǐ)下(xià)关键组(zǔ)成(chéng)部(bù)分(fēn)：

GR00T-Teleop：即(jí)将(jiāng)推(tuī)出，但目前已经可以使用蓝图中提供的样本数据。

NVIDIA CloudXR Runtime：将Isaac Lab中的仿真传输到 Apple Vision Pro，并接收用于人形机器人远程操作的控制数据。

适用于 Apple Vision Pro 的 Isaac XR Teleop 示例应用：使用户能够与从 CloudXR Runtime 流式传输的Isaac Lab仿真进行沉浸式交互，并发送回用于人形机器人远程操作的控制数据。

GR00T-Mimic：使用录制的演示作为输入，在 Isaac Lab 中生成额外的合成运动轨迹。此蓝图的第一版仅适用于单臂操作，支持人形机器人双臂操作的版本即将推出。

要录制您自己的动作，请使用空格鼠标控件记录动作。更多信息，请参阅生成其他演示：

https://isaac-sim.github.io/IsaacLab/main/source/overview/teleop_imitation.html#generating-additional-demonstrations

GR00T-Gen：通过随机化场景中的背景、光照和其他变量来增加多样性，并通过NVIDIA Cosmos Transfer增强生成的图像。

Isaac Lab：使用统一的开源机器人学习框架训练机器人策略。Isaac Lab 基于NVIDIA Isaac Sim构建。

图 2. 远程操作架构

工作流从数据采集开始，在这个过程中，将使用像 Apple Vision Pro 这样的高保真设备，在仿真环境中捕捉人类的动作和行为。Apple Vision Pro 将手部追踪数据传输到如 Isaac Lab 等的仿真平台，同时仿真平台将机器人环境的沉浸式视图传输回该设备。这种设置使得机器人操作更加直观和互动，有助于收集高质量的远程操作数据。

Isaac Lab 中的机器人仿真被传输到 Apple Vision Pro，让您能够可视化机器人的环境。通过移动手部，您可以直观地控制机器人执行各种任务。这种设置提供了沉浸式且互动的远程操作体验。

图 3. Isaac Lab 中的远程操作

使用 GR00T-Mimic

生成合成运动轨迹

数据收集后，下一步是生成合成轨迹。使用 Isaac GR00T-Mimic，能够从少量人类示范中推算出大量合成运动轨迹。

这个过程包括在示范中标记关键点，并使用插值法确保合成轨迹平滑且符合情境。然后对生成的数据进行评估和优化，以满足训练所需的标准。

在这个示例中，我们成功生成了 1000 条合成轨迹。

图 4. Isaac Lab 中生成的一组合成轨迹

扩充并生成大量数据

及多样化数据集

为了缩小仿真与现实之间的差距，关键是提升合成生成图像的真实感，使其达到必要的逼真度，并通过随(suí)机(jī)化(huà)照(zhào)明(míng)、颜(yán)色(sè)和(hé)背(bèi)景(jǐng)等(děng)各(gè)种(zhǒng)参(cān)数(shù)来(lái)增(zēng)加(jiā)多(duō)样(yàng)性(xìng)。

通(tōng)常(cháng)，这(zhè)个(gè)过(guò)程(chéng)需(xū)要(yào)构(gòu)建(jiàn)逼(bī)真(zhēn)的(de) 3D 场(chǎng)景(jǐng)和(hé)物(wù)体(tǐ)，而(ér)且(qiě)需(xū)要(yào)耗(hào)费(fèi)大(dà)量(liàng)时(shí)间(jiān)并(bìng)具(jù)备(bèi)专(zhuān)业(yè)知(zhī)识(shi)。借(jiè)助(zhù) Cosmos Transfer（WFMs），只(zhǐ)需(xū)简(jiǎn)单(dān)的(de)文本(běn)提(tí)示(shì)，就(jiù)能(néng)大(dà)幅(fú)加(jiā)快(kuài)这一过程，从原本的数小时缩短至几分钟。

图 5 和图 6 的示例，展示了将合成生成的图像输入到 NVIDIA Cosmos Transfer WFM 后可实现的逼真效果。

图(tú) 5. 在 Isaac Lab 中创建的合成生成图像

图 6. 借助 NVIDIA Cosmos Transfer WFM 实现逼真的合成图像

在 Isaac Lab 中使用

模仿学习进行训练

最后，通过模仿学习，利用合成数据集对机器人进行训练。在这个阶段，会训练一个策略，比如 Robomimic 套件的循环高斯混合模型（GMM），以模仿合成数据中的动作。训练在比如 Isaac Lab 这样的仿真环境中进行，并且通过多次试验来(lái)评(píng)估(gū)训(xun)练(liàn)后(hòu)的(de)策(cè)略(è)的(de)性(xìng)能(néng)。

为(wèi)了(le)展(zhǎn)示(shì)如(rú)何(hé)使(shǐ)用(yòng)这(zhè)些(xiē)数(shù)据(jù)，我(wǒ)们(men)训(xun)练(liàn)了(le)一(yī)台(tái)带(dài)有(yǒu)夹(jiā)爪(zhǎo)的(de) Franka 机(jī)器(qì)人(rén)，在(zài) Isaac Lab 中(zhōng)执(zhí)行(xíng)堆(duī)叠(dié)任(rèn)务(wu)。我(wǒ)们(men)将(jiāng) Behavioral Cloning 与(yǔ) Robomimic 套(tào)件(jiàn)中(zhōng)的(de)递(dì)归(guī) GMM 策(cè)略结合使用，该策略使用两个隐藏维度为 400 的长短期记忆（LSTM）层。

网络的输入包括机器人终端执行器的位姿、夹爪状态以及相对物体的位姿，而输出是一个用于在 Isaac Lab 环境中驱动机器人的增量位姿动作。

使用由 1000 次成功示范组成的数据集，并经过 2000 次迭代，我们实现了大约 50 次迭代 / 秒的训练速度（相当于在 NVIDIA RTX GPU 上大约 0.5 小时的训练时间）。在 50 次实验的平均(jūn)结(jié)果(guǒ)中(zhōng)，经(jīng)过(guò)训(xun)练(liàn)的(de)策(cè)略(è)在(zài)堆(duī)栈(zhàn)任(rèn)务(wu)中(zhōng)的(de)成(chéng)功(gōng)率(lǜ)达(dá)到(dào)了(le) 84%。

图 7. 在(zài) Isaac Lab 中(zhōng)训(xun)练(liàn)的(de)夹(jiā)爪(zhǎo)

工作流(liú)的(de)优(yōu)势(shì)

此(cǐ)方(fāng)法(fǎ)的(de)主要(yào)优(yōu)势(shì)在(zài)于(yú)在(zài)数(shù)据(jù)收集过程中节省了时间，从堆叠立方体到线程针等各种操作任务的成功率即可证明这一点，例如在使用 GPU 和 cuOpt 等技术时，成功率显著提高。

图 8. 策略模型训(xun)练(liàn)结(jié)果（来源于 MimicGen：利用人类演示实现可扩展机器人学习的数据生成系统）

传统上，经过适当训练的人工操作员大约需要一分钟来录制一段高质量的示范动作，然而由于需要耗费大量人力，且存在出错的可能性，这种方式很难大规模推广。相比之下，这种新方法通过结合少量人类演示和合成数据，能达到相似的成功率，将数据采集时间从几小时缩短到几分钟。

通过 NVIDIA Cosmos，您可以增强合成图像，以实现所需的逼真度，仅使用文本提示即可有效缩小仿真与现实之间的差距。这种方法显著简化了数据收集过程，使您能够生成多样化的大型数据集，同时保持或提高生成的机器人策略的质量。

使用该蓝图的开发者

智元机器人、Mentee Robotics、UCR 和 X-Humanoid 等人形机器人开发者已将该蓝图的组件集成到其人形机器人开发流程中。

Field AI、Lab0、Miso Robotics、RIVR 和 Sanctuary AI 等其他公司也在利用 Isaac 仿真框架，开发机器人大脑和软件栈，以及测试和验证物理机器人。

开始使用

在本文中，我们讨论了如何通过 NVIDIA Isaac GR00T 收集、生成和扩充训练单臂操作器所需的数据。

在 build.nvidia.com 上体验用于合成运动生成的 NVIDIA Isaac GR00T Blueprint

从 /NVIDIA-Omniverse-blueprints GitHub 代码库下载蓝图，并在您选择的基础架构上进行部署

此蓝图的第一版仅适用于单臂操作，支持人形机器人双臂操作的版本即将推出。

本文最初发布于 2025 年 1 月，已根据新的信息进行了修改。