NVIDIA神经网络创新研究重塑机器人学习

发布：2025-10-21 12:01:07

【导语】当下，机器人在现实世界任务中常因不可预测性、操作灵活性不足等问题受限。机器人学习成为弥合实验室与现实差距的关键。NVIDIA 研究中心在 CoRL 2025 展示三项突破性神经网络创新研究——NeRD、Dexplore、VT-Refine，分别通过神经仿真、借鉴人类运动、融(róng)合(hé)视(shì)觉(jué)触(chù)觉(jué)等(děng)方式，重塑机器人学习与适应模式。

目前，机器人在受控的环境中能够有出色的表现，但在面对现实世界任务时，仍难以应对其中的不可预测性、操作灵活性和细微的交互需求，例如组装精密组件或是以接近人类的精度操控日常物体。

机器人学习已成为弥合实验室演示与现实世界部署之间差距的关键推动力。

本期NVIDIA 机器人研究与开发摘要 (R²D²)将探讨 NVIDIA 研究中心在 CoRL 2025 上展示的三项突破性的神经网络创新研究，这些研究正在重塑机器人的学习与适应方式：

NeRD（神经机器人动力学模型）：通过具备跨任务泛化能力的学习型动力学模型增强仿真效果，同时支持在真实环境中对模型微调。

Dexplore：将动作捕捉演示数据作为自适应引导信息，帮助机器人实现人类级别的灵巧操作能力。

VT-Refine：融合视觉感知与触觉传感技术，通过创新的“真实—仿真—真实”（real-to-sim-to-real）训练流程，使机器人熟练掌握高精度双手协同装配任务。

通过神经仿真推动机器人学习：现代机器人普遍具有高自由度和复杂的机械结构，传统仿真器难以准确捕捉其复杂性。神经模型能够高效预测复杂的动力学行为，并适应现实世界的数据，有助于应对这一挑战。

NeRD 是经过学习的动力学模型，能够预测特定机器人（或称铰接刚体系统）在接触约束下的未来状态。该模型能够替代分析仿真器中的低层动力学与接触求解器，从而构建一种混合仿真预测框架。NeRD 可轻松集成到现有的铰接刚体仿真框架中，可作为Newton等物理引擎的无缝接入后端。

NeRD 可以高效预测复杂的动力学行为并适应真实世界的数据

从人类运动中学习灵巧技能：机器人的手部通常自由度较低且驱动、感知与控制能力有限，这使得机器人难以有效地从人类操作中学习灵巧的操作技能。

手与物体动作捕捉（MoCap）存储库提供了丰富的接触密集操作的人类演示，但它们难以直接用于机器人的策略学习。

本研究提出了参考范(fàn)围(wéi)探(tàn)索(suǒ)（RSE），一(yī)种(zhǒng)统(tǒng)一(yī)的(de)单(dān)循(xún)环(huán)优(yōu)化(huà)方(fāng)法(fǎ)。它(tā)融(róng)合(hé)了(le)重(zhòng)定(dìng)向(xiàng)与(yǔ)跟(gēn)踪(zōng)功(gōng)能(néng)，能(néng)够(gòu)直(zhí)接(jiē)利(lì)用(yòng)运(yùn)动(dòng)捕(bǔ)捉(zhuō)（MoCap）数(shù)据(jù)来(lái)训(xun)练(liàn)可(kě)扩(kuò)展(zhǎn)的(de)机(jī)器人控制策略。这种做法不仅保留了演示的意图，并使机器人能够自主探索与其自身形态相契合的动作。

从人类演示中学习灵巧操作，首先使用RSE训练一个基于状态的模仿控制策略，进而探索机器人专属的操作策略

视觉与触觉相结合，实现双手协同装配：基于扩散策略的行为克隆方法面临两大局限，即在现实世界中，演示数据有限，且数据采集接口的触觉反馈也较为有限。

为解决这一数据难题，VT-Refine 开发了一种创新的“真实—仿真—真实”框架。该框架融合了仿真、视觉与触觉信息，可有效应对双手协同装配任务中的挑战。

VT-Refine 是一种创新的视觉触觉策略学习框架，适用于高精确、接触密集型的双手协同装配任务