Language
- 中文版
- English

公司新闻

首页

2024

Transformer是机器人技术的基础吗

发布：2024-12-19 05:18:04

生成式预训练Transformer（GPT）被吹捧为将彻底改变机器人技术。但实际应用中，GPT需要庞大且昂贵的计算资源、冗长的训练时间以及（通常）非机载无线控制，诸多限制之下，GPT技术真的实用吗？

• 文章：

Are Transformers Truly Foundational for Robotics?

• 作者：

James A. R. Marshall, Andrew B. Barron

• 论文链接：

https://arxiv.org/abs/2411.16917

• 编译：

INDEMIND

本文核心内容

近年来，由于新型架构GPT的发展和部署，生成式人工智能取得了重大进展。通过在深度神经网络中添加注意力机制并应用于互联网规模的训练(liàn)集，Transformer极大地推动了自然语言处理和大语言模型（LLMs）的发展。在早期应用之后，transformers与扩散模型等其他架构一起被应用于开发文本到图像和视频的视觉语言模型以及其他多模态应用。这些成功激发了人们在机器人领域探索Transformer架构的兴趣。

在复杂环境中感知到的无结构多模态输入，以及机器人控制的高自由度，限制了机器人同时具备普遍适用性和鲁棒性的发展。Transformer在机器人领域的潜力似乎是值得期待的。大规模训练可以针对更小规模的训练集进行专业化，从而为各种机器人任务提供通用且适应性强的解决方案。由于可以在许多应用领域中应用，基于Transformer的方法被贴上了“基础模型”的标签，这意味着它们具有基础性地位，只是仍不成熟。

Transformers起源于大语言模型(LLM)。LLM也已被证明在许多应用中具有通用性和变革性，但它并非没有局限性。正如我们下面所讨论的，LLM在训练数据集大小、训练所需计算资源、训练成本以及行为输出的鲁棒(bàng)性(xìng)等(děng)方(fāng)面(miàn)存(cún)在(zài)越(yuè)来(lái)越(yuè)被(bèi)认(rèn)可(kě)的(de)问(wèn)题(tí)。在(zài)本(běn)文中(zhōng)，我(wǒ)们(men)质(zhì)疑(yí)Transformer架(jià)构(gòu)是(shì)否(fǒu)真(zhēn)的(de)能(néng)成(chéng)为(wèi)机器人学的基础。我们想知道Transformer是否是实现通用人工智能的唯一或最佳途径。我们提出，与“智能”不同，机器人系统的自主程度是明确定义的、可测量的，并且具有经济意义。

基于之前对GPT及其相关方法的批评，我们主张Transformer模型提供了一种仿真的自主性，而不是真正的自主性。然后，我们回顾了其他提出的替代方法。GPT解决自主机器人技术问题的方式与动物大脑通过生物方式实现自主行为控制的方式形成了鲜明对比。我们探讨了这种对比，并提出当前GPT方法中缺失了什么，以及如何添加新内容以增强机器人的稳健性和可扩展的自主性。

将Transformer架构应用于自主系统的进展

Transforme在机器人自主性方面得到了迅速应用。除了备受瞩目的商业公告和演示外，学术界和工业界都已在同行评审的文献中开发出完整的机器人自主性解决方案，重点是机器人导航和灵巧性。

尽管Transformer在机器人自主性方面的早期目标似乎正在实现，但要实现通用且可扩展的解决方案，必须认识到这项技术仍然存在重大局限性，这将限制未来的性能和采用。尽管其中一些局限性可能会随着新型技术开发和部署的传统效率得到改善而变得不那么严重，但我们认为当前的Transformer架构存在根本性的结构性问题。

训练数据的规模和成本需求可能会增加

Transformer方法解决任何问题的核心是缩放要求。这些学习系统缺乏诱导偏置，因此具有高度的灵活性，但其代价是需要大量的训练数据。通常情况下，部署基于Transformer的基础模型的模型是通过在互联网规模的语料库上进行训练，使模型获得多模态对应关系和领域知识，然后在较小的训练数据集上进一步进行特定任务的专门训练。这些成本非常高昂。即使不考虑环境影响，当前最先进的LLMs每轮训练的成本在数百万美元至数千万美元之间。对于机器人应用，通常还需要针对特定任务（如导航和操作）进行进一步的训练。获取良好训练数据集的可用性和成本被认为是一个主要问题。提出的解决方案包括创建涵盖多种任务和机器人类型的开放数据集，尽管目前这些数据集可能只适用于相对较少的任务。还广泛使用了基于物理学的模拟器来生成训练数据。我们认为，与LLMs类似，为了维持性能的提升，可能需要指数级增加的数据量。即使对于文本和多模态数据集，互联网也提供了大量的免费训练数据，但可用的训练数据仍可能成为限制因素。对于机器人数据集，无论是通过物理方式还是模拟方式收集有用的训练数据，成本都将更加高昂。此外，由于Transformer性能的提升取决于训练数据规模和权重的增加，这个问题只会越来越严重。

计算和基础设施成本及需求将持续存在

除了基于Transformer架构的训练成本外，部署时的推理成(chéng)本(běn)仍(réng)然(rán)可(kě)能(néng)相(xiāng)当(dāng)高(gāo)。例如，Meta的Llama3.1拥有云规模部署（405亿双精度参数）。也(yě)有(yǒu)适用于在本地GPU上部署的减小尺寸和精度的版本（例如，8亿半精度整数参数），这在推理时可能需要20-100GB的内存。即使是运行在机器人上的最简单的模型也需要相当大的GPU。虽然量化、二进制化和其他方法已被用于帮助设计边缘AI加速器以加速深度和卷积神经网络，但对于Transformer的问题规模要大得多。例如，对于深度神经网络研究中最广泛应用之一——目标检测，一种最先进的算法具有数百万至数千万的网络权重，而上述用于最先进LLM的权重则为80亿至405亿。这在规模上相差四个数量级，即(jí)使(shǐ)不考虑为机器人任务训练Transformer的额外要求。因此，人们正在积极研究避免云计算瓶颈的方法，包括采用新技术，如6G、摩尔定律和新型并行计算架构，这些在过去曾拯救了人工智能和计算机软件。然而，对于基础模型来说，我们认为尽管可用的计算能力可以按指数级扩展，但模型大小和吞吐量的指数级需求将相互抵消。只有当前者的指数大于后者时，在追求性能提升的过程中才能实现实际的计算需求减少。然而，越来越多的人认为我们已经进入了一个摩尔定律之后的时代(dài)，需(xū)要(yào)在(zài)材(cái)料方面进行进一步创新才能取得进展。

机器人中的Transformer可能出现幻觉

由于接受了统计学方面的训练和推断，LLMs容易产生混淆和幻觉。与人类一样，幻觉可能会(huì)以(yǐ)可(kě)能(néng)对(duì)机(jī)器(qì)人(rén)或(huò)他(tā)人(rén)造(zào)成(chéng)伤(shāng)害(hài)的(de)方(fāng)式(shì)显(xiǎn)现(xiàn)，并(bìng)且(qiě)已(yǐ)经(jīng)展(zhǎn)示(shì)了(le)针(zhēn)对(duì)机(jī)器(qì)人(rén)技(jì)术(shù)中(zhōng)Transformer的(de)守(shǒu)门(mén)人(rén)（guardrails）的(de)对(duì)抗(kàng)性(xìng)攻(gōng)击(jī)。这可能需要人类作为远程操作员继(jì)续(xù)留(liú)在(zài)控(kòng)制(zhì)环(huán)路中(zhōng)，以(yǐ)确(què)保(bǎo)机(jī)器(qì)人(rén)受(shòu)到(dào)远(yuǎn)程(chéng)监(jiān)督(dū)，或(huò)者(zhě)需(xū)要(yào)将(jiāng)机(jī)器(qì)人(rén)与(yǔ)人(rén)类(lèi)隔(gé)离(lí)开(kāi)来(lái)，或者两者兼而有之。当然，任何一种结果都会限制机器人技术所承诺的好处。其他研究人员也认为，统计方法在AI方面的结构性问题，除非进行重大的架构改变，否则不太可能得到解决。

Transformers赋予了仿真智能自主性

为什么transformers在机器人领域越来越受欢迎？我们将其归因于两个因素：首先，与LLMs和VLMs一样，在传统上非常困难的领域，如人形控制、操作和自然语言界面，已经取得了显著的早期进展。其次，我们认为，人类观察者往往倾向于将机器拟人化，这导致他们赋予机器一些并不具备的技术能力和理解能力。

虽然有各种类型的Transformer，但其核心构思是一个由自注意力块（self-attentionblock）和多层感知器（multilayerperceptronblock）组成的重复单元（如图1右侧所示）。控制流是前馈的，而注意力机制则学习在预测下一个适当动作时应关注输入的哪些早期元素。与LLMs一样，机器人领域中Transformer的强大和泛化能力都源于其广泛的训练，使得训练完成后，它们可以执行将输入与预测输出匹配的操作。在机器人领域中，Transformer成功地从输入中解析(xī)并(bìng)执(zhí)行(xíng)动(dòng)作(zuò)，但(dàn)这(zhè)是(shì)通(tōng)过(guò)对(duì)训(xun)练(liàn)集进(jìn)行(xíng)插(chā)值(zhí)和(hé)外(wài)推(tuī)实(shí)现(xiàn)的(de)，在(zài)离(lí)训(xun)练(liàn)集的(de)性(xìng)能(néng)上(shàng)存(cún)在(zài)不(bù)可(kě)靠(kào)的(de)情(qíng)况(kuàng)。Transformer没(méi)有(yǒu)推(tuī)理(lǐ)能(néng)力(lì)，也(yě)没(méi)有(yǒu)理(lǐ)由(yóu)选(xuǎn)择(zé)一(yī)个(gè)响(xiǎng)应(yīng)而(ér)不(bù)是(shì)另(lìng)一(yī)个(gè)，除(chú)了(le)在(zài)训(xun)练(liàn)后(hòu)选(xuǎn)择(zé)的(de)选(xuǎn)项(xiàng)携(xié)带(dài)了(le)最(zuì)高(gāo)的(de)预(yù)测(cè)权(quán)重(zhòng)。LLMs的(de)语(yǔ)言(yán)能(néng)力(lì)也(yě)可(kě)以(yǐ)用(yòng)“随(suí)机(jī)鹦(yīng)鹉(wǔ)”来(lái)形(xíng)容(róng)。

训(xun)练(liàn)和(hé)借(jiè)鉴(jiàn)已(yǐ)有(yǒu)经(jīng)验(yàn)也(yě)是(shì)生(shēng)物(wù)自(zì)主决(jué)策(cè)的(de)重(zhòng)要(yào)组(zǔ)成(chéng)部(bù)分(fēn)，但(dàn)对(duì)于(yú)人(rén)类(lèi)和(hé)其(qí)他(tā)动(dòng)物(wù)来(lái)说(shuō)，决(jué)策(cè)过(guò)程(chéng)还(hái)受(shòu)到(dào)对(duì)世(shì)界(jiè)运(yùn)行(xíng)模(mó)式(shì)、其(qí)他(tā)相(xiāng)关行为体应如何运作以及为何选择的行动与当前情况相适应的推理的支持。Transformers缺乏这些模型。

一个自主机器人的能力将受到训练数据范围的限制。由于Transformer的响应是训练数据的无理由产物，任何基于Transformer的应用程序无法通过统计相关性以外的理由来证明其决策的合理性。这给任何形式的人机交互都带来了严重的挑战。如果我们问一个怀有良好意愿的人类同事为什么犯了错误，他们会尽最大努力解释自己行为背后的道理。如果我们问一个基于Transformer的机器人为什么犯了错误，那么它不会有任何有道理的答案；对于这个问题的回答，至多只有相关性，而没有与错误之间的因果关系。

用于自主性的Transformers的替代品和补充

如果Transformers不是问题的全部答案，那么什么才是呢？下面我们将回顾主要的替代方案，重点介绍我们偏好的方法，该方法从生物大脑解决自主性问题的方式中汲取了深刻灵感。

自然智能

图1显示了机器人技术与生物大脑产生自主行为之间的巨大差距。通常，人们将LLMs、GPTs与人类推理进行比较，但与动物大脑和动物推理的比较更为明显。例如，蜜蜂的大脑很小（仅略大于1立方毫米），包含的神经元数量不到100万29。蜜蜂大脑的突触数量尚未知晓，但如果我们根据果蝇的连接组（connectome）进行推测，蜜蜂大脑的突触数量将少于5亿个（图1，左）。显然，蜜蜂仅凭这些就足以可靠地在长达数公里的距离上导航，自主地从环境中采集花粉和花蜜，进行沟通和协调，并完成所有必要的工作，包括养育下一代。它们可以解决复杂的觅食经济问题，重点是其蜂群所需的资源，并从环境中分散分布的隐蔽和短暂的花朵中采集它们31。蜜蜂无需练习就能飞行，在蜂巢周围进行20分钟有组织的飞行训练就足以使它们能够熟练地在环境中导航。与需要长时间训练的变形者相比，这种对比再明显不过了。蜜蜂大脑在进行完全自主的决策时的能量消耗与任何GPT相比都是微不足道的。与transformers不同，动物的大脑在行星尺度上已经进行了大规模的“预训练”，能够使用最少的信息生成非常广泛的行为（如图2所示）。

弱小的蜜蜂在计算能力、能量消耗和训练时间上如何优于Transformer？

一句话——结构。Transformer的通用性和优雅性是因为在预训练之前，它们在功能上没有结构上的差异。相反，昆虫大脑是一个结构-功能专门化的案例研究。昆虫大脑被细分为模块（如图1左侧所示）。每个模块都专门用于处理自主决策挑战的不同领域。每个模块中的每个专业化都利用其处理信息的规律性和属性来减少计算量并提高整体系统效率。例如，蜜蜂、蚂蚁和苍蝇大脑中的专用模块处理太阳周围产生的偏振光图案。这是一个有价值且稳定的导航线索。其结构由拓扑处理器——中央复合体的前脑桥——保存，该处理器将输出发送到一个区域，该区域作为环形吸引子来确定动物相对于外部线索的方位。这又连接到另一个专门处理视觉信息的区域。

这种专门化不仅限于视觉处理。例如，苍蝇的大脑中有专门处理气味的模块，蜜蜂的大脑中有专门处理视觉和气味信息的模块。每个模块的结构和功能专门化都使它们能够更有效地处理特定类型的信息，从而减少计算量并提高整体系统效率。

相比之下，Transformer在预训练之前没有结构上的专门化，这使得它们在处理不同类型的信息时效率较低。例如，在图像识别任务中，Transformer需要对整个图像进行处理，这需要大量的计算资源和能量。而蜜蜂的大脑只需要处理来自太阳的偏振光图案，这只需要很少的计算资源和能量。

因此，尽管Transformer在某些任务上的性能优于蜜蜂的大脑，但在计算能力、能量消耗和训练时间方面，蜜蜂的大脑通常表现出更好的性能。该模块在空间上按方位排列，并能够支持昆虫对外部物体的相对定位。昆虫大脑中对外部世界的规律性是如何进行编码的，这传达了一种直观的物理学（尽管与人工智能中使用的物理学引擎类型有很大不同）。嗅觉和视觉感觉叶各自专门处理其感官领域的输入特性。感觉叶会锐化、增强并最终压缩感官信号，以便投射到多模态感觉整合区域。其中最大的是蘑菇体，其结构类似于三层神经网络的扩展中间层。这似乎特别擅长多模态分类。

昆虫缺乏人类的陈述性推理能力，但它们的推理是建立在一种基本的世界模型之上的。昆虫拥有一个统一且连贯的外部空间表征，在其中它(tā)们(men)对(duì)周(zhōu)围(wéi)的(de)物(wù)体(tǐ)具(jù)有(yǒu)第(dì)一(yī)人(rén)称(chēng)视(shì)角(jiǎo)。物(wù)体的极性受到昆虫与其之间学习经验、固有极性和主观生理状态的影响。物体极性和位置的差异决定了昆虫的选择。这种推理方式或许很简单，但它仍然比那些没有理由的“变形金刚”更易于理解和明确。越来越多的人认识到，人工智能可以从昆虫神经科学中汲取概念和算法，从而获得巨大的益处。

目标：AI与世界模型

其他研究人员提出，动物（包括那些比人类“更简单”的动物）的自主能力确实可以为AI研究人员提供灵感。然而，这种灵感比上述的自然智能方法要松散得多。虽然“客观AI”方法确实提出了与在神经科学、认知科学和心理学中对人类大脑的理解相匹配的模块化AI架构，但这一提法实际上大不相同；与其直接试图逆向工程专业脑模块中的神经回路，不如设计可训练的模块，以便相互交互以产生比大型未分化神经网络预期的更适应性行为。因此，例如，与其直接试图理解早期灵长类视觉系统中的特征检测器如何工作，不如训练一个特征检测器模块。该提案的关键部分是重新(xīn)引(yǐn)入(rù)显(xiǎn)式(shì)和(hé)可(kě)配(pèi)置(zhì)的(de)世(shì)界(jiè)模(mó)型(xíng)，从(cóng)认(rèn)知(zhī)科(kē)学(xué)中(zhōng)汲(jí)取(qǔ)灵(líng)感(gǎn)；然(rán)而(ér)，这(zhè)些(xiē)模(mó)型(xíng)也(yě)仍(réng)然(rán)需(xū)要(yào)从(cóng)数(shù)据(jù)中(zhōng)学(xué)习(xí)。

混(hùn)合(hé)方(fāng)法

另有一些研究人员基于一项长期以来的提议，但同时(shí)又(yòu)从(cóng)人(rén)工(gōng)智能领域的最新发展中获得了新的动力，提出了“神经符号方法”。该方法认为，虽然深度神经网络非常适合诸如物体检测等感知任务，但它们在本质上并不适合推理、规划和决策过程中的符号操作。在Transformer的背景下，最近的观察表明，LLMs无法有效地处理和操作符号知识。因此该提案是将统计AI的感知优势与较老的、符号化的AI方法的因果优势结合起来。鉴于大脑中符号推理的神经基础尚未被充分理解，这是一种特别务实的方法。通过绕过它们在处理现实世界感知复杂性时遇到的问题，希望可以缓解第一波符号AI的局限性。我们建议，可以将自然智能方法应用于对空间和决策选项集的感知和建模，以实现更强大的组合。

总结

Transformer架构已经将它们在自然语言和多模态AI领域取得的巨大进步带到了机器人领域。然而，仍然需要继续寻找解决机器人自主性的方案。Transformer架构从纯统计的角度来处理世界，尽管其基础是感知输入。这可能是对“苦涩教训”的一种有意识的选择，即人工智能历史上的归纳偏见。然而，这导致了与唯一真正自主的人类制品——生物大脑——运作方式完全不同的自主性解决方案。我们在这里强调了这一点，并认为，随着对各种大脑的大量数据和理解的巨大进步，是时候重新审视“苦涩教训”，看看从对它们的研究中可以为AI学到哪些新的教训。