Home > News > 媒体报道 > 越疆 X-Trainer 样样精通，背后掌握了哪些黑科技？

越疆 X-Trainer 样样精通，背后掌握了哪些黑科技？

#媒体报道 · 2024-05-07

2024年4月2日，越疆推出 X-Trainer AI 机器人操作平台。越疆对外展示双臂机器人协同刷盘子视频，以及在4月22日对外展示机器人自主叠衣服视频，本质上都是神经网络端到端控制能力的技术体现。

在最新的叠衣服视频中，越疆展示了AI 机器人操作平台 X-Trainer的技术内核，即双臂遥操作模仿学习系统。借助该技术，机器人能够加快模仿学习基础量累计，结合强化学习后能快速实现机械臂训练后的自主运行。

本次越疆进一步展示端到端能力并公开背后技术，机器人大讲堂独家采访到了越疆联合创始人郎需林，他对我们披露了越疆这套软硬件系统背后的技术运行逻辑和具体参数情况。

技术框架内核拆解

此类机器人的控制框架其实可以简单分为大模型（上层）+神经决策网络NNP（中层）+全身控制WBC（下层）。如今，这种多层级架构配合大模型赋能价值初显，正为机器人带来强大的感知及运动任务能力水平，让机器人直接将看到的、听到的信息，实现多模态融合并转化为语言和行为结果，中间不需要经过其他程序处理。

在这套机器人动作执行的控制框架中，想要机器人实现低时滞、高鲁棒性、高轨迹灵活性，就需要进行机器学习训练持续优化动作，而模仿学习的训练关键来源于数据，数据则来源于采集。这使得能够收集双臂运动数据的低成本全身遥操作系统，正在得到越来越多科研和产业研发人员的认同以及使用。

成熟的遥操作软硬件体系，一方面可以验证现阶段硬件能否端对端灵活完成各项软件算法和任务规划，另一方面可以更好收集端到端神经网络所需的训练数据，从而让未来的机器人能够自行执行任务，为更多细分场景开拓带来了新的可能性。

剥香蕉

切黄瓜

水果摆盘

打鸡蛋

煎鸡蛋

在越疆发布的视频中，机器人根据语言命令自主刷盘子、叠衣服，背后同样采用了视觉大语言模型+模仿学习神经网络的上层架构，其中的数据来源，则是借助遥操作系统训练而来。

人们看到的视频背后，首先由人类远程控制机器人进行动作演示，使得机器人能够根据动作快速模仿学习，大幅降低训练时间，最终由双臂机器人作为验证平台进行执行，提升整个端到端训练的质量，最终实现行为克隆。

动作轨迹优化秘诀

这种更强大的端对端响应能力，与X-Trainer 主从遥操作系统带来的高质量数据采集能力有较大关系。

一般而言，人工智能的强弱表现，与数据量和数据质量正相关，而二者都依托于数据采集能力。能否在短时间内采集到更多的高质量数据并快速训练，是机器人实现高效动作执行的基础。

越疆联合创始人郎需林透露，越疆采用了同构型主从手设计，能直接复现记录人类进行任务时的关节运动和轨迹，这使得X-Trainer 平台模仿学习的数据采集，可通过熟练的示范操作中学习而来，大幅提升机器人的图像采集质量，从而使得关节映射的精度、准确度、抖动、柔顺性等表现都非常优质，应对一些干扰的能力强劲。

低时延是越疆 X-Trainer平台的显著优势之一。根据郎需林介绍，这是由于X-Trainer 平台采用25Hz 频率接收顶部和手部的三个摄像头图像并完成推理，通过高性能的在线运动规划接口生成 250Hz 的双臂运动，图像到关节驱动响应非常高效。

根据公开信息，Figure 01 接收机载图像网络频率为 10Hz，即100毫秒一张图片，而X-Trainer 端到端高性能运动接口频率是25Hz ，相当于40毫秒一张图片，这意味着运行响应速度本质上提升了150% ，强大的即时响应能力带来更显著的运行平稳性。

从越疆发布的几个视频来看，无论是盘子上不规则污渍的擦净，还是应对衣服折叠的过程中出现的不规则褶皱，机器人都能快速调整，高动态响应能力大幅提升了机器人的适应性。这背后源于越疆强大的模仿学习方式，更接近于人类视觉网络的即时性反应，执行路径和方式是人脑驱动人手的动作机理，因此相较单独的图神经网络识别的质量更高。

X-Trainer 之所以能够做到高质量的数据采集，据郎需林介绍，因为越疆在这套遥操作系统中，主手硬件上采取了高性能低摩擦的电机，并且在结构的轻质和传动的摩擦力方面进行了大量的迭代和优化，从而带来了优质的柔顺性和摩擦阻力，使得操作更为轻便，用户疲劳感更弱，操作动作完成度也更高，大幅提升了机器人还原度，数据量和数据质量。

这套遥操作的从手，则是采取了高精度的 Nova 双臂，这个工业级的训练平台，让数据采集与动作的精度大幅提升，保证了任务的效率和质量，从而提供了保证了模仿学习的轨迹复现，为训练数据在各类场景落地提供了保证，最后才呈现出视频里机器人惊人的执行力效果。

高初值带来强化学习新范式

据悉，X-Trainer 这种高性能模仿学习神经网络迁移实现到机器人平台，完成端到端图像到动作映射的算法，目前也具有一定泛化能力。

由于基于真实物理环境数据采集，这种模仿学习为强化学习提供了一个优质的训练初值。不同于传统强化学习需要经过长时间训练、纠偏、优化，才能在随机环境获取较好初始值的方法，高性能模仿学习本质上加速了强化学习初值的获取速度。例如Figure 01此前神经网络的训练时间为 10 小时，而X-Trainer 通过人类示范模仿学习，仅需2小时训练即可自主刷盘子，并对实时干扰快速纠正。