越疆 X-Trainer 样样精通,背后掌握了哪些黑科技?

#媒体报道 · 2024-05-07

4月2日,越疆对外展示双臂机器人协同刷盘子视频,以及在4月22日对外展示机器人自主叠衣服视频,本质上都是神经网络端到端控制能力的技术体现。

 

在最新的叠衣服视频中,越疆展示了AI 机器人操作平台 X-Trainer的技术内核,即双臂遥操作模仿学习系统。借助该技术,机器人能够加快模仿学习基础量累计,结合强化学习后能快速实现机械臂训练后的自主运行。

 

 

此前 Figure 最早推出的机器人制作咖啡视频就被人猜测为模仿学习,特斯拉更是公开表示此前采取类似遥操作的训练方式,以提升机器人抓取衣物动作轨迹的柔性。而斯坦福此前展示的家务机器人,也是试图通过遥操作协同训练,提升机器人在自主完成炒虾、存放锅具、呼叫电梯等复杂移动和操作任务时的成功率。

 

本次越疆进一步展示端到端能力并公开背后技术,机器人大讲堂独家采访到了越疆联合创始人郎需林,他对我们披露了越疆这套软硬件系统背后的技术运行逻辑和具体参数情况。

 

技术框架内核拆解

 

此类机器人的控制框架其实可以简单分为大模型(上层)+神经决策网络NNP(中层)+全身控制WBC(下层)。如今,这种多层级架构配合大模型赋能价值初显,正为机器人带来强大的感知及运动任务能力水平,让机器人直接将看到的、听到的信息,实现多模态融合并转化为语言和行为结果,中间不需要经过其他程序处理。

 

在这套机器人动作执行的控制框架中,想要机器人实现低时滞、高鲁棒性、高轨迹灵活性,就需要进行机器学习训练持续优化动作,而模仿学习的训练关键来源于数据,数据则来源于采集。这使得能够收集双臂运动数据的低成本全身遥操作系统,正在得到越来越多科研和产业研发人员的认同以及使用。

 

成熟的遥操作软硬件体系,一方面可以验证现阶段硬件能否端对端灵活完成各项软件算法和任务规划,另一方面可以更好收集端到端神经网络所需的训练数据,从而让未来的机器人能够自行执行任务,为更多细分场景开拓带来了新的可能性。

 

剥香蕉

 

切黄瓜

 

水果摆盘

 

打鸡蛋

 

煎鸡蛋

 

在越疆发布的视频中,机器人根据语言命令自主刷盘子、叠衣服,背后同样采用了视觉大语言模型+模仿学习神经网络的上层架构,其中的数据来源,则是借助遥操作系统训练而来。

 

人们看到的视频背后,首先由人类远程控制机器人进行动作演示,使得机器人能够根据动作快速模仿学习,大幅降低训练时间,最终由双臂机器人作为验证平台进行执行,提升整个端到端训练的质量,最终实现行为克隆。

 

 

动作轨迹优化秘诀

 

这种更强大的端对端响应能力,与X-Trainer 主从遥操作系统带来的高质量数据采集能力有较大关系。

 

一般而言,人工智能的强弱表现,与数据量和数据质量正相关,而二者都依托于数据采集能力。能否在短时间内采集到更多的高质量数据并快速训练,是机器人实现高效动作执行的基础。

 

越疆联合创始人郎需林透露,越疆采用了同构型主从手设计,能直接复现记录人类进行任务时的关节运动和轨迹,这使得X-Trainer 平台模仿学习的数据采集,可通过熟练的示范操作中学习而来,大幅提升机器人的图像采集质量,从而使得关节映射的精度、准确度、抖动、柔顺性等表现都非常优质,应对一些干扰的能力强劲。

 

 

低时延是越疆 X-Trainer平台的显著优势之一。根据郎需林介绍,这是由于X-Trainer 平台采用25Hz 频率接收顶部和手部的三个摄像头图像并完成推理,通过高性能的在线运动规划接口生成 250Hz 的双臂运动,图像到关节驱动响应非常高效。

 

 

根据公开信息,Figure 01 接收机载图像网络频率为 10Hz,即100毫秒一张图片,而X-Trainer 端到端高性能运动接口频率是25Hz ,相当于40毫秒一张图片,这意味着运行响应速度本质上提升了150% ,强大的即时响应能力带来更显著的运行平稳性。

 

从越疆发布的几个视频来看,无论是盘子上不规则污渍的擦净,还是应对衣服折叠的过程中出现的不规则褶皱,机器人都能快速调整,高动态响应能力大幅提升了机器人的适应性。这背后源于越疆强大的模仿学习方式,更接近于人类视觉网络的即时性反应,执行路径和方式是人脑驱动人手的动作机理,因此相较单独的图神经网络识别的质量更高。

 

X-Trainer 之所以能够做到高质量的数据采集,据郎需林介绍,因为越疆在这套遥操作系统中,主手硬件上采取了高性能低摩擦的电机,并且在结构的轻质和传动的摩擦力方面进行了大量的迭代和优化,从而带来了优质的柔顺性和摩擦阻力,使得操作更为轻便,用户疲劳感更弱,操作动作完成度也更高,大幅提升了机器人还原度,数据量和数据质量。

 

 

这套遥操作的从手,则是采取了高精度的 Nova 双臂,这个工业级的训练平台,让数据采集与动作的精度大幅提升,保证了任务的效率和质量,从而提供了保证了模仿学习的轨迹复现,为训练数据在各类场景落地提供了保证,最后才呈现出视频里机器人惊人的执行力效果。

 

高初值带来强化学习新范式

 

据悉,X-Trainer 这种高性能模仿学习神经网络迁移实现到机器人平台,完成端到端图像到动作映射的算法,目前也具有一定泛化能力。

 

由于基于真实物理环境数据采集,这种模仿学习为强化学习提供了一个优质的训练初值。不同于传统强化学习需要经过长时间训练、纠偏、优化,才能在随机环境获取较好初始值的方法,高性能模仿学习本质上加速了强化学习初值的获取速度。例如Figure 01此前神经网络的训练时间为 10 小时,而X-Trainer 通过人类示范模仿学习,仅需2小时训练即可自主刷盘子,并对实时干扰快速纠正。

 

 

这就是越疆在模仿学习的基础上,通过物理引擎仿真以及环境建模,更快实现了初始轨迹的空间结构位置信息获取,再加上强化学习后,能够叠加随机物理真实信息纹理等参数,从而实现多层级任务的学习,强化了算法在不同场景的泛化能力。

 

目前,机器人端到端任务执行的算法框架已经基本稳定,但机器人从0-50基础数据集的获取依然耗费了研究者大量的时间。

 

模仿学习是一个机器人数据基础框架和基础能力获取的加速器,可以说是机器人学习的基石。因为在此基础上,轨迹数量更加丰富且精确,数据集获取也更为容易,研发者能够聚焦场景泛化能力,注重机器人从50~10000强化学习能力的训练。

 

 

据悉,X-Trainer 系统包括两只主手、两只从手,每台机械臂上有一个3D摄像头和夹爪,顶部也有一个3D的摄像头,越疆自研的高性能主从控制和双臂协同框架,保证了高数据量传输,全栈式提升这套端到端框架的运行可靠性。

 

 

在具体场景上,这套系统除了有望助力科研院所相关算法科研验证,快速将学术研究的成果与下游应用需求链接,还有望帮助工业场景企业,加快对于3C电子、电池组装等线束扎带、柔性插拔等工艺的学习训练效率,推动人形机器人的进化,真正做到从实验室走向实际场景应用。

 

结语与未来

 

国际上,斯坦福等高校已针对模仿学习和强化学习能力展开了大量相应研究,国内包括越疆等企业也找到了正确路径。X-Trainer 这套系统,非常有望帮助国内更多科研机构、应用企业,加入数据基石建设的进程中,加速国内人形机器人在多场景任务落地的可行性。

 

“我们正处于时代的风口浪尖,中国企业正尝试克服种种困难去迎接这个时代的挑战,越疆希望用自己的努力,助力更多的人参与到中国机器人和具身智能的发展浪潮中,共建这个充满想象力的未来。”郎需林对未来充满信心。

 

越疆机器人期待与你携手共赢

申请代理合作

400-800-7266

免费样机申请

首页

返回顶部

样机申请

我们提供免费机器人试用,如果您想体验越疆协作机器人,请填写以下信息,我们将第一时间与您联系!您也可以致电400-800-7266联系客服申请样机。

联系信息

申请产品

文件发送

我们已经将文件发送到你的邮箱,请查收

加入 Dobot+ 生态圈,与上下游生态伙伴深度合作

诚邀您加入生态合作,共同在硬件+软件上,兼容适配、整体方案上相互配合,打造用户所需的产业生态。请如实填写以下信息,我们将第一时间与您联系!您也可以致电400 800 7266联系客服进行生态合作。

联系信息

留言