地平线与清华团队携H-RDT模型荣获CVPR 2025 RoboTwin双臂机器人竞赛冠军

来源: 小世评选

近来在全球著名的计算机视觉与模式识别国际会议CVPR 2025上,地平线机器人实验室与清华大学计算机系朱军教授团队携手推出的H-RDT模型,凭借其卓越的性能和高成功率,一举夺得了RoboTwin双臂机器人竞赛的冠军(一等奖第一名),同时也在仿真赛中获得亚军(一等奖第二名)。这一成就为机器人学习领域提供了高效的解决方案,也强化了地平线在人工智能领域的领导地位。

CVPR每年吸引来自学术界与工业界的顶尖研究成果,是全球人工智能领域最具影响力的会议之一。在此次2025年会议中,特别首次举办的MEIS研讨会以“生成式人工智能时代的多智能体具身系统”为主题,成功发起了双臂协作的RoboTwin挑战赛,成为全球首个专注于“建图-感知-操作”的权威机器人竞赛,吸引了来自世界各地的众多科研团队参与。

此次比赛的主要目标是评估双臂机器人在执行复杂操作任务中的能力。参赛模型需在仿真和真实环境中完成一系列挑战,例如柔性物体操作、空间推理、双手协作等,这些均对机器人的智能水平和操作精度提出了极高的要求。在真机赛环节,机器人面临在现实世界中执行任务,如叠毛巾、精确放置物品等,对模型的泛化能力、环境适应性和操作稳定性进行了严格的考验。仿真赛则更加关注于模型处理多个任务的能力。

针对通用机器人操作数据规模与泛化性问题,地平线与清华大学的朱军教授团队合作研发了H-RDT模型(Human to Robotics Diffusion Transformer)。该模型从大量人类操作数据中进行学习,结合带有3D手部位姿标注的人类操作视频,极大增强了机器人的操作能力,开创了普通机器人操作技能的规模化学习新模式。

H-RDT模型的成功在于其创新的两阶段训练范式,旨在实现跨本体的部署。第一阶段,H-RDT在大规模的人类第一人称操作数据上进行预训练,构建共享的动作表征空间。第二阶段,通过模块化的动作编解码器,在机器人的数据集上进行微调,从而实现跨本体的有效迁移。这种设计不仅解决了不同机器人本体和动作空间差异问题,还显著提升了模型的整体泛化能力。

在架构设计上,H-RDT采用了一个拥有20亿参数的扩散Transformer架构,配备了专门的动作编码器和解码器,利用流匹配方法成功建模复杂的动作分布,带来了更高的训练稳定性和推理效率。为了解决人类与机器人之间的差异团队精心设计了一种3D手部姿态表示方法,将动作编码为48维的紧凑向量,以精准捕捉关键的双手灵活操作的信息,从而为机器人操作提供明确的“上层动作空间”,有效提升了策略的泛化能力,缓解了机器人之间的差异。

在真机实验中,H-RDT模型在三种真机设置(Aloha-Agilex-2.0、双臂ARX5、UR5+UMI)上均展现了优越性能与卓越的跨本体迁移能力。实验结果详细列出了模型在各个任务上的表现,显示出其在样本利用效率和多任务处理能力方面的优势。在仿真实验中,H-RDT在RoboTwin 2.0基准测试的45项任务上实现87.2%的平均成功率,远超RDT、π0等其他基线方法,充分证明了该模型在多任务处理中的领先水平。

H-RDT模型的成功不仅在于其技术先进性,更为实际应用开辟了新的路径。通过充分利用海量人类操作数据进行预训练,该模型有效应对了高质量机器人演示数据稀缺的问题。这一创新方法在学术研究上取得了突破,同时在具身智能技术的实际应用中展现了巨大的潜力。凭借强大的跨本体迁移能力和少样本学习的效率,H-RDT有望推动智能家居、工业制造、医疗护理等多个领域的智能化升级。

作为机器人产业的重要推手之一,地平线在人工智能学习领域积累了深厚的技术底蕴,并展现出显著的创新能力。此前地平线的UniAD模型已于2023年获得CVPR最佳论文奖,H-RDT模型在CVPR 2025的杰出表现再次证明了其在人工智能领域持续深耕和不断突破的决心。地平线团队表示:“真正的智能是让每一辆车、每一个电器都具备环境感知、人机交互和决策控制的能力”。展望未来,H-RDT及其相关技术将助力推动具身智能技术广泛发展与应用,地平线将继续秉持创新驱动的理念,致力于赋能智能汽车和机器人,使人类的生活更加安全美好,为全球智能化技术的普及贡献更大力量,推动实现“机器归机器,人的归人”的美好愿景。

相关阅读
精品推荐