开普云具身智能团队在ICRA 2026 RoboChallenge WBC赛道获第4名

http://www.chaguwang.cn 2026-06-05 开普云内幕信息

来源 :开普云2026-06-05

　　近日，ICRA 2026 RoboChallenge Dexmal WBC（Whole Body Control）Track成绩正式公布，开普云具身智能团队获得第4名。

　　团队成绩排名

　　开普云具身智能团队此前主要专注多模态算法领域，此次是该团队首次参加具身智能真机竞赛。获得第4名的成绩，既是对团队技术转型的一次实际检验，也为开普云在具身智能方向的探索提供了参考经验。

　　RoboChallenge是ICRA 2026官方竞赛项目之一，也是由Dexmal原力灵机与Hugging Face共同发起的全球首个大规模、多任务真机评测平台。

　　ICRA（IEEE International Conference on Robotics and Automation）是机器人领域最具影响力的国际学术会议之一，由IEEE机器人与自动化学会主办。会议每年汇聚全球机器人领域的前沿研究成果，其官方竞赛项目也成为检验机器人技术能力的重要舞台。

　　与传统机器人竞赛或仿真测试不同，RoboChallenge强调“真实机器人、真实场景、真实任务”。参赛团队无需提交代码，而是将模型部署在本地服务器，通过API远程控制平台提供的真实机器人完成任务。模型不仅要理解指令，还要在复杂环境中完成感知、决策、运动控制和任务执行等一系列动作。这意味着参赛系统必须面对视觉误差、物体摆放偏差、机械执行误差、通信延迟等现实问题，对模型泛化能力、系统稳定性以及软硬件协同能力提出了更高要求。

　　因此，RoboChallenge不仅考察模型在实验环境中的表现，更关注其在真实世界中的落地能力。对于当前处于快速发展阶段的具身智能行业而言，真机评测已逐渐成为检验技术成熟度的重要标准之一，也使得RoboChallenge成为近年来备受关注的国际具身智能评测平台。

　　机器人执行任务视频

　　本次WBC（Whole Body Control）Track聚焦零售场景下的人形机器人全身协同控制能力，是赛事中最能体现具身智能综合能力的赛道之一。参赛机器人需要完成自主导航、目标识别、物品抓取、搬运和放置等连续任务，系统考察机器人在感知、规划、控制和执行等多个环节的协同能力。

　　开普云具身智能团队的前身是多模态算法团队，长期以来在大模型训练和跨模态理解方面积累了丰富的技术储备。从2025年底开始，团队正式切入具身智能赛道，将算法能力从“数字世界”拓展至“物理世界”。

　　此前，团队依托SO-101 ARM开源机械臂平台，完成从数据采集、模型训练到真机部署的全流程实践。在这一过程中，团队通过双摄像头视觉系统与ACT模仿学习模型的结合，有效解决了从示教到自主执行的一系列难题。

　　更重要的是，在同期参与的Agibot World Challenge 2026 Reasoning To Action中，团队验证了一条独特的技术理念：未引入任何外部数据，仅基于赛事提供的数据与基线模型进行优化，验证数据利用本身所能带来的性能提升空间。

　　这一理念也延续到了本次RoboChallenge的参赛中——在既定的数据条件下积极探索数据策略，拉近模型训练和真机测试的距离。

　　模型训练

　　本次比赛的官方baseline基于当前业界领先的VLA模型架构。开普云团队在此基础上，依托自身在具身智能大脑训练领域的技术积累，对模型架构进行了针对性优化与适配，成功训练形成了开悟具身智能模型。针对比赛提供的G2双人形机器人数据，团队完成了从数据预处理、模型微调到部署推理的全链路适配，支持高效参数微调与全参数微调两种训练模式。

　　数据策略

　　在本次比赛中，团队的核心思路是：在固定的数据条件下，通过数据组织与训练范式的优化，充分释放基线模型的潜力。

　　系统化数据增强

　　团队针对原始轨迹与任务分布进行了系统性的重构，提升关键状态与困难场景的数据覆盖密度。具体而言，通过对轨迹数据进行变换和扩充，使模型在面对测试场景中的偏差时更具鲁棒性。

　　显式化动作链条

　　团队将自然语言任务蕴含的隐式动作显式化，设计“目标-动作1-动作2-动作3”的阶段式动作链条。这一做法的核心价值在于：模型不再是隐式地理解任务、推测动作，而是显式地根据观察状态简单地生成激活动作，针对性提升任务场景的稳定性和准确率。

　　针对性训练策略

　　团队重点调整了动作分块大小、学习率调度策略以及批次数据的采样方式，使模型在训练过程中能够更高效地学习任务分布和动作策略。同时在训练过程中引入基于验证集表现的早停机制，当模型性能趋于收敛或出现过拟合迹象时及时停止训练，从而提升模型泛化能力，降低对训练数据细节和噪声的过度拟合。每一次调整背后，都是对模型行为的一次“诊断”——分析模型在哪些场景下失败，然后定向调整训练配置来针对性强化。

　　推理部署优化

　　比赛采用远程API评测模式，选手自行负责模型推理服务的部署。团队在推理端进行了针对性优化：动作序列的平滑后处理、异常状态检测与恢复机制等。这些看似“工程化”的改进，在真机评测中往往能贡献十分可观的性能提升。

　　本次比赛让团队完成了从“多模态算法理解”到“真机物理交互”的关键跨越。开普云深刻体会到，具身智能的挑战不仅仅是模型架构问题，更是一个系统工程问题：

　　数据维度的挑战：机器人数据为时序序列，强时间依赖特性，使得数据构建与预处理的工作难度显著增加。

　　理论到现实的鸿沟：即使训练模型在离线验证中表现良好，部署到真机后仍然可能因噪声、物理接触的不可预测性而失效。

　　评测环境的开放性：测试场景动态多变、无统一范式，要求模型具备强大的开放世界感知与自适应能力，无法依赖训练集的固定模式。

　　策略执行的连续性：长时序任务中，单步动作误差持续累积，对模型的实时纠错、动态规划能力提出了极高的要求。

　　软硬件协同的难题：算法模型、硬件驱动、通讯链路深度耦合，任一环节的卡顿、偏差都会传导至整体任务，整套系统的联调与稳定性优化工作量远高于算法开发。

　　近年来，大模型技术正在加速从数字空间向现实场景延伸。具身智能被认为是人工智能迈向通用能力的重要发展方向之一，也是连接数字智能与物理世界的重要桥梁。

　　此次参赛不仅验证了开普云在VLA模型训练、数据优化和真机部署方面的技术积累，也进一步坚定了团队持续探索具身智能技术的方向。

　　从多模态理解到具身行动，从数据驱动到真实交互，开普云将持续推进人工智能技术创新，探索大模型与机器人融合发展的更多可能，为具身智能技术的产业化落地积累实践经验。