站长之家用户 - 传媒 2025-03-03 15:25

端到端VLA是具身智能的曙光吗?这项被Figure AI带火的关键技术有中国团队更早提出并应用

Figure AI 在与 OpenAI 终止合作后,果然发布了大新闻,这家人形机器人公司从外接大模型的方式,转入本地具身大模型来完成机器人的感知、交互与操作,充分展现了本体具身大模型与外接互联网大模型的优势。

根据 Figure AI 有限的技术分享,他比较新推出的 Helix 系统是基于视觉-语言-行动(VLA)端到端整体架构演进的一套快慢系统。

借助 Helix,Figure AI 将端到端 VLA 模型运行到自家的双足人形机器人 Figure 02 上,实现了面向场景任务的泛化性。

在 Figure AI 官方展示视频中,机器人一边用头部追踪手部,一边调整躯干姿势,同时能够比较准确抓取物体。

这种多自由度协调在高维动作空间中相当挑战性,而 Helix 可以做到美好平衡。

究其本质,Helix 是一个能够对整个人形上身(包括手腕、躯干、头部和各个手指)进行高速率连续控制的 VLA 模型,作为 Figure AI 的比较优秀大脑,它完成了所有事情:

像人类一样用眼睛观察、用耳朵听、用手操作,并在没有特别训练的情况下完成全新的任务,有准确的控制能力。

这在视频中得到了充分展现:Helix 驱动的机器人成功抓取数千种新物体,仅需一句「拿起 [X]」,当指令为「拿起沙漠物品」时,它能识别玩具仙人掌并完成抓取。

「Helix 表现出了强大的物体泛化能力,只需用自然语言询问,就能捡起数千种形状、大小、颜色与材料特性各异的新奇家居用品,而这些物品在此前的训练中从未见过。」Figure AI 的创始人兼 CEO 布雷特·艾德考克认为。

Figure AI 此番高举高打的端到端 VLA 架构,实际在硅谷也是非常新的技术。

伯克利机器人行业的优质团队创办的 PI,在 2024 年 6 月、10 月分别发表了 OpenVLA、PI-0,奠定了端到端 VLA 的圣杯标准,当时获得极大反响。

但这个技术不只是硅谷优质团队的专利,中国科研力量也在端到端 VLA 舞台上展露过实力。

2024 年 6 月,比 PI 早发表的,针对操作机器人的 RoboMamba 端到端具身大模型,由北大,智平方等合力推出。

这一模型不仅比 PI 的 OpenVLA 更早公开应用,还在未见任务(Unseen Task)的泛化能力上显著超越 Google 的 RT 系列模型,进一步巩固了中国在大模型原创力上的国际声誉。

这是业界能看到的,仅有初创公司参与的端到端 VLA 工作被国际专家认可。

图注:图源 RoboMamba 论文

图注:论文介绍了一个名为 RoboMamba 的多模态状态空间模型,旨在提高机器人的推理和操作能力,同时保持有效的微调和推理

论文创新性地将视觉编码器与有效的 Mamba 语言模型集成,构建了全新的端到端机器人多模态大模型。

端到端的背后,是对量产的深入理解。在场景多变的情况下,如何用数据驱动的方式完成系统升级迭代,如何对数据,模型结构,训练方法实现系统级别 AI 突破。这些关键问题困住了大量具身智能领域的入局者。

小鹏、OPPO前首席科学家,微软总部研究员,创新领军人才郭彦东,是初次提出端到端 VLA 架构的人,这来自于他在产业、行业多年的深耕积累,以及他在 AI 原创领域的硬核研发能力。依托技术的先发布局,和大量人工智能软硬一体化结合的量产经验,帮助智平方率先做到了这一点,成为国内最早进行真正商业落地的通用智能机器人公司。

本质上,能做好 VLA 端到端的公司具备对大模型前沿技术的硬核创新能力,其间的点滴积累如能应用到整个 AI+硬件行业,会成为相当价值的存在。

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看