客户端
游戏
无障碍

0

评论

收藏

分享

手机看

微信扫一扫,随时随地看

紧随FigureAI,智元机器人开启“具身模型”垂直整合

AI划重点 · 全文约2022字,阅读需6分钟

1.中国初创企业智元机器人发布了首个通用具身基座大模型智元启元大模型(Genie Operator-1,简称GO-1)。

2.GO-1由VLM(视觉语言模型,20亿参数规模)+MoE(混合专家)组成,具有采训推一体,小样本快速泛化等优势。

3.为此,智元机器人展示了新款人形机器人灵犀X2,其同系列上一代机型已经全栈开源。

4.测试结果显示,GO-1在视觉鲁棒性方面的任务成功率大幅提升,尤其是在“倒水”与“补货饮料”任务上。

5.事实上,智元机器人并不是第一个提出两个系统分层的框架,以及潜在动作预测的具身智能初创企业。

以上内容由腾讯混元大模型生成,仅供参考


基于“慢思考”与“快思考”相结合,以“动作链”来提升长时序任务的成功率,正在成为当前具身智能通用大模型的主流方向。继美国初创企业PhysicalIntelligence与FigureAI后,中国初创企业智元机器人提出了自己的通用具身基座大模型。
昨日,智元机器人发布了首个通用具身基座大模型智元启元大模型(Genie Operator-1,简称GO-1),并公布了其技术报告,用到了去年底开源的现实世界机器人数据集AgiBotWorld。今天,智元还展示了新款人形机器人灵犀X2,它的同系列上一代机型已经全栈开源。
GO-1由VLM(视觉语言模型,20亿参数规模)+MoE(混合专家)组成,智元称之为ViLLA(Vision-Language-Latent-Action)架构,具有采训推一体,小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等优势。
GO-1的预训练数据,包括互联网上大规模收集的多视角的视觉-语言数据、人类第一人称视角的Ego4D数据、跨机器人平台数据,以及最为核心的AgiBot World数据。后者由100多台智元机器人收集,包含百万条轨迹,总时长为2976小时,涵盖家庭、零售、工业、餐厅和办公等数百个现实世界场景约217个具体任务。
相比传统的Open X-Embodiment (OXE) 数据集,它专注于长时序任务,多为30秒至2分钟之间,可以帮助机器人更好地学习多步骤、连续性强的复杂任务。长时序任务是人形机器人应用落地的关键。与数字世界的现实任务需要多步推理类似,物理世界的现实任务也多由一串动作序列构成。
人形机器人在识别当前场景,理解用户指令后,类似“思维链”,要从中构建起“动作链”。GO-1的视觉-语言-潜在动作框架(ViLLA),相比传统的视觉-语言-动作(VLA),最大的区别就在于预测潜在动作标记(latent action tokens)。
图片
在整个框架中,VLM模型可以接收多视角图片、力觉信号(通过视触觉传感器间接)、语言输入等多模态信息,进行通用的场景感知和指令理解,比如理解“挂衣服”对应的任务要求。
然后,Latent Planner(潜层规划器)通过建模当前帧与历史帧的变化,预测潜在动作序列,比如“靠近衣架、抓取衣物、挂上”等。
最后由Action Expert(动作专家)结合当前机器人状态(如关节位置),生成低级控制信号(如关节角度、速度),比如将“抓取衣物”转化为具体的手指闭合和手臂移动指令。
图片
这提升了任务的成功率。智元机器人测试了五种不同复杂度的任务后发现,相比当前开源的最优模型RDT-1B,GO-1的成功率大幅提升,尤其是在视觉鲁棒性(如光线变化、对象位置变化或背景干扰)的“倒水”与“补货饮料”任务上。如果没有潜在动作预测,GO-1的平均成功率还要下降12个百分点。
智元机器人还发现,随着预训练AgiBot World数据集规模的增长,GO-1成功率呈对应可预测的幂律关系,说明扩展定律仍在起效,具备持续优化的潜力。
智元机器人并不是第一个提出两个系统分层的框架,以及潜在动作预测的具身智能初创企业。在上个月,FigureAI发布通用视觉-语言-动作模型Helix,同样引入了相似机制。
图片
Helix由系统2(S2)和 系统1(S1)构成。前者也是一个VLM模型(70亿参数规模),经互联网规模数据预训练,用于场景和语言理解,可对不同的物体和场景进行泛化;后者是基于潜层条件的视觉运动Transformer,用于实时执行和调整动作。
这种解耦的架构,允许两个系统在各自的最佳时间尺度上运行。S2可以“慢思考”高水平的目标,将任务拆解为连续潜在向量(Latent Vector),再由S1“快思考”输出动作序列。
在这一机制下,与早期的机器人系统相比,Helix能够实时完成持续性、需要配合的精密操作,而无需任何特定任务示范或大量手动编程。Helix基于500小时高质量监督数据预训练。FigureAI很渴望看到,在将Helix扩展1000倍甚至更多后,人形机器人会发生什么。
在这之前,去年10月,美国具身智能初创企业Physical Intelligence发布具身智能大模型π0时,就采用了一个30亿参数的VLM模型(30亿参数规模)和动作专家的框架,并提出该领域的研究前沿包括长时推理与规划等。
今年2月,该公司又进一步提出了分层交互式机器人学习系统(Hi robot),该系统首先对复杂提示和用户反馈进行推理,以推断出完成任务的最佳下一步,然后通过低级动作执行该步骤。
具身智能领域的竞争,已经从“具身”或“智能”各自发展,逐步走向垂直整合。今年,FigureAI结束了与OpenAI的短暂合作,希望掌握自己的命运。“我们不能外包人工智能,就像我们不能外包硬件一样,”公司创始人布雷特·阿德科克(Brett Adcock)说,“要在现实世界中大规模解决具身智能,必须垂直整合机器人AI。”
以往,中国的人行机器人围绕国内供应链优势,普遍侧重“具身”与动作控制模型的研发。现在,智元机器人迈出了加入这场垂直整合的战局的第一步。

参考:

1,AgiBot World Colosseo: Large-scaleManipulation Platform for Scalable and Intelligent Embodied Systems

2,Hi Robot: Open-Ended Instruction Followingwith Hierarchical Vision-Language-Action Models


免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
00:34
8090后泪目!奇迹MU端游复刻,3月15日登录送卓越套装
广告奇迹MU怀旧版
了解详情
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部