潮新闻客户端 记者 张云山
近日,群核科技发布的空间理解开源模型SpatialLM,登上全球最大AI开源社区HuggingFace趋势榜第二位。
HuggingFace趋势榜
SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。在开源后一周,SpatialLM在海外社交平台LinkedIn、Twitter受到行业人士追捧。
公开资料显示,SpatialLM是群核科技自主研发的一款空间理解模型,该模型仅通过一段视频即可生成物理正确的3D场景布局。不同于传统大语言模型,SpatialLM突破了对物理世界几何与空间关系的理解局限,将在机器类人的空间认知和解析能力上发挥重大作用。
据悉,SpatialLM由数百万照片级真实RGBD渲染图片,约10万高质量物理正确的3D室内空间训练而成,加速了机器人对空间理解的进程。SpatialLM模型开源后,将为像具身智能领域的企业或机构科研团队提供一个空间认知理解的基础训练框架,降低具身智能训练门槛。
SpatialLM模型
SpatialLM的独特之处在于:相比Meta需要依赖其眼镜的定制化模式,SpatialLM设定于面向普通相机、手机的视频作为输入,因此更具通用性。不同于传感器对物理世界的感知,SpatialLM使用大语言模型,最终输出是对3D场景的自然语言描述,未来还将支持原生自然语言与场景数据交互。更重要的是,SpatialLM支持对物理世界中空间信息的认知理解,和结构化描述。群核科技本身便专注于物理空间模拟的技术场景,过去十余年中积累了海量的三维数据和空间认知数据;基于此数据训练的模型,亦具备创建物理正确的空间场景的能力。
SpatialLM模型工作原理
同时,SpatialLM模型与去年群核科技发布的空间智能解决方案SpatialVerse之间,形成从空间认知理解到空间行动交互的具身智能训练闭环。这些基于SpatialLM模型生成的一个个结构化场景又可泛化生成亿万级新场景。相当于形成一条 "现实 - 虚拟 - 现实" 的闭环路径,让现实世界成为“数字道场”的原料来源,这不仅让SpatialVerse的数据更多样,同时还能缩小仿真与现实之间的“差距”。
黄晓煌接受采访
群核科技创始人黄晓煌接受采访时表示,具身智能机器人即将迎来爆发性发展,群核希望通过空间模型和数据开源为这个技术奇点的来临贡献一份力量。
“转载请注明出处”