糖心小包子

UnifoLM-VLA-0

互联网 2026-02-03 11:04:00

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作(VLA)大模型,基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号,实现从”视觉语言理解”到”具身智能体”的进化。模型采用单一策略即可完成整理桌面、叠毛巾、分拣水果等12类复杂人形机器人操作任务,在 LIBERO 仿真基准测试中平均准确率达 98.7%,展现出强大的空间推理能力和跨任务泛化性能。