UnifoLM-VLA-0

互联网 2026-02-03 11:04:00

UnifoLM-VLA-0 是宇树科技开源的通用视觉-语言-动作（VLA）大模型，基于 Qwen2.5-VL-7B 架构进行持续预训练。模型通过融合 2D/3D 空间感知、轨迹预测等多维监督信号，实现从”视觉语言理解”到”具身智能体”的进化。模型采用单一策略即可完成整理桌面、叠毛巾、分拣水果等12类复杂人形机器人操作任务，在 LIBERO 仿真基准测试中平均准确率达 98.7%，展现出强大的空间推理能力和跨任务泛化性能。

*文章为作者独立观点，不代表爱思词典立场

本文由糖心小包子发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/12613.html

UnifoLM-VLA-0 宇树科技