Open-o3 Video
互联网
2025-11-09 02:27:56
Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略,实现了在 V-STAR 基准测试中的最佳性能。非代理框架设计,能高效地处理复杂的时空关系,在视频推理任务中表现出色。训练过程包括冷启动初始化和强化学习两个阶段,通过这种方式,模型能更好地适应不同的视频推理场景。


![宇宙首帅不是黄毛了[打call] ](https://imgs.knowsafe.com:8087/img/aideep/2021/12/24/1a2ec9f090a6ae1bf22cbc00a79ddec4.jpg?w=250)




