diamondss

Open-o3 Video

互联网 2025-11-09 02:27:56

Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,通过整合显式的时空证据(关键时间戳和边界框)来实现精准的视频推理。通过精心策划的 STGR 数据集和两阶段的 SFT-RL 训练策略,实现了在 V-STAR 基准测试中的最佳性能。非代理框架设计,能高效地处理复杂的时空关系,在视频推理任务中表现出色。训练过程包括冷启动初始化和强化学习两个阶段,通过这种方式,模型能更好地适应不同的视频推理场景。