MMBench
互联网
2025-08-19 00:22:18
MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。MMBench涵盖多种任务类型,如视觉问答、图像描述生成等,基于综合多维度指标,为模型提供全面的性能评估。MMBench 的排行榜展示不同模型在这些任务上的表现,帮助研究者和开发者了解当前多模态技术的发展水平,推动相关领域的技术进步。

![聂小雨 我快一百斤了 [跪了] ](https://imgs.knowsafe.com:8087/img/aideep/2022/1/21/7e4eba2faac3a69326c3844e620184df.jpg?w=250)




![鹤秋 当我把日常混在一起发,发现每天都有一点小惊喜[污]](https://imgs.knowsafe.com:8087/img/aideep/2025/5/22/e3b18d005048254e70ab3b0d84cd4510.jpg?w=250)
