MMBench

互联网 2025-08-19 00:22:18

MMBench是多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。MMBench涵盖多种任务类型，如视觉问答、图像描述生成等，基于综合多维度指标，为模型提供全面的性能评估。MMBench 的排行榜展示不同模型在这些任务上的表现，帮助研究者和开发者了解当前多模态技术的发展水平，推动相关领域的技术进步。

*文章为作者独立观点，不代表爱思词典立场

本文由快手灵儿发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11184.html

MMBench 上海人工智能实验室南洋理工大学香港中文大学新加坡国立大学浙江大学