harisex

SuperCLUE

互联网 2025-08-19 00:07:59

SuperCLUE是中文通用大模型综合性评测基准,前身为中文语言理解测评基准(CLUE),旨在评估中文通用大模型的综合效果、与国际模型的对比及人类基准差距。其评测体系涵盖基础能力、专业能力、中文特性能力三大维度,后发展为语言理解与生成、知识理解与应用、专业能力、环境适应与安全性四大象限,细分10项基础能力   。该基准采用自动化评测技术,通过多轮开放式题目模拟真实应用场景,并定期更新评测模型及维度   。截至2024年,SuperCLUE已发布月度、半年及年度报告,成为国内权威评测体系之一   。