首页
抖音
B站
老司机
热门
网络
投稿
首页
抖音
B站
老司机
热门
网络
互联网梗百科
LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学...
查看更多
Abella Danger
08-19
LMArena
LMArena是加州大学伯克利分校推出的创新AI模型评估平台,基于让用户对不同AI模型的回答进行匿名投票,衡量模型的表现。用户输入问题后,平台提供两个模型的回答,用户根据偏好选择更优答案,投票结果直接...
查看更多
彩库宝典
08-19
HELM
HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是斯坦福大学推出的大模型评测体系,评测方法主要包括场景、适配、指标三大模块,每次评测的运行都...
查看更多
lenababy
08-19
OpenCompass
OpenCompass面向大模型的开源方和使用者, 提供开源、高效、全面的大模型评测开放平台。网站包含大模型评测榜单,评测集社区,文档等专区。榜单专区包含大语言模型以及多模态大模型榜单,提供多能力维度...
查看更多
Kristen Scott
08-19
MMBench
MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员联合推出。MMBench推出一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20...
查看更多
快手灵儿
08-19
H2O EvalGPT
H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalG...
查看更多
nikibaby
08-19
PubMedQA
PubMedQA是专门用在生物医学研究问题回答的数据集。PubMedQA通过文献摘要回答“是/否/可能”形式的研究问题,例如“某种药物是否有效”。数据集包含1000个专家标注的问答实例、61200个未...
查看更多
啵啵梨
08-19
MMLU
MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大...
查看更多
sweetybebe
08-19
SuperCLUE
SuperCLUE是中文通用大模型综合性评测基准,前身为中文语言理解测评基准(CLUE),旨在评估中文通用大模型的综合效果、与国际模型的对比及人类基准差距。其评测体系涵盖基础能力、专业能力、中文特性能...
查看更多
harisex
08-19
SCALE
大模型SQL能力排行榜揭示大模型在SQL领域的真实水平! SCALE致力于通过科学、严谨的测评,全面评估大语言模型(LLM)处理SQL的核心能力。我们聚焦三大关键维度:SQL优化能力(提升查询效率与性...
查看更多
honeysuger
08-19
奥维云网
北京奥维云网大数据科技股份有限公司是一家专注于智慧家庭领域的大数据综合解决方案服务商,为行业内企业提供数据研究和大数据服务。2014年8月,奥维云网(NEEQ:831101)在新三板挂牌上市,经历十多...
查看更多
yidhra
08-18
宏天软件
宏天软件2008年7月成立于广州,专注于业务流程管理套件BPM(Business Process Management)、低代码快速开发平台、集成管理平台、用户中心、统一门户、数据中台等中间件平台研...
查看更多
lingxi
08-18
下一页