互联网资讯 / 人工智能 · 2024年2月13日

甲骨易AI研究院发布中文大模型测试集“超越”

近期中文大语言模型蓬勃发展,但却一直少有出现可应用于评测”大模型能力“的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配“测试中文大模型”的数据集,并将其命名为“超越”,MMCU(MaSSive MultITask CHinese UndeRstanding)。5月20日,甲骨易AI研究院“超越”中文大模型测试集正式发布。

据介绍,“超越”的意义是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其“越”来越强大。这里“超”和“越”要单独来理解,并不是超越别人的意思。

甲骨易AI研究院首席研究员Felix透露,4月推出了MMCU的测试集和测试方法。数据集的测试内容涵盖四大领域:医疗、法律、心理学和教育。题目的数量达到1万+,其中包括医疗领域2819道题,法律领域3695道题,心理学领域2001道,教育领域3331道。

“我们是把大模型当作一个真正的人类来看待,”Felix表示,测试集之所以涉及语、数、物理、化学这些科目,因为人工智能必须像人类一样,具备对于世界的基础的认知;而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。

“所有题目都不是从网络上直接能够抓到的,而是由大量的人工整理,尽可能确保不会出现在大模型的训练数据中。而整套的测试集涵盖的领域能够确保模型测试的知识的广度和深度,从而帮助研究者们去发现这一模型的哪个领域有缺陷或者说它的整体上都有缺陷。”Felix说到。

中国科学院大学网络数据重点实验室的咸宁针对MMCU测试集的使用情况进行分享,解释了测试数据集的分析原理,对几大模型的测试成果进行了展示与客观分析,并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。

通过大模型测试发现,在本应有明显优势的语文科目中,国产大模型的表现却差强人意。Felix指出,现在很多模型评估还是处于人工评估阶段,甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差,但未来还将持续优化评测方式并扩充评测领域。

“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示,愿与业界更多机构联手,一道携手推进大模型的发展,加速人工智能技术的产学研用进程。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册