为满足大模型产业化落地选型测试和能力监测需求,中国信通院于“2024中国信通院ICT深度观察研究成果报告会”上发布大模型评测体系“方升”,旨在建立业界大模型基准测试统一的“度量衡”,规范大模型产业发展。
甲骨易是中国信通院“方升”大模型基准测试首批合作伙伴,携手共建“通用幻觉基准测试集”,获得中国信通院“大模型基准测试体系合作伙伴”证书,共同致力于加快构适产业界适用于中文大模型全面、客观、统一、规范的大模型基准测试体系。
中国信通院称,“方升”能够合理解决模型评测规则混乱、距离应用场景较远等亟待解决的问题,从四个维度对大模型进行全面、客观、统一的评估。“方升”测试体系测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万。此次中国信通院联合甲骨易等产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个,使中文大模型能更好地产业智能化落地,加速大模型与产业融合。
随着大模型快速发展,其带来的真假难辨的“幻觉”和虚假信息难以检测等影响大模型落地的问题一直被人们关注。甲骨易在深入布局全球智能语言服务生态的同时,将全球多语言本地化能力平移到数据服务领域,成立甲骨易AI研究院(甲骨易AI Lab),推出中文大模型评测体系LucyEval,在全球业内率先发布基于中文多任务理解能力测试集,后续再次首发中文大模型多学科生成能力评测,开创性地将大模型成熟度评测维度从通识评测转向业务场景评测,通过深化对中文大模型的能力评测,帮助中文大模型提升全球竞争力。
甲骨易获得中国信通院“大模型基准测试体系合作伙伴”证书
在发布LucyEval时甲骨易就曾表示:“如何最快速地判断机器是否能正确理解人类的知识和语言是我们共同关注的问题。甲骨易AI研究院希望通过LucyEval对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加精准地调整、训练模型,助力大模型不断迈向更智能的未来。”
甲骨易始终坚持以高质量数据加快模型在应用场景下的智能化进程,以人工智能关键技术作为企业数字化转型的核心驱动力。甲骨易坚信通过此次与中国信通院联合发布的幻觉基准测试集,能够帮助中文大模型更好地对抗幻觉,实现真正的人模共生。