随着ChatGPT的火爆,AI领域再次成为公众瞩目的焦点。如今,我国也掀起了一股“百模大战”的热潮,旨在通过大模型的能力测评来发掘AI技术的新突破。其中,MathEval这一以数学能力为核心的权威测评基准,对30个大模型进行了全面而深入的评估,吸引了广泛的目光。
经过激烈比拼,学而思九章、百度文心一言4.0以及讯飞星火V3.5凭借卓越的表现脱颖而出,分别占据了前三甲的宝座,展现出了它们在AI技术领域的强大实力。这些模型的出色成绩不仅彰显了各自的技术优势,更为整个行业树立了新的标杆,引领着AI技术的创新与发展。
截至去年10月,国内已涌现出超过200个大模型,它们在数学应用领域得到了广泛的运用。无论是解决日常数学问题,进行深度数据分析,还是辅助学术研究和学习指导,大模型都发挥着不可或缺的作用。如今,无论是通用型还是专业型的大模型,都展现出了不俗的数学能力,为各领域的发展注入了新的活力。
为了全面评估大模型在数学领域的实力,智慧教育国家新一代人工智能开放创新平台携手暨南大学、北京师范大学、华东师范大学、西安交通大学和香港城市大学共同发起了MathEval测评基准。这一测评项目旨在通过多样性评估,深入探究大模型在算术、小初高竞赛以及部分高等数学分支内的解题能力表现,从而为大模型在数学领域的应用提供更为精准、全面的评估标准。通过MathEval的测评,我们有望更加清晰地了解大模型在数学领域的优势和不足,为未来的研究和应用提供有力的支持。
MathEval项目汇聚了自2010年以来19个数学能力测评数据集,这些宝贵的数据资源均源自ACL、AAAI、ICLR等国际人工智能顶级会议论文中的公开数据。这些数据集不仅涵盖了不同年级、题型、文本形式和难度的数学问题,而且为数学能力的全面测评提供了丰富而详尽的结果。在测评过程中,MathEval团队严格测试了30个大模型,并采用先进的GPT4大模型进行答案抽取和匹配,从而有效降低了基于规则评测可能带来的误差,确保了测评结果的准确性和可靠性。
学而思九章大模型作为专注于解题和讲题算法的大模型,在此次测评中取得了优异的成绩。据了解,学而思在该领域的研发投入已突破10亿元大关,这充分展示了他们在大模型研发方面的雄厚实力和坚定决心。学而思九章大模型的成功并非偶然,它凭借卓越的解题能力和专业的算法支持脱颖而出,成为业界的佼佼者。作为一家致力于将先进技术与教育相结合的领军企业,学而思通过九章大模型为学生们提供了高效、精准的数学学习工具,为推动数学教育的创新与发展做出了杰出贡献。
正是由于学而思等优秀企业的持续奋斗和不懈探索,国产大模型才得以不断突破自我,展现出更为丰富的潜力和可能性。这些企业的努力和尝试,为国产大模型的未来发展铺设了更宽广的道路,注入了更深远的影响力。