智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线

AI应用信息9个月前发布 XIAOT
175 0
01.
悟道·天鹰(Aquila)+天秤(FlagEval)
打造大模型能力与评测标准双标杆
为了推动大模型在产业落地和技术创新,智源研究院发布了“开源商用许可语言大模型系列+开放评测平台”两大重磅成果。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
先来看一下“悟道·天鹰”Aquila语言大模型系列
这是首个具备中英双语知识、支持商用许可协议、支持国内数据合规要求的开源语言大模型。悟道·天鹰(Aquila)系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode “文本-代码”生成模型。
开源地址:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
现场,智源重点展示了“悟道·天鹰”AquilaChat对话模型的4项技能:对话、写作、可拓展特殊指令规范,强大的指令分解能力
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
首先是对话能力,AquilaChat非常谨慎地拒绝回答像“如何瞒过安检带着炸药上飞机”这样存在安全风险的问题,同时能就乘坐飞机的常见问题给出简明清晰的答案。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
写高考作文也不在话下。AquilaChat拿今年高考作文全国甲卷的“时间的仆人”题目练了练手,仅用不到10秒就生成了一篇切题的完整文章。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
此外,AquilaChat通过定义可扩展的特殊指令规范,实现通过AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力:
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
AquilaChat还拥有强大的指令分解能力,配合智源InstrucFace多步可控文生图模型,能够实现对人脸图片的多步可控编辑。
比如要求将照片中的女人皮肤变白、眼睛变蓝、动漫化,AquilaChat会将复杂指令拆解成多个步骤,依次完成。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
再比如要求把图片里女生的头发变成淡黄色、皮肤变成古铜色、脸色变得更加红润,AquilaChat也能出色地分解并完成任务。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
AquilaCode-7B“文本-代码”生成模型,基于Aquila-7B强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型。
AquilaCode-7B分别在英伟达和国产芯片上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新与多元化发展。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
值得一提的是,悟道·天鹰Aquila语言大模型基座是在中英文高质量语料(有近40%的中文语料)基础上从零开始训练的,通过数据质量的控制、深层次数据清洗处理、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得了比其它开源模型更优的性能
Aquila基础模型底座(7B、33B)在技术上继承了GPT-3、LLaMA等模型的架构设计优点,使用智源FlagAI开源代码框架,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法。
结果,Aquila在训练过程中,实现了比Megtron-LM+ZeRO-2将近8倍的训练效率;训练效率也比LLaMA提升了24%
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
智源研究院副院长兼总工程师林咏华告诉智东西,一个消费级显卡就能运行Aquila-7B模型:如果是FP16精度,Aquila-7B模型至少可以在20G显存上跑起来;如果是INT8精度,则会进一步减少显存使用。
“我们的发布只是一个起点。”她谈道,智源今天打造了一整套“大模型进化流水线”,基于此,智源会让大模型在更多数据、更多能力的增加之下,源源不断地成长。
智源研究院首创“可持续、自动化评测辅助模型训练”的新范式,将大模型训练与评测结合,利用阶段性的自动化评测结果,指导后续训练的方向、选择更优路径,大幅提升模型训练的效果,实现了“大模型进化流水线”,悟道 · 天鹰Aquila语言大模型系列后续也将持续迭代、持续开源。
同时,智源研究院发布了FlagEval(天秤)大语言模型评测体系及开放平台
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
目前大模型评测存在诸多难点。相比传统小模型,大模型规模大、结构更复杂、具备多种能力,且步入内容生成和人类认知领域。传统评测方法已经远远无法满足大模型评测的需求。
因此,是否有能力打造一套“自动化评测+人工主观评测”的大模型全面评价系统,并实现从评测结果到模型能力分析、再到模型能力提升的自动闭环,已是基础大模型创新的重要壁垒之一。
智源推出的天秤(FlagEval)大模型评测体系及开放平台,旨在建立一站式的科学、公正、开放的基础模型评测基准、方法及工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
FlagEval创新地构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,并可视化呈现评测结果。
目前该评测体系已覆盖语言多模态两大领域的大模型评测,推出开源多语言文图大模型评测工具mCLIP-Eval开源文图生成评测工具ImageEval,后续将覆盖视觉语音评测场景。
FlagEval开放评测平台现已开放(http://flageval.baai.ac.cn),打造自动化评测与自适应评测机制,并支持英伟达、寒武纪、昆仑芯、昇腾-鹏城云脑等多种芯片评测,以及PyTorch、MindSpore等多种深度学习框架。
智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线
    © 版权声明

    相关文章