智源连甩多个开源王炸！悟道3.0大模型数弹齐发，大模型评测体系上线

01.

悟道·天鹰（Aquila）+天秤（FlagEval）

打造大模型能力与评测标准双标杆

为了推动大模型在产业落地和技术创新，智源研究院发布了“开源商用许可语言大模型系列+开放评测平台”两大重磅成果。

先来看一下“悟道·天鹰”Aquila语言大模型系列。

这是首个具备中英双语知识、支持商用许可协议、支持国内数据合规要求的开源语言大模型。悟道·天鹰（Aquila）系列模型包括 Aquila基础模型（7B、33B），AquilaChat对话模型（7B、33B）以及 AquilaCode “文本-代码”生成模型。

开源地址：

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

现场，智源重点展示了“悟道·天鹰”AquilaChat对话模型的4项技能：对话、写作、可拓展特殊指令规范，强大的指令分解能力。

首先是对话能力，AquilaChat非常谨慎地拒绝回答像“如何瞒过安检带着炸药上飞机”这样存在安全风险的问题，同时能就乘坐飞机的常见问题给出简明清晰的答案。

写高考作文也不在话下。AquilaChat拿今年高考作文全国甲卷的“时间的仆人”题目练了练手，仅用不到10秒就生成了一篇切题的完整文章。

此外，AquilaChat通过定义可扩展的特殊指令规范，实现通过AquilaChat对其它模型和工具的调用，且易于扩展。例如，调用智源开源的AltDiffusion 多语言文图生成模型，实现了流畅的文图生成能力：

AquilaChat还拥有强大的指令分解能力，配合智源InstrucFace多步可控文生图模型，能够实现对人脸图片的多步可控编辑。

比如要求将照片中的女人皮肤变白、眼睛变蓝、动漫化，AquilaChat会将复杂指令拆解成多个步骤，依次完成。

再比如要求把图片里女生的头发变成淡黄色、皮肤变成古铜色、脸色变得更加红润，AquilaChat也能出色地分解并完成任务。

AquilaCode-7B“文本-代码”生成模型，基于Aquila-7B强大的基础模型能力，以小数据集、小参数量，实现高性能，是目前支持中英双语的、性能最好的开源代码模型。

AquilaCode-7B分别在英伟达和国产芯片上完成了代码模型的训练，并通过对多种架构的代码+模型开源，推动芯片创新与多元化发展。

值得一提的是，悟道·天鹰Aquila语言大模型基座是在中英文高质量语料（有近40%的中文语料）基础上从零开始训练的，通过数据质量的控制、深层次数据清洗处理、多种训练的优化方法，实现在更小的数据集、更短的训练时间，获得了比其它开源模型更优的性能。

Aquila基础模型底座（7B、33B）在技术上继承了GPT-3、LLaMA等模型的架构设计优点，使用智源FlagAI开源代码框架，替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer，升级了BMTrain并行训练方法。

结果，Aquila在训练过程中，实现了比Megtron-LM+ZeRO-2将近8倍的训练效率；训练效率也比LLaMA提升了24%。

智源研究院副院长兼总工程师林咏华告诉智东西，一个消费级显卡就能运行Aquila-7B模型：如果是FP16精度，Aquila-7B模型至少可以在20G显存上跑起来；如果是INT8精度，则会进一步减少显存使用。

“我们的发布只是一个起点。”她谈道，智源今天打造了一整套“大模型进化流水线”，基于此，智源会让大模型在更多数据、更多能力的增加之下，源源不断地成长。

智源研究院首创“可持续、自动化评测辅助模型训练”的新范式，将大模型训练与评测结合，利用阶段性的自动化评测结果，指导后续训练的方向、选择更优路径，大幅提升模型训练的效果，实现了“大模型进化流水线”，悟道 · 天鹰Aquila语言大模型系列后续也将持续迭代、持续开源。

同时，智源研究院发布了FlagEval（天秤）大语言模型评测体系及开放平台。

目前大模型评测存在诸多难点。相比传统小模型，大模型规模大、结构更复杂、具备多种能力，且步入内容生成和人类认知领域。传统评测方法已经远远无法满足大模型评测的需求。

因此，是否有能力打造一套“自动化评测+人工主观评测”的大模型全面评价系统，并实现从评测结果到模型能力分析、再到模型能力提升的自动闭环，已是基础大模型创新的重要壁垒之一。

智源推出的天秤（FlagEval）大模型评测体系及开放平台，旨在建立一站式的科学、公正、开放的基础模型评测基准、方法及工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。

FlagEval创新地构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，并可视化呈现评测结果。

目前该评测体系已覆盖语言、多模态两大领域的大模型评测，推出开源多语言文图大模型评测工具mCLIP-Eval、开源文图生成评测工具ImageEval，后续将覆盖视觉、语音评测场景。

FlagEval开放评测平台现已开放（http://flageval.baai.ac.cn），打造自动化评测与自适应评测机制，并支持英伟达、寒武纪、昆仑芯、昇腾-鹏城云脑等多种芯片评测，以及PyTorch、MindSpore等多种深度学习框架。

本文转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权或其它疑问请联系AIGC工具导航或点击删除。