智源「悟道3.0」大模型系列问世，这次不拼参数，开源开放成为主角

AI应用信息1年前 (2024)发布 XIAOT

现如今，大模型早已成为街谈巷议的 AI 话题，ChatGPT 更火出了圈。NLP、CV 和多模态领域的大模型层出不穷，并朝着通用方向不断演进，让人们看到了 AGI 的希望。

在大模型时代，除了继续升级预训练、微调等技术和算法之外，构建开源开放的大模型评测体系和生态同等重要。说来容易，但做起来很难。仅就开源而言，谷歌、OpenAI 等头部 AI 企业对自己的大模型大多并没有开源或仅开放 API 使用，正在逐渐形成壁垒。

在国内，作为最早系统化布局大模型的科研机构，北京智源人工智能研究院（以下简称智源）自 2021 年以来先后推出悟道 1.0、悟道 2.0 大模型系列，并连创「中国首个 + 世界最大」记录。悟道 1.0 是我国首个超大规模智能模型系统，悟道 2.0 参数规模更是达到 1.75 万亿，成为当时中国首个、全球最大的万亿级模型。

6 月 9 日，在 2023 北京智源大会上，智源发布了完整的悟道 3.0 大模型系列，并进入到了全面开源的新阶段。此次悟道 3.0 包含的项目有「悟道・天鹰」（Aquila）语言大模型系列、FlagEval （天秤）大模型语言评测体系以及「悟道・视界」视觉大模型系列。此外 FlagOpen 飞智也带来了开源大模型技术体系最新进展。

智源研究院院长黄铁军教授发布悟道 3.0大模型系列

作为大模型领域年度巅峰盛会，智源大会至今已经举办了五届，为加强产学研协同、促进国际交流与合作、打造世界人工智能学术高地做出了重要贡献。本届大会邀请到了图灵奖得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis 和姚期智，OpenAI 首席执行官 Sam Altman、加州大学伯克利分校人工智能系统中心创始人 Stuart Russell、中国科学院张钹院士及中国工程院郑南宁院士、中国工程院外籍院士、美国艺术与科学院院士张亚勤、Midjourney 创始人 David Holz 等重磅嘉宾，共议人工智能前沿与热点话题。

今年大会共同主席为智源研究院理事长张宏江，以及加州大学伯克利分校教授、智源学术顾问委员 Michael I. Jordan。共同程序主席为智源研究院院长黄铁军教授，以及清华大学教授、智源首席科学家朱军。

时至今日，每年一度的智源大会已经成为促进国际人工智能生态发展的标志性活动，在人工智能精英人群中备受推崇，国际视野、专业前沿、思想激荡，推动各方更好地把握住高速发展的人工智能大模型时代。

历经 1.0、2.0，悟道 3.0 进入全面开源新阶段

回望 2021 年 3 月和 6 月，智源在两个多月时间里先后发布了悟道 1.0 和悟道 2.0。彼时，AI 领域进入到了「炼大模型」的阶段，智源也集中力量打造能力达到 SOTA 的数十亿乃至万亿参数大模型，以此对标、超越谷歌、OpenAI 等国外 AI 巨头的超大规模大模型（如 GPT-3、Switch Transformer）。

不过自悟道 2.0 始，智源就不仅仅是研发模型。智源研究院院长黄铁军表示，智源更偏向于构建以大模型为核心的生态，包括底层数据处理和汇聚、模型能力和算法评测、开源开放，形成一套高效的大模型技术和算法体系。

因此在悟道 3.0 大模型系列中，智源发布并全面开源「悟道・天鹰」（Aquila）语言大模型系列和「悟道・视界」视觉大模型系列，与多个高校和科研院所合作构建 FlagEval（天秤）开源大模型评测体系与开放平台，加之 FlagOpen 飞智大模型技术开源体系，通过全方位的大模型技术、评测体系以及更广泛的开源生态，服务于大模型行业发展。

悟道・天鹰 + 天秤，合力打造大模型能力与评测双标杆

时至今日，随着模型规模的不断增长，语言大模型已经变得非常「聪明」和「全能」。以 ChatGPT、GPT-4 为例，它们已经具备超强理解和推理能力，并在上下文学习（ICL）、思维链（CoT）等任务中出现了业界从未预测到的涌现能力。不过对于这些大模型，OpenAI 无一例外选择不开源。

在悟道 3.0 大模型系列中，智源走出了一条不同的道路。智源发布了首个具备中英双语知识、支持商用许可协议、支持国内数据合规要求的「悟道・天鹰」（Aquila）语言大模型系列，结合 FlagEval（天秤）开源大模型评测体系及开放平台，打造 “大模型进化流水线”，持续迭代、持续开源开放。

对于「悟道・天鹰」语言大模型系列，它包含了 Aquila 基础模型（7B、33B）以及 AquilaChat 对话模型和 AquilaCode 文本 – 代码生成模型。

开源地址：https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

整体来看，「悟道・天鹰」Aquila 语言大模型在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，训练效率是 Magtron+DeepSpeed ZeRO-2 的近 8 倍。

此外在中英文高质量语料基础上从０开始训练，通过数据质量控制、多种训练优化方法，在更小数据集、更短训练时间下，实现比其他开源模型更优秀的性能。

「悟道・天鹰」Aquila基础模型。

AquilaChat 对话模型（7B、33B）是智源推出的类 ChatGPT 模型，它是一个单模态语言大模型，支持流畅的文本对话及多种语言类生成任务；通过定义可扩展的特殊指令规范，实现通过 AquilaChat 对其它模型和工具的调用，且易于扩展。例如，调用智源开源的 AltDiffusion 多语言文图生成模型，实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型，它还可以轻松实现对人脸图像的多步可控编辑。

文图生成。

人脸图像多步可控编辑。

智源研究院副院长、总工程师林咏华表示，根据内部对 AquilaChat 的评测，其综合能力能够达到 GPT-4 的 70％左右，甚至在某些单项任务上的分数比后者更高。

AquilaCode-7B 是智源推出的文本代码生成大模型。它的预训练代码语料来源是一个由 Huggingface 牵头创建的数据集 The Stack，初始版本涵盖了 30 种主流编程语言，数据量超过 3T。智源基于该代码数据集进行抽取、质量过滤，并最终使用超过 200GB 的数据进行训练。

与 OpenAI 编码大模型 Codex-12B 相比，AquilaCode HumanEval pass@1 上的结果接近，并在近期有望超越。更重要的是，智源 AquilaCode 的参数量不到 Codex-12B 的 1/2，做到了用更小的模型实现了接近后者的评测结果。与 DeepMind AlphaCode 1B 、CodeGeeX 等一系列开源代码模型相比，智源 AquilaCode 都已经明显超越。

得益于 Aquila 基础模型的强大能力，AquilaCode-7B 模型在使用更少训练数据和训练参数的情况下，成为目前支持中英双语、性能最好的开源代码模型。如下为代码生成动图演示示例：

AquilaCode-7B 同时支持不同芯片架构的模型训练，并分别在英伟达和国产芯片上完成了代码模型的训练，推动芯片创新和百花齐放。

可信可靠、全面客观的大模型评测体系

建立大模型评测体系至关重要。一方面在学术上可以拉动大模型创新，构建衡量大模型能力和质量的尺子。另一方面在产业上，对于绝大多数无力研发和构建大模型尤其是基础大模型的企业而言，他们在选择使用大模型时更需要一个可信可靠、全面客观的评测体系。

FlagEval（天秤）希望通过建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。同时探索利用 AI 方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval（天秤）评测平台已经开放，提供在线和离线评测目前已支持英伟达、寒武纪、昆仑、昇腾等多种芯片架构，以及 PyTorch、MindSpore 深度学习框架。

开放地址：http://flageval.baai.ac.cn

大模型评测并不容易。林咏华指出了面临的四大难点，一是快速发展的大模型给评测带来了越来越大的挑战，以往语言模型评测更多是从理解能力出发；二是大模型生成能力的评测主要依赖人类评分，不仅效率低，客观性及评测质量很难保持一致；三是现在大模型趋向于认知模型，但认知边界很难确定，用人类考题评测模型认知能力往往易出现偏差；四是有时需要在一些情况下考虑大模型的心智能力，包括对复杂意图、复杂场景的理解以及情绪和鉴别能力，这些更加难以评测。

FlagEval（天秤）创新性地构建了「能力 – 任务 – 指标」的三维评测框架，细粒度地刻画基础模型的认知能力边界，呈现可视化评测结果。目前提供 30 + 能力、5 种任务、4 大类指标共 600 + 维全面评测，任务维度当前包括 22 个主客观评测数据集和 84433 道题目，更多维度的评测数据集正在陆续集成。天秤还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究，以期更加科学、全面地评价语言大模型：

目前 FlagEval 已经覆盖语言、多模态两大领域的大模型评测，后续覆盖视觉、语音领域。第一期已推出大语言模型评测体系、开源多语言文图大模型评测工具 mCLIP-Eval 和开源文图生成评测工具 ImageEval。下图为mCLIP-Eval的评测演示。

FlagEval 首创可持续大模型评测辅助模型训练新范式，打造自动化评测与自适应评测结合的机制，帮助模型研发团队实现 “以评测结果为指导” 的高效训练。这种新范式实现了以大模型评测带动训练的效果。“是骡子是马”只有评测比较过后才更有说服力。