智源悟道·天鹰340亿携全家桶登场

AI应用信息1年前 (2024)发布 XIAOT

102 0 30

悟道·天鹰Aquila大语言模型系列全面升级到Aquila2，并再添 340亿参数(34B)重量级新成员，带来当前最强的开源中英双语大模型。

一举刷新大模型榜单成绩之外，我们更加注重对推理、泛化等重要模型实际能力的潜心提升，在支撑智能体（AI agent）、代码生成、文献检索等场景方面取得一系列成绩。

值得一提的是，秉承智源开源传统，我们再次一口气带来开源全家桶，极具诚意地将创新训练算法与最佳实践同步开放，以促进大模型研究协同创新，包括：

全面升级Aquila2模型系列：Aquila2-34B/7B基础模型，AquilaChat2-34B/7B对话模型，AquilaSQL“文本-SQL语言”模型
广受欢迎的语义向量模型BGE新版本升级，4大检索诉求全覆盖
FlagScale 高效并行训练框架，训练吞吐量、GPU 利用率业界领先
FlagAttention 高性能Attention算子集，创新支撑长文本训练、Triton语言

最强开源中英双语大模型

综合能力新高，推理与泛化能力突出

▌划重点

22项综合排名领先，Aquila2-34B基座模型超越 Llama2-70B 及其余开源基座模型

仅 1/2 参数量、2/3 训练数据量

AquilaChat2-34B对话模型达到开源最强中英文主、客观综合能力

升级后的 AquilaChat2-7B 亦在同等量级对话模型中取得最高评分

推理能力领先，对话模型 IRD评测基准仅次于 GPT4

归纳、演绎、溯因和因果推理维度准确性领先

长文本处理能力创新提升

创新算法 NLPE 与自研分段式 Attention 算子加持，支持16K上下文长度

强大泛化能力，适应各类真实应用场景

1. 推理能力有力支撑 智能体（AI agent）计划与组织，可自主思考、执行复杂任务；

2. 基于基座模型，AquilaSQL 代码生成能力，获得当前“中文自然语言- SQL语句”生成 SOTA；

3. 与领先向量模型 BGE 结合，轻松解决传统文献检索的复杂查询问题

1. Aquila2-34B 基座模型与对话模型全面领先

通过架构升级、算法创新、数据迭代，新一代悟道·天鹰模型 Aquila2 在中英文综合能力方面进一步突破：Aquila2-34B 基座模型取得了22个评测基准的领先综合排名，包括语言、理解、推理、代码、考试等多个维度。

* 版面有限，仅对比部分业界最新、知名度较高并开源的基础语言模型

图：Base 模型评测结果

（详细数据集评测结果见官方开源仓库介绍）

同时，Aquila2 基础模型以最强开源基座模型综合性能，为下游模型提供强大支撑，经指令微调得到了优秀的的 AquilaChat2 对话模型系列。

AquilaChat2-34B 成为当前最强开源中英双语对话模型，在主观+客观综合评测中全面领先。

AquilaChat2-7B 也取得同量级中英对话模型中综合性能最佳成绩。

* 版面有限，仅对比部分业界最新、知名度较高并开源的对话模型

图：SFT 模型评测结果

（详细数据集评测结果见官方开源仓库介绍）

大模型的推理（Reasoning）能力是实现通用人工智能（AGI）的关键能力，AquilaChat2-34B 在 IRD 评测基准中排名第一，超越 LLama2-70B、GPT3.5等模型，仅次于 GPT4。

智源团队整理了评测基准 Integrated Reasoning Dataset（IRD）考察模型在归纳推理、演绎推理、溯因推理和因果推理维度上的推理结果和过程的准确性，并对主流对话模型进行了全面评测。

图：SFT模型在IRD数据集上的评测结果

2. 高效扩充模型上下文窗口长度至 16K

AquilaChat2-34B-16K以 Aquila2-34B 为基座，经过位置编码内插法处理，并在 20W 条优质长文本对话数据集上做了 SFT，将模型的有效上下文窗口长度扩展至 16K。

在 LongBench 的四项中英文长文本问答、长文本总结任务的评测效果显示，AquilaChat2-34B-16K 处于开源长文本模型的领先水平，接近 GPT-3.5 长文本模型。

图：长文本理解任务评测

长度外延能力不足是制约大模型成文本能力的普遍问题。智源团队对多个语言模型处理超长文本的注意力分布做了可视化分析，发现所有的语言模型均存在固定的相对位置瓶颈，显著小于上下文窗口长度。

为此，智源团队创新提出 NLPE（Non-Linearized Position Embedding, 非线性位置编码）方法，在 RoPE 方法的基础上，通过调整相对位置编码、约束最大相对长度来提升模型外延能力。在代码、中英文Few-Shot Leaning、电子书等多个领域上的文本续写实验显示，NLPE 可以将 4K 的 Aquila2-34B 模型外延到 32K 长度，且续写文本的连贯性远好于 Dynamic-NTK、位置插值等方法。

图：NLPE与主流Dynamic-NTK外延方法在Base模型上的能力对比（ppl值越低越好）

此外，在长度为 5K～15K 的 HotpotQA、2WikiMultihopQA 等数据集上的指令跟随能力测试显示，经过 NLPE 外延的 AquilaChat2-7B（2K）准确率为 17.2%，而 Dynamic-NTK 外延的 AquilaChat2-7B 准确率仅为 0.4%。

图：NLPE与主流Dynamic-NTK外延方法在SFT模型上的能力对比

同时，智源团队开发了适配长文本推理的分段式Attention算子 PiecewiseAttention ，高效地支持 NLPE 等面向 Attention Map 的优化算法，进一步减少显存占用、提升运算速度。

3. 强大的泛化能力，适应各类真实应用场景

强大的泛化能力对于大语言模型至关重要，它意味着模型能够有效地应对未见过的数据与新任务，而不仅仅仅在标准测试中表现出色、但在实际应用中表现不佳，陷入“高分低能”的陷阱。

悟道·天鹰团队通过三个真实应用场景验证了 Aquila2 模型的泛化能力。

3.1 利用 AquilaChat2 强大推理能力打造智能体（AI agent）

在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》（Minecraft）作为一款受欢迎的开放世界游戏，具有无限生成的复杂世界和大量开放的任务，为智能体提供了丰富的交互接口，进而成为近几年开放式学习研究的重要测试环境。

智源研究院与北京大学团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法—— Plan4MC。Plan4MC 可以使用内在奖励的强化学习训练智能体的基本技能，使得智能体可以利用大语言模型 AquilaChat2 的推理能力进行任务规划。

以下视频展示了智能体利用 AquilaChat2 进行自动完成多轮对话交互，将游戏“当前环境状态”、“需要完成的任务”等信息输入AquilaChat2模型，AquilaChat2 反馈给角色“下一步使用什么技能”等决策信息，最终完成了Minecraft 游戏中设定的任务“伐木并制作工作台放在附近”的任务。

3.2 通过 Aquila2+BGE2 链接向量数据库

基于传统向量库的检索方式在一些简单问题场景下表现良好，但面对复杂的、需要深度理解的问题时，其效果有限。

Aqiula2+BGE2 的引入改变了这一局面（BGE是智源团队开源的语义向量模型），彻底解锁了一些仅基于传统向量库的检索方法不能解决的复杂检索任务，例如检索某个作者关于某个主题的论文，或针对一个主题的多篇论文的生成总结文本。

图：Aquila2+BGE 文献检索场景复杂查询示例

“Give me some papers about summarization written by Mirella Lapata”

3.3 AquilaSQL：最优“文本-SQL语言”生成模型

AquilaSQL 可以充当“翻译员”，将用户发出的自然语言指令准确翻译为合格的 SQL 查询语句，极大地降低数据查询分析的门槛。

在实际应用场景中，用户还可以基于AquilaSQL进行二次开发，将其嫁接至本地知识库、生成本地查询 SQL，或进一步提升模型的数据分析性能，让模型不仅返回查询结果，更能进一步生成分析结论、图表等。

基于 Aquila 基座模型优秀的代码生成能力，AquilaSQL 经过SQL语料的继续预训练和SFT 两阶段训练，最终以67.3%准确率超过“文本-SQL语言生成模型”排行榜 Cspider 上的SOTA模型，而未经过SQL语料微调的 GPT4模型准确率仅为 30.8%。