大模型将从互联网应用逐步走向千行百业：北京智源人工智能研究院林咏华

AIGC行业资讯2年前 (2023)发布管理员

2023 REAL科技大会上，北京智源人工智能研究院副院长林咏华发表了题为《打造大模型技术的“Linux”，为AI未来十年发展打下坚实根基》的主题演讲。

在生成式人工智能的热潮下，大模型及相关应用正在步入研发落地的新阶段。而回望人工智能产业的发展，“质量”成为实现AI落地的“最后一公里”问题，即能否达到产业、工业的发展要求。针对这一点，林咏华的观点是，大模型会比小模型更具挑战。

她特别提到，大模型的训练数据、数据配比、训练数据输入顺序，训练过程中的所有超参设置都没有完全公开，因此难以完全复现大模型的能力和问题；同时，大模型进行算法修改和重新训练的投入极高，使得企业很难对其进行修补。再者，算法、数据和过程都有可能存在“debug”，问题成因难以分析。

这些因素都决定了基础模型将会影响下游模型的能力，做基础模型的企业机构需要不断打磨。

林咏华强调，未来10年，大模型必然牵引人工智能走向美好的星辰大海，但在当下面临多种挑战，包括基础大模型费用昂贵、训练数据集获取不易、评测方法参差不齐、工具碎片化、计算资源日益受限等。

在她看来，开源开放让从业人员得以站在前人的基础上继续前行。智源此前的一系列发布动作也表明，其试图利用开源开放来解决上述产业挑战。

具体到基础大模型方面，近日智源宣布悟道·天鹰Aquila大语言模型系列全面升级，其中340亿参数的Aquila2-34B在多个榜单均表现抢眼。此外，智源将Aquila2模型系列全部开源，Aquila2的创新训练算法、FlagScale框架、FlagAttention算子集以及语义向量模型BGE均已同步开源。

据林咏华透露，智源研究院所开放的全球最大的中文数据集WuDaoCorpora目前已对外开放低风险数据200G，至今已有数万次下载。

评测方法方面，林咏华指出，大模型在生成能力、认知能力、人类思维能力的测评方面都面临着挑战：除少数生成任务外，生成能力仍主要依靠人类评分；认知的边界难以确定；测评人类思维能力需要新的复杂测试集合、定义新的测试方式。

计算资源方面，国内厂商所采用的架构和开发工具链的不同、众多的AI框架、层出不穷的场景等等因素，使得异构芯片间适配工作量大、开发复杂度高、评测标准也难以统一。

针对这两方面的挑战，智源研究院分别推出了大模型评测体系及评测平台FlagEval以及AI芯片评测开源项目FlagPerf。

“大模型已经从语言模型走向多模态，这是技术走向落地的一个重要阶段。”林咏华表示，未来大模型会从互联网应用逐步走向千行百业，“我们希望看到大模型走出数字世界，走向物理世界，走向自动驾驶、机器人等场景。”