“AI内行顶级盛会”——北京智源大会在中关村展示中心开幕。智源研究院院长王仲远：国产大模型未来要努力达到好用水平

6月14日，智源研究院主办的“AI内行顶级盛会”——北京智源大会在中关村展示中心开幕。智源研究院院长王仲远汇报了智源研究院在语言、多模态、具身、生物计算大模型的前沿探索。在接受媒体采访时，王仲远表示，过去一年，国产大模型取得了长足进步。达到非常好用的水平，依然是国产大模型未来要努力的方向。

智源推出大模型全家桶

当天，智源推出大模型全家桶及全栈开源技术基座新版图。

在语言大模型方面，针对大模型训练算力消耗高的问题，智源研究院和中国电信人工智能研究院（TeleAI）基于模型生长和损失预测等关键技术，联合研发并推出全球首个低碳单体稠密万亿语言模型Tele-FLM-1T。该模型与百亿级的52B版本、千亿级的102B版本共同构成Tele-FLM系列模型。

Tele-FLM系列模型实现了低碳生长，仅以业界普通训练方案9%的算力资源，基于112台A800服务器，用4个月完成3个模型总计2.3Ttokens的训练，成功训练出万亿稠密模型Tele-FLM-1T。

针对大模型幻觉等问题，智源研究院自主研发了通用语义向量模型BGE系列，基于检索增强RAG技术，实现数据之间精准的语义匹配，支持大模型调用外部知识。目前，BGE模型系列下载总量位列国产AI模型首位。

在多模态大模型方面，行业现有的多模态大模型多为对于不同任务而训练的专用模型，例如Stable Diffusion之于文生图，Sora之于文生视频，GPT-4V之于图生文。每类模型都有对应的架构和方法，例如对于视频生成，行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合，而不是原生的统一能力，例如目前Sora还做不到图像和视频的理解。

为了实现多模态、统一、端到端的下一代大模型，智源研究院推出了Emu3原生多模态世界模型。Emu3采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态能力，实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的，目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说，Emu3既统一了视频、图像、文字，也统一了生成和理解。Emu3在持续训练中，经过安全评估之后将逐步开源。

为帮助全球开发者一站式启动大模型开发和研究工作，智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0。FlagOpen 2.0可支持多种芯片和多种深度学习框架。

未来两三年，将有大量人工智能应用产生

谈及国产大模型所处的位置，王仲远受访时认为，国产大模型还处在追赶阶段，未来的里程碑将是追赶上GPT-4。“大模型之所以能对产业界产生重大影响，是因为它通用的理解推理能力和通用智能和潜力，追赶上GPT-4 是一个重要的关口。”

他说，过去一年，国产大模型取得了长足进步。“去年，国产大模型还在追逐 GPT -3.5，今年我们可以非常自豪地说，国产大模型平均水平应该已经超过了GPT -3.5，正在无限逼近 GPT-4。在中文语境之下，国产大模型某些能力超过了GPT-4，但GPT-4也正在不断迭代。”

在他看来，国产大模型赶超GPT-4后，意味着中国最擅长的场景优势、数据优势将发挥出来，大模型将真正变成赋能千行百业的新质生产力。“过去一年，大模型在科技圈依然非常火热，但普通用户感受并不明显，很重要的原因是国产大模型的能力还不够，另外，国内大模型的To B生态底子较薄。现在我们欣喜地看到国产大模型已经达到了可用的水平。达到非常好用的水平，依然是国产大模型未来要努力的方向。”

何时才能出现爆款应用？他预测，随着国产大模型已经达到支撑应用的阶段，未来两三年可以看到大量应用的产生，包括B端应用和C端应用。

“2023年之前，人工智能只能针对特定场景、特定任务去训练特定模型，达到特定的效果，被称为弱人工智能时代。2023年之后，人工智能将逐步进入通用人工智能时代，其最大的特点就是泛化性、通用性、跨领域的特性，几乎可以影响所有行业。”他说，目前大模型作为提高文案处理效率的工具，起到的作用是非常明显的。同时在文生图、文生视频方面虽然处于早期的阶段，但已经能够产出很多有创意的素材。随着技术优化、成本降低，大模型能真正解决用户需求的痛点，人工智能C端的爆款应用将会出现。