6月14日,智源研究院主办的“AI内行顶级盛会”——北京智源大会在中关村展示中心开幕。智源研究院院长王仲远汇报了智源研究院在语言、多模态、具身、生物计算大模型的前沿探索。在接受媒体采访时,王仲远表示,过去一年,国产大模型取得了长足进步。达到非常好用的水平,依然是国产大模型未来要努力的方向。
智源推出大模型全家桶
当天,智源推出大模型全家桶及全栈开源技术基座新版图。
在语言大模型方面,针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型Tele-FLM-1T。该模型与百亿级的52B版本、千亿级的102B版本共同构成Tele-FLM系列模型。
Tele-FLM系列模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。
针对大模型幻觉等问题,智源研究院自主研发了通用语义向量模型BGE系列,基于检索增强RAG技术,实现数据之间精准的语义匹配,支持大模型调用外部知识。目前,BGE模型系列下载总量位列国产AI模型首位。
在多模态大模型方面,行业现有的多模态大模型多为对于不同任务而训练的专用模型,例如Stable Diffusion之于文生图,sora之于文生视频,GPT-4V之于图生文。每类模型都有对应的架构和方法,例如对于视频生成,行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,例如目前Sora还做不到图像和视频的理解。
为了实现多模态、统一、端到端的下一代大模型,智源研究院推出了Emu3原生多模态世界模型。Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。Emu3在持续训练中,经过安全评估之后将逐步开源。
未来两三年,将有大量人工智能应用产生
谈及国产大模型所处的位置,王仲远受访时认为,国产大模型还处在追赶阶段,未来的里程碑将是追赶上GPT-4。“大模型之所以能对产业界产生重大影响,是因为它通用的理解推理能力和通用智能和潜力,追赶上GPT-4 是一个重要的关口。”
他说,过去一年,国产大模型取得了长足进步。“去年,国产大模型还在追逐 GPT -3.5,今年我们可以非常自豪地说,国产大模型平均水平应该已经超过了GPT -3.5,正在无限逼近 GPT-4。在中文语境之下,国产大模型某些能力超过了GPT-4,但GPT-4也正在不断迭代。”
在他看来,国产大模型赶超GPT-4后,意味着中国最擅长的场景优势、数据优势将发挥出来,大模型将真正变成赋能千行百业的新质生产力。“过去一年,大模型在科技圈依然非常火热,但普通用户感受并不明显,很重要的原因是国产大模型的能力还不够,另外,国内大模型的To B生态底子较薄。现在我们欣喜地看到国产大模型已经达到了可用的水平。达到非常好用的水平,依然是国产大模型未来要努力的方向。”
何时才能出现爆款应用?他预测,随着国产大模型已经达到支撑应用的阶段,未来两三年可以看到大量应用的产生,包括B端应用和C端应用。
“2023年之前,人工智能只能针对特定场景、特定任务去训练特定模型,达到特定的效果,被称为弱人工智能时代。2023年之后,人工智能将逐步进入通用人工智能时代,其最大的特点就是泛化性、通用性、跨领域的特性,几乎可以影响所有行业。”他说,目前大模型作为提高文案处理效率的工具,起到的作用是非常明显的。同时在文生图、文生视频方面虽然处于早期的阶段,但已经能够产出很多有创意的素材。随着技术优化、成本降低,大模型能真正解决用户需求的痛点,人工智能C端的爆款应用将会出现。