智源大模型全家桶亮相

智源大模型全家桶亮相

6月14日,由智源研究院主办的第六届“北京智源大会”在中关村展示中心召开。在本次会议期间,智源研究院院长王仲远做2024智源研究院进展报告,并重点介绍了智源大模型全家桶。

在2024智源研究院进展报告中,智源研究院分享了自身在语言、多模态、具身、生物计算大模型的前沿探索和研究进展及大模型全栈开源技术基座的迭代升级与版图布局。在智源研究院看来,现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力,并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线,从而让模型具备了初步的多模态理解和生成能力。但这并不是让人工智能感知、理解物理世界的终极技术路线,而是应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力,向世界模型演进。

“未来,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时,大模型这一技术手段可为科学研究提供新的知识表达范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近通用人工智能的终极目标。”王仲远表示。

智源大模型全家桶是本次2024智源研究院进展报告中的一大亮点。记者在会议现场了解到,智源大模型全家桶由大语言模型系列、多模态大模型系列、具身智能大模型和生物计算大模型4个大模型研究方向,共计12项研究组成。以智源语言大模型系列为例,该方向包含了全球首个低碳单体稠密万亿语言模型Tele-FLM-1T和通用语言向量模型BGE(BAAIGeneralEmbedding)系列2项大模型研究。

“针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型Tele-FLM-1T。该模型与百亿级的52B版本,千亿级的102B版本共同构成Tele-FLM系列模型。”Tele-FLM系列模型相关业务负责人告诉记者。据悉,Tele-FLM系列模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。“模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。目前,TeleFLM系列模型已经全面开源了52B版本,核心技术(生长技术、最优超参预测)、训练细节(loss曲线、最优超参、数据配比和GradNorm等)均开源,期望技术开源可以对大模型社区产生有益促进。Tele-FLM-1T版本即将开源,希望可以为社区训练万亿稠密模型提供一个优秀的初始参数,避免万亿模型训练收敛难等问题。”该负责人表示。

智源研究院自主研发的通用语义向量模型BGE系列,基于检索增强RAG技术,可以实现数据之间精准的语义匹配,支持大模型调用外部知识的调用。“自2023年8月起,BGE模型系列先后进行了3次迭代,分别在中英文检索、多语言检索、精细化检索3个任务中取得了业内最佳的表现,综合能力显著优于OpenAIGoogle、Microsoft、Cohere等机构的同类模型。目前,BGE模型系列下载总量位列国产AI模型首位,并被HuggingFace、Langchain、LlamaIndex等国际主流AI开发框架及腾讯、华为、阿里、字节、微软亚马逊等主要云服务提供商集成,对外提供商业化服务。”通用语义向量模型BGE系列相关业务负责人告诉记者。

    © 版权声明

    相关文章