中国AI研究新突破：智源「悟道1.0」发布

AI应用信息1年前 (2024)发布 XIAOT

3月20日，北京智源人工智能研究院举办“智源悟道1.0 AI 研究成果发布会暨大规模预训练模型交流论坛”。北京市科委、中关村管委会副主任许心超出席会议并致辞。北京大学、清华大学、中国人民大学、中国科学院等高校院所的专家学者，美团、快手、搜狗、360、一流科技、智谱华章、一览群智、循环智能等AI企业，以及新华社等应用机构代表参会。

会上，智源研究院发布超大规模智能模型“悟道1.0”。“悟道1.0”是我国首个超大规模智能模型系统，由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关，取得了多项国际领先的AI技术突破，形成超大规模智能模型训练技术体系，训练出包括中文、多模态、认知、蛋白质预测在内的系列模型，勇闯通用智能发展前沿，构建我国人工智能应用基础设施。同时，与龙头企业共同研发工业级示范性应用，加快大规模智能模型应用生态建设。

“悟道”模型：北京超前部署通用智能发展的重要举措

北京市科委、中关村管委会副主任许心超在致辞中指出，“十四五”时期，北京国际科创中心建设要走出新路子，关键是能力和生态的构建。

图：北京市科委、中关村管委会党组成员、副主任许心超

北京将依托在人工智能领域的科技资源和产业发展优势，支持建设智源研究院等一批世界一流新型研发机构，前瞻部署人工智能基础研究，加强关键核心技术攻关，推动人工智能占先。另外，北京将充分发挥中关村国家自主创新示范区、中国（北京）自由贸易试验区的政策优势，为人工智能领域的高校院所、企业等创新主体创造更好的科研生态、技术生态、产业生态。

北京市超前部署通用智能发展，支持智源研究院牵头建设“超大规模人工智能模型训练平台”，今天发布的“悟道1.0”即为该平台的重要内容，通过研发超大规模信息智能模型和生命模型，推动电子信息、生物医药等基础科学科研范式变革，加速科学研究进程。同时，推动创新企业及个人开发者基于大模型构建智能化水平更高的场景应用，赋能实体经济智能化升级，促进经济高质量发展。

“悟道”模型：旨在从更加本质的角度进一步探索通用智能

会上，智源研究院院长黄铁军教授介绍了“悟道”模型研发的初衷。据他介绍，本轮人工智能浪潮的基本特点是“数据+算力+算法=模型”，模型浓缩了训练数据的内部规律，是实现人工智能应用的载体。近年来人工智能的发展，已经从“大炼模型”逐步迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用，这是必然趋势。

图：智源研究院院长黄铁军

智能模型不仅要规模大（主要体现为参数量），还要智商高，才能满足各种应用需要，这需要突破大量技术挑战。例如：如何使得预训练模型具备像人类一样的符合逻辑、意识和推理的认知能力？如何实现对图、文和视频等多模态数据和信息的理解和建模的统一？如何将中文融入预训练模型，推动中文应用背景下的人工智能的发展？如何使得预训练模型深入融入自然科学研究，在目前基础上进一步实现对超长/复杂蛋白质序列的建模和预测？

作为以人工智能源头创新为使命的新型研究机构，智源研究院2020年10月正式启动超大规模智能模型“悟道”项目，研发既博大又精深的超大规模训练模型，从更加本质的角度进一步探索通用人工智能。同时，构建大规模智能模型应用生态，推动相关机构和个人开发者基于模型研发各类新型智能应用，服务我国实体经济产业升级。

成立“悟道”模型技术委员会：

汇聚国内大模型研发顶尖人才，指导大模型战略布局和关键技术攻关

为了更好地推动“悟道”大模型的研发，保持研发过程中技术的领先性，此次发布上，还同时成立了由9位来自学术界和产业界的顶尖科学家组成的“悟道”大模型技术委员会。

图：大模型技术委员会（部分），从左到右分别为黄铁军、唐杰、鄂维南、文继荣、万小军、刘知远、杨植麟

委员会主任由清华大学唐杰教授担任，委员会成员包括：北京大学鄂维南院士、清华大学鲁白教授、中国人民大学人工智能信息学院院长文继荣教授、清华大学计算机系长聘副教授刘知远、清华大学计算机系长聘副教授黄民烈、北京大学王选计算机研究所万小军研究员、一流科技创始人袁进辉、循环智能联合创始人杨植麟。后续，技术委员会将为大模型研发的技术方案和路线选择等进行指导和把关。

“悟道1.0”：我国首个超大规模智能模型

会上，“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍了“悟道”模型的战略布局及阶段性成果。据介绍，“悟道1.0”先期启动了4个大模型的研发。

图：智源学术副院长唐杰介绍悟道大模型团队组建

1. 悟道·文源：面向中文的预训练语言模型

“悟道·文源”是“以中文为核心的大规模预训练模型”，目标是构建完成全球规模最大的以中文为核心的预训练语言模型，在中英文等多个世界主流语言上取得最好的处理能力，在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平，探索具有通用能力的自然语言理解技术，并进行脑启发的语言模型研究。

目前，“悟道·文源”模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务，技术能力已与GPT-3实现齐平，达到现有中文生成模型的领先效果。

2. 悟道·文澜：首个公开的中文通用图文多模态预训练模型

“悟道·文澜”是“超大规模多模态预训练模型”，目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题，并最终生成产业级中文图文预训练模型和应用，并在多个评测应用上超过国际最高性能。

目前，“悟道·文澜”模型参数量达10亿，基于从公开来源收集到的5000万个图文对上进行训练，是首个公开的中文通用图文多模态预训练模型。目前，该模型性能已到达国际领先水平，在中文公开多模态测试集AIC-ICC的图像生成描述任务中，得分比冠军队高出5%；在图文互检任务中，得分比目前最流行的UNITER模型高出20%。

“悟道·文澜”模型已对外开放API。发布会上，为了展示如何使用“悟道·文澜”模型，智源研究院联合中国人民大学高瓴人工智能学院和一览群智公司，推出了两款基于该模型的小应用，其中“赋魂”AI小程序，可以为用户上传的照片配文，“AI心情电台”小程序可以利用图片和歌词的相关性，为用户上传的照片搭配最合拍的音乐。

图：“悟道·文澜”模型根据图片自动搭配歌曲