「光明时评」发力语料建设让人工智能健康成长

日前，在2024世界人工智能大会上，一场关于人工智能语料的论坛在上海首次举办。一年前，2023世界人工智能大会上，上海人工智能实验室、人民网、国家气象中心等单位联合发起的中国第一个大模型语料数据联盟正式成立。人工智能大模型取决于三大要素：算力、算法、语料。中国是世界上数字化应用场景最丰富的国家，各种场景提供了极为丰富的语料。中国是语料大国，但各种语料仍存在参差不齐的情况，需进一步加以规范。通过人工智能大模型，特定的输入往往会生成特定的输出，存在“种瓜得瓜，种豆得豆”的规律。从输入端着手，强化语料建设，可以推动人工智能健康成长。

在人工智能发展中，语料具有“赋能”和“教化”的双重功能，前者通过全方位的知识转移和训练，使得人工智能博闻强识，融会贯通，进而技艺超群；后者通过多维度的情感嵌入和价值对齐，让人工智能“通情达理”，并且“善解人意”。例如，伴随我国老龄化程度的加深，具有健康护理功能的养老护理机器人开始走进人们的生活。越来越多的老年人希望在享受各种专业化养老服务的同时，也能感受到亲人照料般的温暖。这就需要发挥语料的教化作用，结合特定的激励算法，让机器人以和蔼可亲的姿态、体贴入微的服务，响应并满足老年人的养老需求。由此可见，在人工智能相关技术快速密集突破的过程中，要达到“强健其体魄、文明其精神”的目的，语料建设是关键，需要着重做好拓源、提质、铸魂三项工作。

首先是拓源。对于语料，人工智能大模型有异乎寻常的“好胃口”，当前存在语料资源的较低水平供给与大模型高强度训练需求之间的矛盾。语料建设是一项复杂的系统工程，具有多源、高维、异构、跨界、超限等典型特征，需要广泛动员和组织政府部门、行业组织、企业等各方力量，建立语料建设的统一战线。全国各地纷纷行动，2023年，上海人工智能实验室宣布联合语料数据联盟成员单位，共同开源发布“书生·万卷”1.0多模态预训练语料。深圳数交所则联合近50家单位成立“开放算料联盟”，多家A股公司加盟。这在一定程度上缓解了语料资源供给不足的问题。未来仍然需要加快拓展来源渠道，将沉淀在行业壁垒间、藏身于隐秘空间里的各种语料资源发掘出来，为人工智能大模型的迭代升级提供动力。

其次是提质。语料涉及海量的数据、文本、图片、语音、视频等资源，既有“原材料”，也有“半成品”，要让大模型能够“吃”得下去，要靠数据库技术解决“消化”问题。大模型不仅要吃得饱，还要吃得好，面向行业应用的专业数据库可以给AI大模型“开小灶”。

最后是铸魂。语料对于人工智能的“思维方式”和“行为模式”具有潜移默化的影响。在语料建设中，既要开放包容，博采世界各国文化之所长；也要汲取中华优秀传统文化的精髓，为大模型准备“中餐”。中文语料尤其是中式价值观语料的缺位，轻则会影响面向国内特定应用场景的垂类大模型开发进程，重则可能失去以我国的文化与价值观赋能人工智能发展的机会。对此，应未雨绸缪，加快高质量中文语料资源建设的提速扩容，并将中国特色社会主义文化的价值取向融入其中。让功能日益强大的人工智能成为言端行正、德才兼备的“好孩子”。