跨越数据鸿沟：构建多语言共融的人工智能未来

　　AI 大模型基于海量多模态数据，通过深度学习、强化训练、精调微调，可以给用户带来全新的智能体验。数据是支撑AI大模型进化的核心要素，数据质量的高低对于大模型的训练效果有重要影响。其中，训练语料的多样性和代表性，将对人类社会的语言和文化多样性产生深远的影响。当前，英文数据在大模型训练语料中占据着显著的规模优势，引发关于“英语中心主义”及其社会和文化影响的担忧，这给人工智能发展提出重要问题：如何确保技术进步公平地惠及所有文化和语言？

　　一、数据是AI大模型发展的基础要素资源

　　随着数据处理技术的进步和数据服务产业的发展，全球可用的大模型数据集数量、质量和种类都将得到提升和完善。人工智能产业的发展程度，与训练数据的规模和质量密不可分，开展科学有效的数据治理，将为人工智能大模型产业高质量发展提供重要保障。

　　1、公开数据是AI大模型训练主要来源

　　AI大模型训练公开渠道获取的数据主要来自维基百科（Wikipedia）、书籍（Books）、期刊（Journals）、Reddit社交新闻站点、Common Crawl和其他数据集。同时，包括由政府组织、科研学术机构或企业，公开发布的图像、文本、音频、视频等各种类型的数据。与此同时，互联网本身承载大量信息和数据，互联网公开的数据资源包括UGC平台、社交网络媒体、论坛博客资料、新闻网站信息等，以及用户发表的内容、回复、评论等内容，都可以成为大模型训练的数据源。

　　2、私域数据对大模型训练具有更高价值

　　用于大模型训练的私域数据，包括企业依据自身业务历史积累的数据，即根据业务特性和场景积累，自身可以利用的一系列数据。或者一些机构、学者拥有较为独特的数据资源，并愿意以各种形式合作共享，支持不同领域的研究和应用，尤其是针对能够共同提高人类福祉的领域。例如，在医疗领域，医疗机构通常会收集大量的医疗影像数据，这些数据可以用于训练图像分析，或者特定疾病检测等任务。然而，这些数据的私域化或版权化保护，会导致原本具有高价值的数据集存在流通性和利用率不足的问题。

　　3、数据规模质量决定大模型训练效果

　　AI大模型训练需要基于大量的文本、图像、语音、视频等结构化和非结构化的多模态数据集。近年来，基于移动互联网时代积累的海量用户、应用和数据，全球范围内数据集规模呈现出爆发增长的态势，叠加更加强大的算力芯片数据处理能力，从而能够实现AI模型训练成果的提升。例如，GPT-3的训练数据集规模达到753GB，而ChatGPT的多模态数据集则达到45TB，这相当于超万亿单词的人类语言数据集。因此，数据供给的规模和质量，决定大模型训练“大力出奇迹”效果的上限。

　　4、数据选择将影响AI大模型的价值观

　　由于AI大模型多采用半监督或无监督的学习模式进行预训练，训练数据选择对模型训练的结果具有重要影响，如果训练数据在选择时出现偏差，大量未标注的数据参与模型训练，这将导致AI大模型延续原始数据中存在的价值观念。因此，不同国家、不同区域的生成式人工智能大模型，由于数据选择的差异，训练结果可能携带区域文化和价值观的固有偏见，甚至产生性别歧视、种族仇恨、恶意言论、排斥性规范等现象，这就需要重视模型的价值观对齐问题。数据选择不仅影响模型的语言理解能力，还可能塑造模型的决策过程和输出结果的公正和客观。

　　二、AI大模型训练呈现“英语中心主义”特征

　　“英语中心主义”指的是英语文化、历史和价值观在全球文化、意识形态领域非对称的影响力，其他非英语国家的民众，往往需要接受英语和相关文化教育才能融入国际社会。这一现象在AI大模型训练推理过程中得到凸显，或将导致一些语言和文化在人工智能时代被日益边缘化。

　　1、英文数据集具有明显的优势地位

　　在人工智能训练领域，英语的优势地位非常明显，当前最知名的生成式人工智能AI大模型，约90%的训练数据由英文文本构成，这主要是由全球互联网的语言现状所导致。并且AI大模型使用不同语言的训练成本，与该语言构筑的互联网生态繁荣程度，具有明显的相关性，语料数据越多训练成本越低。英语是目前训练大模型最便宜的语言，相应的获取荷兰语、越南语等小语种的数据信息成本要大许多，这种“马太效应”或将使得英文地位持续增强。

　　2、中文数据资源处于相对缺少状态

　　当前，中文数据资源的积累和开源生态建设面临一些难题。优质的开源中文数据集相对较少，这在一定程度上限制了中文大模型的训练和优化。企业担心数据对外泄露可能影响商业利益和客户信任，因此在数据共享方面持谨慎态度。大模型厂商则担心模型资产安全，害怕技术泄露或被恶意利用，这影响了他们参与开源社区的积极性。公众用户对个人数据和隐私风险的担忧也日益增加，对数据收集和使用持保留态度。这些因素共同作用，直接影响和制约了中文大模型的竞争潜力。

　　3、“英文叙事”主导大模型推理逻辑

　　人工智能大模型正与我们的日常生活日益紧密地结合在一起，引发一个既令人好奇又令人担忧的问题：为什么聊天机器人的大脑——AI大模型即使在用其他语言进行交互时，也用英语思考？通过跟踪模型处理每条指令的过程可以发现，虽然各层级的处理路径非常复杂，但多是通过英语作为帮助理解概念的桥梁。大量英文语料的使用使得模型在进行推理时往往倾向于使用英语的语法结构和表达方式。比如，英语中常见的因果关系表达（如“because，” “therefore，” “as a result”）在模型生成的推理过程中经常出现。此外，随着自然语言处理技术的发展，越来越多的大模型开始支持直接处理多种语言，减少了对桥梁语言的依赖。

　　三、英语主导AI大模型训练将扩大“数据鸿沟”

　　随着生成式人工智能（AI）的快速发展，不少人开始担忧“英语中心主义”将对这一技术带来何种影响。有观点认为，“英语中心主义”在生成式AI中将广泛存在，可能会强化西方尤其是美国在该技术体系中的垄断地位，甚至形成某种难以逆转的“马太效应”。

　　1、输出以英文为中心价值观

　　尽管部分开源大模型已经证明，能用多种语言处理和回答问题，但在美国最主流的几款AI大模型中，使用英语的表现通常优于其他语言，特别是在目标识别、问题回答等需要复杂推理的高级任务方面。这主要是由于训练这些模型的高质量英语数据，比其他大多数语言都要多，这就很可能在无意中偏向以英语为中心的文化价值观，并将有限的世界观价值观，叠加到不同的语言和文化地区。

　　2、导致算法歧视和偏见问题

　　由于多数人工智能训练数据集是基于英语构建，非英语语言和文化的代表性不足，并且多数人工智能大模型使用的语音识别、语言翻译、情感分析等自然语言处理技术，都是针对英语优化，这导致人工智能算法优化过程中也存在广泛的语言偏见。这不仅会影响用其他语言给出解答方案的准确性，还可能导致在危急情况下产生不相关甚至具有危险性的结果。因此，得益于将英语作为枢轴语言，AI大模型可在多语言任务中提供很强的性能，但出现偏差的可能性也非常大。

　　3、提高AI研究和应用门槛

　　“英语中心主义”削弱AI多样性，或对生成式AI未来发展带来负面影响。英语的优势地位影响全球人工智能研究、资源和人才的分布，这可能导致使用英文数据集训练出来的AI大模型，在处理与非英语语言相关的任务时性能低下。与此同时，美英的科研机构和大学更容易在这种环境中获得资助和支持，其他一些非英语国家推动规模化研究，将面临资金和人才上的更大挑战。这种态势使得开发英语人工智能大模型的成本低于其他语言，一些小语种可能因为开发成本过高而难以广泛应用。

　　4、塑造不公正技术生态体系

　　英语在人工智能模型中的主导地位，引发广泛的有关多样性和公平性的关键问题。人工智能特别是生成式AI技术，在未来或将发展成为一种应用广泛的嵌入式技术。这意味着英语优势的影响将不局限于人工智能领域，而可能向更多领域扩散，进而塑造出一个对于英语更加友好有利的技术生态环境。在这种新的技术生态中，语言习惯、逻辑结构与英语相差较大的非英语国家，将面临更为不利的发展环境。

　　四、提升AI大模型数据多样性的思考

　　AI大模型未来版本的开发，必须具有更公平的语言覆盖范围，以反映和尊重人类语言和文化的丰富多样性。同时，由于存在数据采集标注成本高、数据质量难以保障、数据多样化不足等问题，这就需要克服多重障碍，设计和采用一种不以英语为中心，能够兼顾多种语言的AI大模型产业发展机制。

　　1、探索多语种合成数据集方案

　　当AI大模型从通用走向专业应用，从技术想象力走向产业的生产力，必须要解决高质量数据集稀缺与专业数据阻滞的挑战。如果AI大模型的参数达到万亿级别，多语种合成数据将成为提供数据来源的可选方案，某种程度缓解因客观条件限制，或数据安全制度造成的数据样本不足问题。总体来看，多语种合成数据与原始数据相比，可以发挥类似的作用，实现更加廉价、更为高效的大模型训练、测试和验证数据供给。同时，一定程度缓解大模型对齐阶段价值观标准不统一、准确性不足、成本较高等问题。

　　2、支持多语种开源数据集建设

　　在构建多语种开源数据集的过程中，确实面临着技术与经济上的多重挑战。首先，需要收集和处理大量使用频率较低的语言数据，这本身就是一个相当大的挑战。其次，为进一步提升多语言大模型的训练效果，研究者们采用了自我指导的多语言指令方法，自动生成了多样的多语言指令数据，以增强模型的指令遵循能力。此外，社区合作在多语种数据集建设中也起着至关重要的作用。由此，非英语国家需要协同合作，共同编纂涵盖多种语言和方言的多样化、有代表性的AI大模型训练开源语料库。

　　3、开展非英语国家的监管合作

　　当前，国际社会应采取措施应对“英语中心主义”带来的偏见和数据鸿沟问题。全球大量用户通过中文、法文、德文、俄文或西文向AI大模型提问，这就需要共同提防和应对“英语中心主义”带来的长期挑战，并且要求美英人工智能领军企业采取有效措施减少算法和语言的偏见问题，并增加对非英语国家大模型开发的技术支持，促进这些地区非英语生成式AI的发展。国际社会也应加强非英语国家间的监督合作，加强生成式AI领域的全球反垄断监管。

　　4、发挥联合国等国际组织作用

　　从数字产业发展历史来看，实现全球文化价值观的多元化，是人工智能产业和生态获取更高价值的重要影响因素。AI大模型对英语的依赖反映现实世界中的模式，应对这一趋势意味着要正视和挑战这些模式，努力实现所有文化和语言的平等代表性。因此，要积极支持联合国等国际组织作用，将应对“英语中心主义”纳入全球AI治理内容，在人工智能治理中强调多语言支持的必要性，在国际倡议中推动人工智能技术的多文化支持，从而减少应用和研发中的语言障碍。