“AI大模型语料训练版权挑战”成年度关键词

　全球人工智能技术快速更迭，以ChatGPT为代表的生成式人工智能技术正在改变世界，版权是其中受影响最为明显的。

　　人工智能并不能“无中生有”，海量互联网信息是其培养沃土。这就意味着，其必然陷入关于知识产权与内容剽窃的争议。近年来，内容版权与人工智能的冲突频频发生。

　　在刚刚过去的2024年，国内外均有颇具影响力与关注度的相关案例发生。近日中国人民大学国家版权贸易基地发布的“2024数字版权保护与发展年度关键词”中，“AI 大模型语料训练版权挑战”位列八大关键词中的第三位。

　　在保护好创作者权益、激发创作热情与推动产业创新中寻求平衡，已是当前必须面对的重大课题。

　　近年来，大模型的发展一浪高过一浪，呈汹涌澎湃之势。

　　放眼全球，除ChatGPT外，Midjourney、Stable Diffusion、sora等AI 大模型风靡一时，人工智能产业在科技发达国家迅猛发展。国内也不逊色，多个互联网公司纷纷入局，推出文心一言、通义千问、豆包等人工智能大模型。

　　这些产品的出现，带来的便利性显而易见，它们让文案写作、信息检索、数据处理等变得更加高效，深刻影响着传统行业秩序与工作习惯。

　　晓飞是一家公司的文职人员，她告诉《法治日报》记者，她现在有什么疑难问题经常会求助于上述有关产品，“尤其是要准备一些格式化的文字材料时，把要求尽可能详细地说给它们听，一般都会呈现符合要求的内容，省去了我过去搜集材料、了解相关背景知识的大量时间”。

　　复旦大学管理学院信息管理与商业智能系教授卢向华也是大模型的积极应用者。在卢向华看来，对于大模型的应用，与过去相比，至少可以节省70%的精力。

　　人工智能大模型在受到欢迎的同时，也引发争议。例如，2024年，某网络小说平台通知签约作者，要求签署一份补充协议，允许将他们的签约作品用于AI模型训练，引发反对声音，后又删除了该条款。但有关质疑并未就此消失。有作者明确表示担忧，“会因此失去对作品的控制权”，或是“没有发表的素材被AI吸收后率先输出相似内容，反倒让自己成为‘剽窃侵权者’”。

　　音乐领域也同样有着类似的担忧。回顾过去这一年，不少创作者开始熟练用起AI工具制作音乐内容，只要输入音乐风格、流派等简单文本提示，几秒钟后就能得到一首完整的曲子。

　　在近日中国人民大学国家版权贸易基地举办的2024数字版权保护与发展论坛上，中宣部版权管理局原副局长段玉萍坦言，新技术确实给音乐版权保护带来新挑战，并特别提及了AI孙燕姿引发版权争议的例子。

　　“在人工智能等新技术的推动下，作品的范围日益扩充，版权的界限逐渐模糊，传统的版权保护方式越来越难以应对新技术、新业态、新模式的挑战。”中国人民大学党委常委、副校长支晓强说。

诉讼案例涉多领域

　　内容版权与人工智能的冲突，并不总以“论战”的形式呈现，诉诸公堂的也有多个案例。

　　中国人民大学国家版权贸易基地副主任李方丽告诉记者，国内外均有相关司法实践。就国外而言，自《纽约时报》诉OpenAI和微软大模型训练侵权后，出现了多起针对AI大模型训练数据的诉讼。

　　记者查询到，2023年12月27日，《纽约时报》宣布，向纽约南区联邦法院提起诉讼，指控微软及OpenAI侵犯版权，滥用该媒体的知识产权。随后，美国3家数字新闻媒体The Intercept、Raw Story和AlterNet于2024年2月28日对OpenAI提起版权侵权诉讼。

　　2024年6月，人工智能初创公司Perplexity相继遭到《福布斯》以及科技媒体《连线》的内容剽窃指控，声称在Perplexity的Pages工具中发现了他们的报道内容。10月21日，媒体大亨鲁珀特·默多克旗下新闻集团的子公司道琼斯和《纽约邮报》对Perplexity提起诉讼，称其“大量非法复制”他们的版权作品。

　　音乐领域也不消停。2024年6月，美国唱片业协会起诉了两家ai音乐公司——Suno和Udio，指控他们在训练AI工具时，涉嫌侵犯音乐版权。

　　此外，在加拿大、德国等也有类似的案例。中国人民大学法学院教授金海军说，他统计了类似的诉讼，大概有十几起，文字、图片、音乐等各个领域的著作权作品都受到这个问题困扰。

　　国内也已有相关案例。2024年2月8日，广州互联网法院作出全球首例生成式人工智能平台侵权责任判决，认定被告某AI公司侵犯了原告对奥特曼作品的复制权和改编权。

　　同年4月23日，全国首例AI生成声音人格权侵权案，在北京互联网法院判决配音师胜诉，AI开发者使用配音师声音、开发涉案AI文本转语音产品未获得合法授权，构成侵权。

　　同年6月20日，北京互联网法院在线开庭审理了四起画师起诉AI绘画软件开发运营者著作权侵权案件，该案为全国首例涉AI绘画大模型训练著作权侵权案。

商业使用尤为复杂

　　目前，我国著作权法在AI生成物保护方面暂无明确规定；AI生成内容的著作权归属于AI技术的开发者还是实际使用者尚存在争议，有待法律和政策层面的明确指引。

　　民间正在积极行动。2024年12月4日，中国文字著作权协会倡议：生成式人工智能语料库建设等应确保数据来源合法，人工智能技术的发展既要保护创作者、内容生产者合法权益，又要激发全社会创新创造活力，推动产业高质量发展。

　　当地时间2024年12月16日，“人工智能创意权利联盟”在英国正式成立，提出了有关版权与生成式人工智能政策的三项关键原则，并呼吁英国政府将这三项原则作为制定人工智能政策的框架。

　　“上述大模型都需要有足够的语料去训练AI模型，而训练过程中，必然要使用到大量含有版权的作品。这就涉及我们如何使用作品，或者说如何合理使用作品等问题。”李方丽说。

　　金海军认为，在健全相关制度方面，要特别关注AI生成内容产生过程中的两个部分。一是产出的阶段，即AI生成的内容到底能不能受著作权保护，即所谓的作品问题和作者资格问题；二是在输入阶段，在使用语料的时候，如果涉及享有著作权的作品，是否构成侵权。如果构成侵权的话，能否以合理使用来抗辩。

　　“从国际上目前的情况来看，在认定是否构成著作权法意义上的作品这一问题上，整体上是比较严格的。在输入端使用作品的时候，相对来讲要求比较宽松。但是有一个条件，在文本挖掘和数据训练使用的时候是非商业性的。一旦进入商业系统，恐怕也不能够简单地说，这就是侵权或者构成合理使用。”金海军说。

　　中国版权协会理事长阎晓宏认为，从技术角度来看，使用有版权的作品，在技术条件许可的情况下要公布相关信息，“让人家知道你使用了什么”。原则上应该认为，这些使用是可行的，作品一一得到许可，事实上是做不到的。应当按照2022年12月印发的《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》中的“淡化所有权、强化使用权”为指导，加快立法，明确使用原则，如果涉及商业使用，则需要支付报酬，如何支付报酬，应当在国家版权局的指导下，由使用者和权利人组织协商解决。

　　在此前召开的中欧数字环境下版权保护研讨会上，中国国家版权局有关负责人指出，中国以积极的、前瞻性的思维迎接人工智能的到来，研究和监管人工智能，完善制度设计，探索规范人工智能相关版权规则，加强对人工智能生成内容传播的监测。