欧盟人工智能新规出炉引发数据透明度之争

近期，欧盟《人工智能法案》获得通过，该法案将促使公司对用于训练AI系统的数据更加透明化，或将撬开该行业最严守的秘密之一。

自微软支持的(MSFT.US)OpenAI向公众发布ChatGPT以来的18个月里，公众对生成式人工智能的参与和投资激增。但随着该行业的蓬勃发展，人们开始萌发质疑，人工智能公司如何获得用于训练模型的数据，以及未经创作者许可使用畅销书和好莱坞电影培训人工智能是否构成侵权。

欧盟最近通过的《人工智能法案》将在未来两年内分阶段推出，给予了监管机构充分时间实施新规，以及企业履行一系列新型义务，但其中部分规定在实践中将如何运作，目前还不得而知。

该法案中争议较大的一条规定在于，部署通用人工智能模型(如ChatGPT)的组织必须提供用于训练模型的内容的“详细摘要”。新成立的人工智能办公室表示，计划在与利益相关者协商后，于2025年初发布一个模板供各组织参考。

虽然细节尚未敲定，但人工智能公司对透露模型训练内容十分抵制，称这些信息属于商业机密，一旦公开将使竞争对手赢得不公正优势。

人工智能图像编辑公司Photoroom的首席执行官马蒂厄·里乌夫(Matthieu Riouf)说：“看到竞争对手的数据集对我们而言将是梦想成真，对他们公开我们的数据集也是一样”

他补充道，“这就像烹饪一样，菜谱中有一部分属于顶级大厨不会共享的秘密，即让菜肴与众不同的‘秘诀’。”

针对透明度的规定最终执行的颗粒度将对业内企业产生重大影响，小型人工智能初创企业以及谷歌和Meta(META.US)等大型科技公司皆是如此，这些公司已将这项技术作为未来运营的核心。

共享商业机密

在过去一年中，包括谷歌、OpenAI和Stability AI在内的多家知名科技公司都面临着创作者的诉讼，声称内容被不当用于训练人工智能模型。

虽然美国总统拜登已通过多项行政命令，重点关注人工智能的安全风险，但有关版权的问题尚未得到充分检验。目前要求科技公司为数据向权利人付费的呼吁已得到国会两党的支持。

在日益严格的审查下，科技公司与媒体和网站签署了大量内容授权协议。其中，OpenAI与《金融时报》和《大西洋月刊》签署了协议，谷歌则与美国传媒巨头新闻集团(27.19，-0.36，-1.31%)(27.78，-0.37，-1.31%)(NWSA.US)以及社交媒体网站Reddit(RDDT.US)达成了协议。

尽管如此，OpenAI还是在3月招致了批评，当时首席技术官米拉·穆拉提(MiraMurati)拒绝回答关于YouTube视频是否被用于训练其视频生成工具Sora的问题，如确有此事，将违反该公司服务条款。

上个月，OpenAI又招致了进一步攻击，该公司在公开演示最新版本ChatGPT时使用的人工智能生成的声音被女演员斯嘉丽·约翰逊(Scarlett Johansson)形容为与她本人声音“极为相似”。

人工智能初创公司“Hugging Face”的联合创始人托马斯-沃尔夫(Thomas Wolf)表示支持提高透明度，但并未得到全行业的认同。他说，“很难知道结果会如何，还有很多事情有待决定。”

欧洲大陆的高级立法者仍存在分歧。欧洲议会负责监督《人工智能法案》起草工作的立法者之一德拉戈斯·图多拉奇(Dragos Tudorache)表示，应强制人工智能公司公开其数据集。

他说：“这些数据集必须足够详细，让斯嘉丽·约翰逊、碧昂斯或任何人都能知道他们的作品、歌曲、声音、艺术或科学是否被用于训练算法。”

委员会的一位官员说：“《人工智能法案》承认，有必要确保在保护商业秘密的合法需求与促进包括版权持有者在内的拥有合法权益的各方行使欧盟法律规定的权利之间取得适当平衡。”

在法国总统马克龙的领导下，法国政府私下反对引入可能致使欧洲AI初创企业竞争力受阻的规定。

今年5月，法国财政部长布鲁诺·勒梅尔(Bruno Le Maire)在巴黎举行的“科技万岁”(Viva Technology)会议上表示，他希望欧洲成为人工智能领域的世界领导者，而不仅仅是美国和中国产品的消费者。

他说：“这一次，制定了控制措施和标准的欧洲需要明白，在监管之前须先进行创新。否则，将面临对尚未掌握的技术进行监管的风险，或因尚未掌握这些技术而进行了糟糕的监管。”