国家知识产权局生成式人工智能知识产权导航

国家知识产权局-生成式人工智能知识产权导航

一、什么是GenAI？

二、问题概述

（一）确定使用的案例

（二）合同条款的差异

（三）训练数据问题

（四）输出内容问题

（五）监管环境的变化

三、GenAI 和知识产权（IP）

（一）机密信息

风险
对策

（二）知识产权侵权

风险
对策

（三）开源义务

风险
对策

（四）深度伪造：肖像权和声音权

风险
对策

（五）AI 生成内容的知识产权和所有权

风险
对策

（六）清单

员工政策和培训
风险监控和风险状况管理
保存记录
AI 工具评估
数据评估
AI 生成内容

四、延伸阅读

五、下一步工作

许多企业和组织正在迅速采用生成式人工智能（Generative AI，以下简称 GenAI）工具来生成内容。这些工具既为协助企业业务运营带来了巨大机遇，也因当前的不确定性而带来了巨大的法律风险（包括知识产权问题）。

许多组织正在寻求适当的指南来帮助他们的员工减小这些风险。然而每种业务情况和法律语境都是独特的，以下指导原则和检查表就旨在帮助企业了解知识产权风险，学会正确提问，并考虑潜在的保障措施。

GenAI 带来了许多风险和问题。企业和组织应该考虑实施合适的政策，并为员工提供有关技术机遇和限制的培训。这种积极主动的方法对于应对使用 GenAI 所带来的挑战至关重要。

一、什么是GenAI？

GenAI 工具能够根据用户的指令生成新的内容，比如对希望输出内容做简短的书面描述，可以生成文本、计算机代码、图像、音频、声音和视频。示例性地，目前 GenAI 工具包括 ChatGPT、Midjourney、Copilot 和 Firefly。

GenAI 基于机器学习，使用的海量数据通常包括数十亿页的文本或图像训练 GenAI 工具。根据 AI 工具开发人员的策略，训练数据集可包括免费获得的、不受限制的信息（纯数据）、受保护的数据（如受版权保护的作品）或两者的组合。

然后，经过训练的 AI 工具会根据人工输入的指令，启动一系列复杂的、达数十亿次的计算，生成输出内容。通常无法预测输出内容，或判断特定部分的训练数据是否会对输出内容产生影响，以及影响的程度。

二、问题概述

开发 GenAI 的成本极其昂贵，可高达数千万美元，因此大多数企业和组织都选择采用第三方 GenAI 工具，或使用自身数据对此类模型进行微调。一般的问题和商业风险包括：

（一）确定使用的案例

GenAI 可执行多种任务。最佳使用案例仍在进化中，最佳使用案例因企业和组织而有所差异。

（二）合同条款的差异

GenAI 工具属于新兴技术，其商业合同条款的最佳实践和标准仍在开发中。开发者许可 AI 工具的条款存在较大差异：包括商业秘密和其他保密信息的处理、输出内容的所有权、可获得的赔偿，以及通过实施员工监控和培训降低风险的用户义务。

（三）训练数据问题

一些 GenAI 工具通过抓取互联网材料进行训练。这些材料包括版权作品、个人信息、生物识别数据，以及有害和非法内容。当前存在一些诉讼，涉及上述材料的抓取、下载和处理，以及经过训练的 AI 模型及其输出内容是否侵犯知识产权、隐私和合同。关于知识产权所有者和 AI 开发者之间利益平衡的问题争议不断。

（四）输出内容问题

GenAI 可能会生成不当或非法的输出内容，包括错误信息、知识产权侵权信息、深度伪造、个人信息、诽谤性的指控，以及歧视性、偏见性和有害的内容。尽管目前正在开发相关的技术保障措施，但由于涉及的计算极为复杂，预测 AI 在所有情况下的行为颇具挑战。此外，大多数国家的知识产权法律是在AI 出现之前制定的，这导致了 AI 输出内容权属的不确定性。

（五）监管环境的变化

政府和监管机构正在考虑针对GenAI 制定新的法律、法规、政策和指南。这可能会对使用 GenAI 的企业和组织提出新的要求。中国已出台并开始实施特定的法规，而欧盟也计划很快实施相应的规定。

以上这些问题清单并不全面，还有其他许多潜在挑战，包括训练和使用 GenAI 的能源密集型特性。

许多国际组织，比如 UNESCO、OECD 和 AI 全球合作

（the Global Partnership on AI），已经出版了负责任使用AI 的总则。企业和组织应当考虑实施员工政策，并且培训 GenAI，以鼓励负责任地试验和使用。

三、GenAI 和知识产权（IP）

GenAI 存在许多 IP 触点（touch points）和不确定性。虽然无法完全减轻知识产权风险，但以下考虑可能有助于企业和组织在这一不断发展的技术领域中应对知识产权问题。

（一）机密信息

机密信息是指非公开可获取的、可能具有或不具有商业价值的，以保密方式传达，并受到合理保护的信息。商业秘密是其中一种类型。商业秘密是一种具有（潜在）经济价值或因其秘密性而提供竞争优势的机密信息。

如果这些信息被用于训练或指令人工智能工具，使用GenAI 工具的企业和组织可能会无意中泄露商业机密或放弃商业敏感信息的保密。企业和组织应考虑采取技术、法律和实际保障措施相结合的方式来防止这种情况发生。

风险

GenAI 工具可根据用户的指令进行保存和训练。由于AI 供应商拥有指令信息的副本，如果用户在指令中包含机密信息，可能会导致其机密性的丧失。此外，这些信息还可能成为模型的一部分，被其他用户共享使用，而生成输出内容。
企业和组织使用其机密信息从头开始训练 GenAI 工具或对现有工具进行微调时，信息存在被公众获取的风险。
黑客可能会利用“指令注入攻击”（Prompt Injection）等技术来提取包括机密信息的训练数据。
GenAI 工具的私人提供商可以监控和存储指令信息，以检查是否有不当使用的情况，这些指令有可能会被提供商的员工审查。

对策

检查 GenAI 工具的设置，尽量降低提供商使用用户的指令信息进行存储或训练的风险；
考虑使用在私有云上运行和存储的 GenAI 工具；
检查 AI 工具提供商是否会存储、监控和审查用户的指令信息。要求提供商就机密信息提供适当的保护和保障。
限制被授权使用机密信息的员工对 GenAI 工具的访问权限。
制定员工政策，并就指令中包含机密信息的风险进行培训。
考虑让信息安全专家审查和监控GenAI 工具。

（二）知识产权侵权

许多 GenAI 工具基于大量（有时高达数十亿）受知识产权保护的项目进行训练。当前存在若干未决的法律纠纷：抓取并使用这些作品用于训练 AI、经过训练的 AI 模型和输出内容被控构成知识产权侵权。这些案例主要集中在著作权和商标上，但理论上也可能涉及其他知识产权，如工业设计、数据库权利和专利。

AI 工具及其训练和使用，以及输出内容是否构成知识产权侵权，存在重大的法律不确定性。答案可能因不同的司法管辖区而异。企业和组织应考虑通过使用 IP 合法工具、尽可能寻求赔偿、审查数据集并实施技术和实际措施来降低侵权的风险。

风险

全球范围内正在进行的诉讼都旨在确定使用受知识产权保护的项目训练 AI、使用这种经过训练的 AI 模型以及它们产生的输出内容是否构成知识产权侵权。
这种风险不仅限于 AI 开发者，还可能涉及 GenAI 工具的用户。在许多国家，各种形式的知识产权侵权的责任，如复制版权作品，并不取决于被控侵权人的意图或认知。
法院仍在解决责任的问题，包括 GenAI 开发者、提供商、客户和用户是否应承担知识产权侵权、支付赔偿金和销毁侵权模型或输出内容等。目前尚不清楚法院是否会下令禁止使用基于受知识产权保护的项目训练的AI 模型。
关于潜在的著作权侵权，一些国家的知识产权法律可能包括适用于GenAI 的例外情况，如公平使用、文本和数据挖掘、以及临时复制。然而，由于各国之间缺乏协调，适用于 GenAI 例外情况存在未知性，进而导致了侵权的不确定性。
即使在法院作出了判决的情况下，判决结果也可能取决于案件的具体情况以及相关国家法律的规定。

对策

考虑使用仅基于已获授权的、公共领域或用户自有训练数据训练的GenAI 工具。
在选择AI 工具时，要考虑是否有供应商愿意为知识产权侵权，特别是著作权侵权提供赔偿，并评估赔偿的范围和适用性。例如，该保护可能仅限于第三方补偿，并以遵守合同限制和实施风险减轻措施为条件。
在训练或微调 GenAI 时，应彻底审查数据集。确认知识产权所有权，审核 AI 训练的许可范围，并确保符合知识共享许可、或公共领域状态，以及相关司法辖区所适用的著作权例外。
注意：监管机构正在考虑制定规则，披露用于训练模型的知识产权保护的具体规定。考虑保存 AI 模型训练过程的记录文件。
制定员工政策和培训，最大限度地降低产生侵权输出内容的风险。建议避免在指令中提及第三方企业名称、商标、版权作品或特定作者/艺术家。
考虑在使用输出内容之前，检查侵权情况。这些措施可能包括检查抄袭、图像搜索和自由实施调查（freedom to operate reviews）。
根据具体情况评估对策、相关成本和商业风险。

（三）开源义务

由 AI 生成的代码可能需要履行开源义务。当某一软件应用程序或代码是开源时，意味着源代码对公众开放，用户通常被授予使用、修改和分发软件的权利和自由。然而，这些权利和自由也伴随着用户必须遵守的义务如署名（attribution），这些义务因管理软件的特定开源许可而异。企业和组织应该考虑其代码是否存在上述风险，调查潜在的赔偿保护，并制定技术和实际措施，以减少开源义务发生的可能性。

风险

GenAI 可能是基于受开源要求约束的代码进行训练的，潜在地违反了商业使用或署名等义务限制。目前美国有一起相关法律纠纷正在进行。
一些开源许可规定，任何包含开源代码的代码都必须遵守相同开源许可的要求。因此，这类代码的用户可能会无意中将开源义务引入其项目。

对策

考虑从仅基于许可示例进行训练或实施技术保障的供应商处获取 GenAI 工具。
考虑从提供开源侵权赔偿的供应商处采购 GenAI 工具，并检查适用的保护范围和条件。
在训练或微调 GenAI 工具时，彻底审查训练数据，确保其具有足够的许可范围。
在项目中使用 GenAI 时，采取风险与效益相结合的方式。如果确认代码免于承担开源义务至关重要，则应考虑禁止供应商和员工在这些项目中使用GenAI。

（四）深度伪造：肖像权和声音权

许多国家均保护肖像和声音，但保护形式不一，包括知识产权（如普通法国家的假冒行为）、不正当竞争法、人权、宪法、形象权等。

GenAI 有可能模仿特定主体的肖像或声音，甚至存在以此目的的专门工具。企业和组织应考虑与此类功能相关的风险。

风险

未经授权使用或模仿声音或肖像可能会导致侵犯知识产权或其他权利，并存在跨辖区法律框架不统一的问题。
模仿肖像和声音还可能产生名誉损害或法律诉讼的风险，如欺诈或诽谤。许多国家正在考虑针对深度伪造制定特定的法律法规。例如，中国已经通过了适用于“深度合成” 的法规。

对策

制定员工政策并提供培训，明确限制使用“深度伪造” GenAI 工具。对于已获批准的 GenAI 工具，执行禁止在指令中提及特定个人的政策。
在确实存在合法商业理由需合成某人的声音或肖像时，应从当事人处获得必要的同意和许可。

（五）AI 生成内容的知识产权和所有权

尚不清楚 AI 工具生成的内容如文本、图片、或其他创造性作品是否能够受到知识产权保护，以及如果可以被保护，谁将拥有这些权利。即使 AI 输出内容不受知识产权保护，也可能存在管理其使用的合同条款。

GenAI 输出内容的知识产权的存在与否，及其所有权尚不清楚。企业和组织应在合同中明确所有权，并考虑仅在输出内容的知识产权所有权对其商业模式并非至关重要的项目中使用 GenAI。

风险

大多数国家的知识产权法制定时并未考虑 GenAI，这导致 AI 生成内容是否可以拥有知识产权及其权利归属存在不确定性。这对于商标等某些知识产权可能不构成问题，但在著作权方面存在普遍的关注。
最近将 AI 系统“DABUS”作为发明人的专利申请，因为没有确定人类发明人，已经被一些国家一致地驳回，理由是不能确认人类发明者。目前尚不清楚 GenAI 是否可以在没有人类发明者的情况下创造出发明，以及这些发明是否可以获得专利权。
美国版权局已发布指南指出，包含 AI 生成材料的作品，必须有人类的创造性贡献。其判决表明仅仅是用户指令文本不能建立版权，比如指令仅仅“影响”输出内容。然而，北京互联网法院最近判决认为，用户拥有 AI 生成图像的版权，因为他调整了指令和参数，使图像反映了他的审美选择和判断。这些对 AI 生成作品的版权的不同解释，导致 GenAI 输出内容的版权的全球认可存在法律不确定性。
一些国家（如印度、爱尔兰、新西兰、南非和英国）为“由计算机生成的作品”提供版权保护，无需人类作者。乌克兰规定了计算机程序生成的“非原创物体”的相关权利。