基于“智能对抗”的生成式人工智能内容治理探究

对以ChatGPT为引领的AIGC内容治理，本研究提出以“智能对抗”的形式重构AIGC内容治理的格局，通过“智能对抗”的实现路径，推动结果型与过程型平衡的治理。

生成式人工智能（AIGC）推动了信息传播革命，使AI模仿人类的创造性劳动，产出文本、图像、音频等多模态媒介表现形式。然而，AIGC的广泛应用带来了内容安全的严峻挑战，传统的内容治理手段在应对AIGC带来的风险时捉襟见肘，迫切需要从理论和实践层面探索新技术条件下的内容治理逻辑与路径，以确保AIGC成为助力而非阻力。而这一目标的实现离不开技术的支持。因此，对以ChatGPT为引领的AIGC内容治理，本研究提出以“智能对抗”的形式重构AIGC内容治理的格局，通过“智能对抗”的实现路径，推动结果型与过程型平衡的治理。

一、“智能对抗”的必要性

（一）AIGC的内容风险特征。Bond-Taylor等学者认为生成式人工智能的本质是对训练样本的分布状况进行建模，根据模型抽取样本生产内容[1]。Ruthotto和Haber等提出AIGC的核心在于模型的能力，它是通过分析和理解数据的内在结构，来自动创造与训练数据风格一致但内容独特的输出，从而实现对人类创造性任务的模拟[2]。因此，AIGC的生产逻辑本质上关乎技术模型的选择和数据训练的基础架构。即是说，AIGC的生产逻辑依然根植于人工智能的三大核心要素：算法、算据和算力。从AIGC的系统要素构成来看，李白杨等指出网络形态数据、内容生产关联算法、交互用户、资源组织平台构成AIGC的基础性要素[3]。由此可见，AIGC的内容风险包括了传统的网络内容风险，但也有其自身的特征。

既往传统的网络内容风险约有九大类型：内容低俗化风险、网络暴力风险、虚假信息传播风险、信息操纵风险、网络恐怖主义风险、网络文化入侵风险、网络意识形态风险、知识产权风险、侵权风险。[4]然而，以ChatGPT为代表的AIGC技术，虽然目前在实际应用过程中尚处于风险演进的初期阶段，但这种无节制的使用可能导致网络内容风险的进一步加剧，如虚假新闻[5]、版权争议[6]、伦理损害[7]等。根据AIGC内容生产逻辑，数据、算法、用户、平台均在不同层面加剧了这种风险。在数据和算法中，由于算法设计或训练数据存在缺陷，使得AIGC可能会产生逻辑推理错误的内容[8]，从而导致虚假信息的生产；而GPT-3及更高版本模型操纵的风险使得信息内容存在偏向自由主义的价值观念预设的倾向[9]，用户在与AIGC“一对一”的互动过程中，极易被AIGC灌输相应的政治理念，从而带来极大的隐蔽性意识形态渗透风险[10]。在用户层面，部分用户刻意使用AIGC进行价值与意识形态的错误传播，误导性信息在网络空间的传播极易在公众中形成错误共识，成为外部意识形态渗透的“新平台”[11]。在平台层面，平台的集成扩大了AIGC应用场景，由于其生成内容的高度逼真性，使得这些风险更难以被传统手段识别和控制，对信息真实性和新闻公信力均造成了严重冲击，虚假内容的跨境传播逐渐成为一种新的复合型国家安全威胁[12]。此外，AIGC的算法黑箱、数据隐私泄露等，也构成新的内容风险类型。这些风险相互叠加，使得内容治理面临更多的不确定性和挑战。

（二）AIGC对内容治理的挑战。目前面临的更大困境来源于面对AIGC带来的新风险和挑战，传统的治理模式显然力不从心。在传统媒体时代，主要通过编辑把关来控制内容风险，依托“总编辑负责制”和“三审三校”等机制确保媒体内容的质量；在社交媒体时代，内容管理从现有的编辑把关模式逐渐转向生态治理模式，将用户、平台等多元参与者纳入治理体系，并运用多种新技术手段进行内容风险的识别与控制。内容审核员成为这一时期平台内容的“把关人”，计算机识别成为内容审核不可少的手段。这些方式本质是通过对生产要素和生产流程的控制实现内容治理，即人工把控的“把关人”和计算机识别成为传统内容治理的主要模式。然而，AIGC的内容治理挑战源于技术对内容生产与传播方式的根本性变革，两种模式面对快速生成海量内容的AIGC时均遭遇挑战。AIGC规模化的内容生产，使得信息生成的速度远远超出人工审核的承受能力；计算机识别也只能基于既有的系统和已经生成的内容。这种方式难以解决AIGC内容生产中的特殊性问题，例如，内容生成中的是与非错误、逻辑推理错误、价值与意识形态的错误[8]等。此类错误在识别过程中定义相对模糊，需要人为判断或需结合上下文的语境场景判断，因此存在误判的可能性。Katzenbach认为，使用AI技术解决错误信息和仇恨言论等问题会引发特定的问题和危害，因为这些类型内容的上下文性质限制了传统算法系统的准确性，从而加剧了过度屏蔽等危害。[13]此外，AIGC技术的易学易用也给内容审核带来极大的困难。例如，AIGC的产物之一——深度伪造（deepfakes），运用的“生成对抗网络”技术就被用户快速普及，[14]它生成的逼真内容不仅被用来制作非法色情内容，还涉及身份泄露、勒索钱财等隐私风险、人身风险，更危害至未成年人群体。韩国的数据表明，自2018年以来已有超过2000名“深度伪造”受害者，其中未成年人占比近四成。[15]加州大学伯克利分校的教授Hany Farid表示“忙于合成（‘深度伪造’）视频的人数与检测核证的人数比例，是100：1”[16]。

面对这些挑战，传统的人工审核和计算机识别模式显然已不适应AIGC带来的内容风险。因此，我们需要探索新的内容治理逻辑——“智能对抗”，来应对AIGC技术所带来的挑战。它不仅是技术层面的创新，更是内容治理理念和模式的革新。我们需要建构更“智能”的方法，来学习和预测AIGC的生成模式。

二、“智能对抗”的逻辑与路径

在围棋界，通过深度强化学习技术学习游戏规则、专家数据、经验数据，AlphaGo系列已超越人类水平的围棋对弈能力；在算法模型的博弈下，AlphaZero仅训练30小时就超越了AlphaGo Lee，凸显了深度强化学习在解决控制决策问题中的广泛适用性。“机器解决机器”带来的问题提供了另一个视角，但需指出的是这些算法都在一个确定的环境模型的情况下进行，即模拟器（simulator）[17]模拟了围棋这一较为单一的场景。而现实中，网络传播环境通常是复杂且未知的。

AIGC的基本原理是人类通过训练让机器理解人类给予的任务（指令），然后完成任务（给出答案），这通常涉及数据收集、数据预处理、模型训练、内容生成以及评估和细化等步骤。[18]它的内容风险可能来自算法、算据和算力的任意环节，很难通过传统的信息探测技术控制风险，因此引入大模型和智能技术是风险控制的重要手段。本文认为，应依据“以攻测防→以攻促防→攻防一体化”的安全理念，通过模拟对内容风险各场景的攻击，检查模型和系统的弱点，提升算法和系统的安全水平。即是说，借鉴AlphaGo系列的思路，将“智能”引入内容治理中，在人工智能系统设计和应用中，利用智能技术本身来应对和解决由智能技术引发的问题和挑战。思想的核心在于构建一个能够自我学习、自我适应、自我优化的智能系统，使其在面对复杂多变的环境和问题时，能够自动调整策略、优化决策，从而实现更加高效、准确的治理。“智能对抗”主要体现在以下四个方面：自我监控与自我修复、自我学习与自我优化、对抗性训练与鲁棒性增强、人机协作与共同进化。这种思想不仅有助于提高智能系统的性能和可靠性，也有助于推动人工智能技术的健康发展和社会应用。“智能对抗”的思想在AIGC内容风险治理方面的应用，主要体现为利用人工智能技术和方法去监测、识别、评估和管控由生成式人工智能生成的内容所带来的风险。这是一种智能检测的方法，包括内容检测与识别、风险评估与预测、内容过滤与控制、反馈与迭代等。

根据对抗对象AIGC的逻辑，本文认为，“智能对抗”的核心在于利用已经构建的风险测评模型，对AIGC生成的内容进行深度评估，并基于这些评估结果预测潜在风险，从而提供相应的防控策略。它的重点是内容安全治理数字建模新体系，即将传统的定性评估转化为定量分析。

因此，智能对抗的基本逻辑如下：借鉴基于GAN训练样本的评估方法思路[19][20]（如图1），从数据收集开始，确保数据收集阶段的多样性，根据生成样本建立对抗训练样本，即检测模型。

图1 基于GAN训练样本的评估方法

检测模型在风险评估理论、风险管理理论、风险规避理论、人机协同理论、层次控制理论、应急管理理论、案例推理理论、机器学习理论以及智能决策理论的支撑下，对待测模型进行评估。待测模型根据自身的算法和算据规则对提出的问题进行回答。然后，检查模型依据上述理论以及内容风险监测评估与分级体系对模型做出的答案进行分级处理。分级应依据内容风险的关键指标，涵盖信息的多个维度，如信息的来源、传播渠道、受众群体等。例如，可以通过分析信息的传播速度、受众覆盖率和舆情反应等指标，来评估内容风险对信息生态系统的影响程度。这种分级可分为无风险、低风险和高风险三级。无风险信息顺利通过测评并将结果反馈至检测模型，以提升检测模型效能；低风险组通过预警的方式反馈给待检测模型以促进模型完善算法或纠正算据；被标记为高风险的信息进入控制程序，将通过对形成过程和所用素材的追踪分析风险来源，进而反馈给待测模型。由高风险模型反推生成过程是技术难点，其中对于AIGC产品的水印跟踪是重要的解决方法。另一种解决方法是建立向量表达，并通过语义关联来构建面向高阶推理的风险识别模式。向量表达是一种将文本信息转化为数学向量的方法，可以实现文本信息的量化分析和处理。通过构建语义关联网络，使用深度学习和自然语言处理技术理解和分析文本内容，识别潜在的风险点，将文本信息中的关键词和主题进行关联，从而实现对内容风险的高阶推理和识别。这种高阶推理模式有助于更深入地理解内容风险的本质和特征，为风险预警和应对提供有力支持。

计算机视觉、模型解释性技术、智能检测和过滤系统等均是实现“智能对抗”的重要技术。计算机视觉用以检测图像和视频中的违规内容；模型解释性技术用以帮助理解AIGC模型的工作原理，理解AIGC模型如何做出决策，增强模型的可解释性；智能检测和过滤系统在监测用户行为层面至关重要，除了识别用户异常活动外，还能自动识别和过滤有问题的内容。

通过检测模型与待测的AIGC模型的对抗，从而不断提升内容风险的监测效能和控制效能。此外，该模型的运转还离不开对风险预警和风险防控中的阈限值探索和因果推理。

通过这种综合性的方法，智能对抗旨在构建一个能够自我完善、适应性强的内容治理体系，以有效应对AIGC技术带来的挑战。这一体系的建立，需要跨学科的合作和社会各界的共同努力，以确保技术的发展方向与社会价值和伦理标准相一致。

三、“智能对抗”的思想保障

随着人工智能的广泛应用，其对社会的影响越来越大，产生的诸多问题也超越传统治理模式的效用范畴，因此，除了需要积极探索新技术，更需要新思想的支撑。“智能对抗”的复杂性、动态性以及不确定性迫切需要新理论的指引；AIGC不仅是技术行为，更是社会、哲学问题，离不开伦理与价值的定位。因此，针对AIGC带来的挑战，本文认为需要采用“敏捷治理”的理念来创新内容治理制度，以达到高效、灵活且适应性强的目标。

敏捷治理思想是一种具有柔韧性、灵活性或适应性的管理方法论，旨在帮助组织更好地适应快速变化的环境，并实现高效的项目交付和组织运营。敏捷治理的思想可以应用于AIGC内容风险治理，以应对快速变化和复杂性的内容风险。敏捷治理思想在AIGC内容风险治理中的应用包括：快速响应，即灵活调整治理策略，根据风险的变化和演化，灵活调整内容审核、过滤和管理策略，确保治理的有效性和适应性；小步快跑，即将风险治理任务分解为小的、可控制的任务，逐步推进风险治理工作，确保治理工作的持续性和有效性；强调团队协作，即建立共同参与AIGC内容风险治理工作的机制，实现信息共享和协同决策；不断反馈和改进，即建立一个完善的反馈机制，收集风险治理的效果和意见，及时进行改进和调整，包括利用用户反馈和数据分析来不断完善内容审核和过滤系统。通过应用敏捷治理的思想，可以提高AIGC内容风险治理的灵活性、适应性和效率，更好地应对快速变化的风险和挑战。同时也需要注意平衡风险治理的合规性和公正性，确保治理工作的合理性和可持续性。

除了应用敏捷治理应对AIGC内容风险外，我们还迫切需要讨论人机的共同价值问题。1960年，维纳（NorBERT Wiener）早已指出“我们最好保证放入机器中的目的就是我们真实所追究的目的”[21]，强调了机器与人类目的之间对齐的重要性。2014年，加州大学伯克利分校计算机科学教授、智能系统中心主任斯图尔特·罗素（Stuart Russell）指出“我们需要构建的智能不是纯粹的智能，而是可证明与人类价值观相一致的智能”[22]。价值对齐问题一直受到高度关注。对于AIGC来说，价值对齐是为了确保大模型符合人类道德标准和价值观念，使其行动决策与人类的利益和价值选择保持一致。在人工智能的自主性越来越强的情况下，价值对齐的重要性更加凸显。业界关于价值对齐的评估通常包括事实性评估、伦理评估、有毒性评估、歧视性评估、多维度的通用评估。[23]这些价值对齐的评估与模型的样本息息相关，样本质量决定了模型基础，价值对齐须在对抗样本中有所筛选，从而保证样本的“干净”。算据资源与开发工具的良莠不齐为数据训练埋下了法律隐患。例如，Facebook因使用未经授权和脱敏的用户生物特征图像进行算法训练，违反了伊利诺伊州《生物识别信息隐私法》（Biometric Information Privacy Act，BIPA）中对数据训练的采集和使用要求而受罚，此案也是美国历史上规模最大的消费者隐私案[24]。此外，Microsoft、Amazon、Google等公司当前也面临着类似的诉讼。需要指出的是，价值对齐是一个动态且持续的过程，未来，在建设高质量多维度价值对齐检测模型，保障AIGC内容生态健康发展方面，需要不断探索和创新，以确保人工智能生成的内容不仅符合法律法规，而且能够促进社会的积极价值观，同时尊重文化多样性和个体差异。

四、结语

AIGC的内容安全治理已成为新技术和新实践发展中的重要议题，亟需新思想和新理论的指引：发展“智能对抗”的新思想；探索敏捷治理的新理论；建构内容风险数字建模的新体系。虽然AIGC内容治理离不开算法、算据、算力三大核心，但对于内容治理，更应从多学科、多视角进行探索，而非完全的技术治理，也非静态治理。因此，内容风险监测的模型开发和利用一是需要以敏捷治理的思想动态治理，二是需要体现人本主义的价值对齐，继续完善该方法需要不同学科的合作和交叉研究。

在未来的研究中，以下问题值得探讨：一是，随着AIGC的功能越来越强大，内容风险的变化莫测使得人类难以匹配对应的评估能力，而内容检测模型又需要人工判别，如何保证对抗样本的前瞻性是一个值得提前关注和应对的急迫问题。二是，“智能对抗”是一把“双刃剑”，其在保证机器按照人类价值观做出判断时，也将挑战人类价值的多元化、动态性，因而面临“红线”的标准问题是一个现实问题。