6月6日凌晨,OpenAI在官网公开了前沿大模型的安全策略,包括基础架构、保护措施、敏感数据存储、开发人员访问管理等。
这也是OpenAI首次系统性的公布大模型开发安全方面的高级细节,让外界深度了解其模型的开发流程,同时可为开发者在研究最新的前沿大模型提供技术借鉴。
下面「AIGC开放社区」就为大家解读一下主要内容。
基础研究架构
OpenAI的研究技术架构建立在微软的Azure云服务之上,并通过Kubernetes(谷歌开源的容器平台)进行辅助。
OpenAI的身份基础基于 Azure Entra ID(前身为 Azure Active Directory)。
Azure Entra ID 与内部身份验证和授权框架及控制集成。Azure Entra ID 可以对会话创建、身份验证tokens的使用和异常登录检测进行基于风险的验证。这些功能是对内部检测工具的补充,有助于识别和阻止潜在安全威胁。
Kubernetes安全方法
OpenAI主要使用Kubernetes 来协调和管理基础设施中的工作负载。研究工作负载受到 Kubernetes基于角色的访问控制(RBAC)策略的保护,以遵守最小权限原则。
依靠现代技术为研究环境提供安全的网络。网络策略定义了工作负载与外部服务的通信方式。OpenAI会使用 “默认拒绝”策略,并明确允许列出授权的外部通信路径,并广泛使用专用链路网络路由,以消除通往互联网的必要路由,并缩短允许列表。
对于一些风险较高的任务,OpenAI会使用 gVisor(谷歌开源的沙箱环境)来解决,这是一种提供额外隔离的容器运行环境。这种深度防御方法可确保强大的安全性和工作负载的高效管理。
敏感数据保护策略
OpenAI使用密钥管理服务来存储和管理,研究基础设施中的敏感数据,并使用基于角色的访问控制来限制对数据的访问,以便只有授权的工作负载和用户才能检索或修改它们。
所以,OpenAI建立了一项名为 AccessManager 的服务,作为管理内部授权和实现最小权限授权的可扩展机制。该服务将访问管理决策联合给由策略定义的审批者。这样就能确保授权人员在适当的监督下做出访问敏感资源(包括模型权重)的决定。
AccessManager策略可以定义为严格的或灵活的,根据相关资源进行定制。请求并被授予对敏感资源的访问权限,例如,包含模型权重的研究环境中的存储需要多方批准。
对于敏感数据,AccessManager 授权授予设置为在指定时间段后过期,这意味着如果访问者不续订,权限将降低到非特权状态。
OpenAI还将GPT-4 集成到 AccessManager 中,用于最小权限角色的分配工作。用户可以在AccessManager 中搜索资源,该服务将使用OpenAI的模型来建议可以授予该资源访问权限的角色。将用户连接到更具体的角色可以消除对广泛、通用和过于宽松的角色的依赖。
模型权重保护
模型权重的保护非常重要,可以避免OpenAI很多未公布和重要的基础模型出现泄漏的情况,主要使用了以下保护策略:
授权:对于包含敏感模型权重的研究存储帐户的访问,需要多方批准、授权。
访问:用于研究模型权重的存储资源专用链接到 OpenAI 的环境中,以减少对互联网的暴露,并需要通过 Azure云进行身份验证和授权才能访问。
出口控制:OpenAI的研究环境使用网络控制,仅允许出口流量流向特定的预定义互联网目标。流向不在允许列表中的主机的网络流量将被拒绝。
模型审核与测试
OpenAI会通过内部和外部“安全红队”来模拟恶意使用方,并测试对研究环境的安全控制。目前,OpenAI已经与一家第三方的安全咨询公司对其研究环境进行了渗透测试。
此外,OpenAI正在探索研究环境的合规制度,来保证大模型的权重安全等问题。OpenAI还在评估现有的安全标准以及专门用于保护AI技术的自定义控制措施。
OpenAI为什么频繁公布大模型安全
其实,你要是经常看OpenAI的blog就能发现,最近几个月除了发布新产品之外,关于AI模型安全的介绍与讲解非常多。主要是因为OpenAI受到的安全压力非常大。
上个月OpenAI的主要安全负责人Ilya Sutskever、Jan Leike相继辞职,并且Jan还在社交平台公开吐槽OpenAI不重视产品的安全,可能存在很大的潜在风险。
昨天,11名OpenAI现役和前员工发布了一封公开联名信,主要警告前沿AI模型可能会带来很大的风险。
例如,生成错误的内容、人为操控、不平等进一步加剧等,并且可能会出现失控的局面对社会造成巨大伤害。
他们希望通过这封联名信,呼吁全球参与大模型的政府架构、大型企业、科研人员可以指定安全、可持续的监督条例和规则,防止人类在探索AGI(通用人工智能)的道路上发生不幸的意外。
他们呼吁先进的AI模型企业、学术机构应该遵循以下4项原则,「AIGC开放社区」会为大家做一个简单直观的解读。
1、组织不会签订或执行任何禁止或批评AI模型相关问题的协议,也不会通过阻碍任何既得经济利益对风险相关批评进行报复。
简单来说,就是希望企业、政务机构支持监管条例,不要嫌弃、恶意对待提出监管条例的人。
2、公司将为在职员工和前员工向公司董事会、监管机构,以及具有相关专业知识的适当独立组织提出与风险有关的疑虑提供可核实的匿名程序。
这个就是希望可以如实的向上汇报AI模型的进程和存在的风险,不要有瞒报的情况出现,例如,OpenAI就因为这个事情罢免过他们的CEO。
3、组织应该支持公开批评的文化,允许现任和前任员工向公众、公司董事会、监管机构或具有相关专业知识的适当独立组织,提出与其技术有关的风险问题,只要商业秘密和其他知识产权利益得到适当保护即可。
就是说如果AI模型确实存在风险,你应该允许员工在公开的社交平台向大众说明真实情况,而不是一味的隐瞒。OpenAI前几天两名非常重要的安全负责人离职了,其中一位在社交平台吐槽OpenAI的安全监管很差,并且引发了离职协议等恶性事件。
反正就是,员工离职了应该有话语自由权不能遮遮掩掩的,有告知大众真相的权利,但是涉及商业机密的事情不能说。
4、公司不会对AI项目失败后,公开分享风险相关机密信息的现任和前任员工进行报复。当然,在报告项目风险时应该极力的避开商业机密。
因此,一旦有了向公司董事会、监管机构和具有相关专业知识的适当独立组织匿名提出疑虑的适当程序,同意最初应通过此类程序提出疑虑。然而,只要这样的程序还不存在,现任和前任员工就应保留向公众报告其疑虑的自由。
简单来说,员工向大众报告了AI项目确实存在的风险,并且在说明的过程中避免了商业机密。公司是不能向爆料员工报复的,例如,之前的OpenAI的离职协议写着,员工离职后不能吐槽其项目不然就拿不到股权等。
本次参与签名的有Jacob Hilton、Daniel Kokotajlo等7名前OpenAI员工,还有4名现役员工没有公开姓名,估计怕被OpenAI知道处罚他们。
本文素材来源OpenAI官网,如有侵权请联系删除