2月16日,北京大学人工智能专业博士@北大AI鱼博士 发微,从技术角度解读了OpenAI最新发布的Sora:
OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。其训练过程获得了大语言模型的灵感,采用扩散型变换器模型,通过将视频转换为时空区块的方式,实现了在压缩的潜在空间上的训练和视频生成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容,无需对素材进行裁切,直接为不同设备以其原生纵横比创造内容。Sora的推出,无疑为视频生成领域带来了革命性的进步,其技术细节值得每一位从业者细致研究。
Sora 详细的技术报告发布了,相关从业者可能都需要看看。里面有 OpenAI的训练思路以及 Sora 详细的技术特性,下面是主要的,详细的可以去看完整内容。
简单来说 Sora 的训练量足够大也产生了类似涌现的能力。
技术特点:
1、三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。
2、模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力
3、长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。
4、与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。
【训练过程】:
1、Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。
3、Sora实际上是一种扩散型变换器模型(Diffusion Transformer)。
首先将视频压缩到一个低维潜在空间19中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。
4、训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。
5、对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。
6、随着 Sora 训练计算量的增加,样本质量有了显著提升。Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。
7、针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。
8、与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。
完整报告请访问OpenAI官网查看。
重点关注:
1、Sora展现的三维空间连贯性和长期物体持久性,提升了视频内容的真实感。
2、通过模拟数字世界和与世界互动,Sora能够创造出富有创意的视频内容。
3、Sora的独特训练方法及其对不同纵横比的原生支持,标志着视频生成技术的一个新时代。