MIMO简介
MIMO是一个用于可控视频合成的通用模型,能够根据简单的用户输入,合成具有可控属性(如角色、动作和场景)的视频。它通过编码2D视频到紧凑的空间代码,并考虑视频发生的固有3D特性,实现了对任意角色的高级可扩展性、对新3D动作的通用性以及对交互式现实场景的适用性。
MIMO主要功能
- 任意角色控制:用户可以提供单张图片作为角色输入,MIMO能够从该图片中合成出可动画化的角色,无论是人类、卡通形象还是拟人化角色。
- 新颖3D动作控制:支持从野外视频中提取复杂动作,以及从数据库中获取空间3D动作,为角色赋予逼真的动态效果。
- 交互式场景控制:能够处理复杂的现实世界场景,包括物体交互以及伴随的遮挡情况,使合成的视频更具真实感和互动性。
MIMO主要特点
- 空间分解策略:将视频片段分解为主人、底层场景和浮动遮挡三个空间组件,并基于3D深度进行层次化处理。这种分解方式使得用户能够灵活地控制合成过程,实现空间动作表达以及3D感知的场景交互。
- 用户输入多样性:允许用户输入多种类型的数据,如单张角色图片、动作序列、场景视频/图片或直接的驱动视频,模型能够将目标属性嵌入到潜在空间构建目标代码,并对驱动视频进行空间感知分解编码,从而实现直观的属性控制合成。
- 先进的可扩展性与通用性:在统一框架下,MIMO能够同时实现对任意角色的高级可扩展性、对新3D动作的通用性以及对交互式现实场景的适用性,突破了传统3D和2D方法的局限。