AIGC视频平台AI视频后期

MIMO

创新的视频合成平台,通过空间分解建模,实现对角色、动作和场景的可控合成,支持从单张图片生成可动画化角色,提取复杂3D动作,以及处理交互式现实场景,为用户提供高度灵活和逼...

标签:
chatglm
MIMO

MIMO简介

MIMO是一个用于可控视频合成的通用模型,能够根据简单的用户输入,合成具有可控属性(如角色、动作和场景)的视频。它通过编码2D视频到紧凑的空间代码,并考虑视频发生的固有3D特性,实现了对任意角色的高级可扩展性、对新3D动作的通用性以及对交互式现实场景的适用性。

MIMO主要功能

  • 任意角色控制:用户可以提供单张图片作为角色输入,MIMO能够从该图片中合成出可动画化的角色,无论是人类、卡通形象还是拟人化角色。
  • 新颖3D动作控制:支持从野外视频中提取复杂动作,以及从数据库中获取空间3D动作,为角色赋予逼真的动态效果。
  • 交互式场景控制:能够处理复杂的现实世界场景,包括物体交互以及伴随的遮挡情况,使合成的视频更具真实感和互动性。

MIMO主要特点

  • 空间分解策略:将视频片段分解为主人、底层场景和浮动遮挡三个空间组件,并基于3D深度进行层次化处理。这种分解方式使得用户能够灵活地控制合成过程,实现空间动作表达以及3D感知的场景交互。
  • 用户输入多样性:允许用户输入多种类型的数据,如单张角色图片、动作序列、场景视频/图片或直接的驱动视频,模型能够将目标属性嵌入到潜在空间构建目标代码,并对驱动视频进行空间感知分解编码,从而实现直观的属性控制合成。
  • 先进的可扩展性与通用性:在统一框架下,MIMO能够同时实现对任意角色的高级可扩展性、对新3D动作的通用性以及对交互式现实场景的适用性,突破了传统3D和2D方法的局限。

    相关导航