Vidu – 生数科技与清华大学联合发布的AI视频大模型

一、Vidu的定义与概述

Vidu是生数科技与清华大学合作开发的视频大模型。它代表了中国在视频大模型领域的一项重要技术突破,被认为是对标Sora且具有“长时长、高一致性、高动态性”性能标签的视频大模型。

该模型融合了多项先进技术,例如Diffusion与Transformer技术,并创新性地开发了U – ViT架构。这种架构是全球首个将Diffusion与Transformer融合的创新架构,其结合了Diffusion模型的生成能力和Transformer模型的感知能力。在多模态扩散模型UniDiffuser的辅助下,验证了U – ViT架构在处理大规模视觉任务时的可扩展性,并且能够一键生成长达16秒、分辨率高达1080P的高清视频内容。

二、Vidu的特点

(一)技术特点

  1. 融合先进架构
    • Vidu的核心技术架构是U – ViT架构,它将Diffusion与Transformer技术融合在一起。Diffusion是一种通过逐步引入噪声并学习如何逆转这个过程来生成高质量图像或视频的技术,而Transformer最初用于自然语言处理任务,因其强大的性能和灵活性被应用于计算机视觉等领域。这种融合使得Vidu具备了生成连贯且逼真视频内容的能力。
    • 基于U – ViT架构的多模态扩散模型UniDiffuser验证了该架构在处理大规模视觉任务时的可扩展性,让Vidu在处理复杂的视频生成任务时有了坚实的技术基础。
  2. 一致性表现优异
    • 在角色一致性方面,Vidu上线之初就具备通过锁定人物面部特征来解决视频生成中人物面部特征一致性的问题,用户可以上传自定义角色图并指定该角色在任何场景中的特定动作。到2024年9月,又发布主体一致性功能,将面部一致拓展至全身一致,并且范围扩大到动物、物体、虚拟角色等任意主体。用户上传任意自定义主体图片,就能通过描述词实现在连续不同场景中的主体特征保持一致。目前其他视频生成模型除了通过大量相似图片输入进行高成本的单点微调才能实现基本面部一致性外,很难做到像Vidu这样的一致性控制。
    • 在多主体一致性方面有着显著表现。用户可以上传包括人物角色、道具物体、环境背景等多个主体图像,并在视频生成中实现这些元素的交互,如创建定制角色身穿特定服装、在定制空间内自由动作的场景,还能让多个自定义角色在指定空间内进行交互,甚至支持融合不同主体特征创造全新的角色或物体。
    • 在复杂主体控制上,无论是细节丰富的角色还是复杂的物体,Vidu都能保证其在多个不同视角下的一致性。例如造型复杂的3D动画风格角色,无论视角如何变化,都能始终确保头型、服饰的全角度细节一致,避免了传统视频模型在复杂视角切换时产生的瑕疵,在人物特写镜头中,也能够自然且流畅地保持人物面部特征和表情的连贯性,避免面部僵硬或失真的现象。
  3. 表现出智能涌现
    • Vidu1.5版本的推出揭示了视觉模型与语言模型一样具有对上下文的深刻理解、记忆等能力。经过充分训练能展现出智能涌现的特征,进入视觉上下文时代。它可以不断扩展上下文长度,能通过视觉上下文完成大量新任务的直接生成,从单输入主体的文/图生视频,到多输入参考信息,未来还有望以更长、更丰富的上下文作为输入来进一步提升模型能力表现。并且在拥有处理更复杂任务能力的同时,Vidu1.5延续了其业界领先的生成效率,不到30s即可生成一段视频。

(二)功能特点

  1. 视频生成能力
    • 能够一键生成长达16秒、分辨率为1080P的高清视频内容。这样的视频具有清晰的画质,适合在各种高清显示设备上播放,满足用户对于高质量视频内容的需求。
    • 支持多镜头生成能力,可以同时生成多个镜头视角的视频,能够制作出类似电影或电视剧中常见的多镜头切换效果,增加了视频的动态感和观赏性。并且在生成多镜头视频时,能保证不同镜头之间的时空关系是连贯的,避免出现时空错乱的情况。
  2. 物理模拟与创意表达
    • Vidu具有模拟真实物理世界的能力,可呈现物体的运动、光影的变化等物理特性,使得视频内容更加逼真。除了模拟现实世界外,还拥有丰富的想象力,除了能根据用户输入生成常规内容,还可以创造出新颖独特的视频内容,满足用户在创意表达上的多样化需求。
  3. 多模态融合潜力
    • 虽然目前主要聚焦于视频内容的生成,但基于其多模态大模型的特性,未来有望整合诸如文本、图像等多种模态的信息,从而生成更加丰富和立体的视频内容,为视频的创作、生成带来更多的可能性,例如在视频中引入特定的图像元素或者根据文本描述在视频里构建特殊的场景等。

三、Vidu的应用领域

(一)内容创作领域

  1. 影视与视频制作
    • 在影视行业中,传统的视频制作流程往往繁琐且需要大量的人力、物力和时间成本。Vidu的出现为影视制作带来了新的可能性。例如在前期的创意构思阶段,导演或编剧可以通过向Vidu输入简单的文本描述,快速获得16秒的高清视频内容,这些内容可以作为创意的初步呈现,帮助他们更好地规划情节、设计场景等。
    • 在后期制作中,Vidu的多镜头生成能力和对时空一致性的把控可以为特效制作、场景剪辑等提供便利。比如制作科幻场景中的复杂特效镜头,Vidu可以根据设定生成基础的视频素材,然后由特效师进一步加工完善;在剪辑不同镜头时,其能够保证多镜头之间时空关系的连贯性,提高剪辑效率和质量。
    • 对于独立视频创作者来说,Vidu降低了视频制作的技术门槛。原本需要掌握复杂视频编辑技术和拥有大量素材库的创作者,现在只需一些简单的文本提示就能够生成满足基本需求的视频,节省了时间和精力,让更多的人能够投入到视频内容创作中来。
  2. 动画制作与设计
    • 动画制作需要对于角色、场景、动作等诸多元素进行设计和制作,Vidu的一致性控制能力在动画制作中有很大的应用价值。对于3D动画风格的复杂角色,它能够确保角色在不同视角下的细节一致性,从头部的造型到服饰的纹理,极大地减轻了动画师的工作负担。
    • 此外,在动画的创意阶段,Vidu可以根据设定生成具有动画风格的视频内容,为动画师提供灵感源泉。比如在制作一个奇幻风格的动画项目时,创作者可以通过向Vidu输入相关的奇幻场景描述,如魔法森林的景象、奇异生物的活动等,获取初步的视频创意内容,然后再进行深入的动画制作。

(二)营销与广告行业

  1. 广告视频创作
    • 在广告行业,Vidu的快速视频生成能力可以极大地提高广告制作的效率。企业或广告公司可以根据产品特点和营销目标,快速生成符合要求的广告视频。例如快速制作出展示产品性能、外观、使用场景等不同方面的16秒视频,然后根据受众反馈进行修改完善。
    • 其多模态融合的潜力也可以在广告制作中得到发挥。比如将产品图像与吸引人的视频场景进行融合,对品牌形象进行创意性的展示,吸引消费者的注意力,提高广告的效果。同时,它可以根据不同的市场需求和文化背景,生成具有针对性的广告视频,增强广告在不同地区市场的适应性。
  2. 社交媒体营销
    • 在社交媒体平台上,视觉内容是吸引用户注意力的关键。Vidu生成的高清、富有创意且具有动态效果的视频非常适合用于社交媒体营销。企业或个人可以利用Vidu生成独特的短视频内容,用于产品推广、活动宣传、品牌故事讲述等,提高社交媒体上的粉丝关注度和用户参与度。
    • 由于Vidu能够模拟真实世界且具备丰富想象力,使得生成的社交媒体营销视频可以更加贴合用户的喜好和需求,更好地与消费者进行互动和沟通。

(三)文化艺术与娱乐产业

  1. 数字艺术创作
    • 数字艺术家可以利用Vidu的技术特性进行创新创作。例如在生成超现实主义内容方面,如创造出具有梦幻效果、独特形象的数字艺术作品。Vidu可以模拟真实物理世界的部分特性并与创意元素相结合,为数字艺术创作提供新的思路和表现手法。
    • 对于艺术院校的师生或者艺术爱好者来说,Vidu也是一个创意激发和学习的工具。他们可以通过输入不同的文本或图像信息,观察Vidu生成的视频内容,学习不同元素在视频中的组合、表现方式,启发自己在数字艺术领域的创造性思维。
  2. 虚拟现实(VR)/增强现实(AR)体验内容创建
    • 在VR和AR内容创建方面,Vidu的视频生成能力可以为创建沉浸式体验内容提供基础素材。例如在VR游戏的场景预创建、AR互动内容的设计等方面,通过生成具有高动态性和多元素互动性的视频内容,再进一步转化为符合VR/AR设备需求的体验内容,丰富用户的虚拟现实和增强现实体验。

Vidu

四、Vidu与同类网站的比较

(一)与可灵AI对比

  • 视频生成速度方面
    • 可灵AI生成视频速度较快,但Vidu.studio 生成4秒视频片段能达到30秒甚至更短的时间,在一些需要快速获取短视频的场景下,Vidu的速度具有一定优势。像新媒体短视频制作,需要在短时间内输出大量创意视频内容,Vidu的速度能够更好满足这一要求。
    • 视频长度和细节处理:可灵AI能够生成长达3分钟的视频,在视频长度方面比Vidu目前最长32秒的限制更有优势,但Vidu在细节处理上有较好的表现,其能够准确理解并生成提示词中的文字、字母、数字等,并生成文字特效等;在画面效果上,Vidu在构图、叙事和光影等方面能达到接近电影级效果,可灵AI在长视频的细节表现方面未展示出这样的效果。
  • 功能完整性
    • 可灵AI有图生视频和视频续写功能,提供了丰富的创作空间,Vidu.studio 则具有文生视频和图生视频之间较好的转换与融合功能,如将图片和文字结合来生成创意视频,同时它的角色一致性功能和利用文字让角色做出各种动作在图生视频场景下具有独家优势,像在创作人物短视频,需要让角色依照特定情节表演时,Vidu的功能更适合。

(二)与即梦AI对比

  • 创作模式
    • 即梦AI由字节跳动旗下剪映推出,提供文生图、文生视频和图生视频等多种功能,还包含创作灵感支持和创意模板,而Vidu.studio 专注于文生视频和图生视频的高质量生成,暂未提及创作灵感支持和创意模板功能,不过Vidu在文生视频和图生视频的相关功能深度上具有自己的特色,比如对语义更精准的理解、画面更好的呈现等。
    • 在视频生成长度选择上,即梦AI有标准模式下的3秒、6秒、9秒、12秒和流畅模式下的4秒、6秒、8秒等选项;Vidu.studio 提供4秒和8秒两种选择且一次性最长可生成32秒,在与即梦AI的对比中,Vidu的视频长度选择相对较少,但在这几个特定的时长下,能够提供更简单直接的服务并且有自身独特的视频生成技术支持。
  • 视频质量
    • 即梦AI在生成复杂场景时会出现细节缺失或画面模糊的情况,而Vidu.studio 能够较好地平衡语义理解准确性、画面美观性、主体动态的一致性这三大核心维度的表现,在画面质感如构图、叙事和光影等方面能达到接近电影级效果,在产生高质量视频上更有保障。

(三)与清影AI对比

  • 视频生成速度和风格
    • 清影AI以高效的视频生成速度受到关注,Vidu.studio 同样具有极快的视频生成速度,不到30秒即可生成视频。清影AI支持4种视频风格选择如卡通3D、黑白、油画、电影感,Vidu虽然未声称有类似的特定几种风格的输出能力,但能依据用户输入物(文字或图片)较好地生成用户所需风格的视频,像对科幻、西部、浪漫、动画等风格的影片画面都能较好地呈现。

    • 在某些特定场景下的生成效果方面,Vidu.studio 能在画面上具有高动态性、高逼真度、生成复杂动态镜头并能支持大幅度、精准的动作生成等,而清影AI在模拟真实物理世界和创意想象力的某些场景下的表现有待提高,这也是Vidu.studio 在视频生成能力上的优势体现。