Loopy – 字节跳动推出的音频驱动的AI视频生成模型

一、Loopy的基本情况

Loopy是由字节跳动和浙江大学团队联合开发的基于音频驱动的AI人像视频生成模型,于2024年推出,是人工智能视频生成领域的一个创新成果。目前已开放论文,并提供大量演示视频,但暂未对外开放使用 。

2332411b9c2cc8a3673fee1c58f30b3e

二、Loopy的功能特点

(一)音频驱动的动态生成

  1. 自然动作产生
    • Loopy能通过音频输入生成虚拟人物的多种动作,包括头部、眼睛、眉毛等部位的微表情。它可以完美适应不同的音频风格,例如欢快音乐下人物的活跃动作,或是舒缓音频中的柔和动作表现。无论音频的节奏快慢、情感强弱,都能准确地在虚拟人物的动作上体现,使人物动作与音频高度匹配,就像真人根据声音自然做出反应一样 。
  2. 多样化动作效果
    • 针对同一参考图像,Loopy可以根据不同的音频输入生成各式各样的动作效果。这些效果涵盖了从快速动态到柔和表现等多种类型。例如,同一人物形象在摇滚乐音频下会有富有激情的动作,而在古典音乐下动作会变得优雅舒缓,这为创作者提供了丰富的创作可能性,极大地丰富了虚拟人物动作的多样性 。

(二)面部情感同步

  1. 非语言情感呈现
    • Loopy不仅能处理语言表达的情感,还能够生成包括叹息等非语言的情感动作。这确保了虚拟人物的情感表达与音频内容保持完全一致。比如在一段悲伤的音频中,虚拟人物除了面部的悲伤表情,还可能会呈现出无奈叹息这样的细微动作,使得虚拟人物的表现更加贴近真实的情感传达,增强虚拟形象的可信度和感染力 。

(三)适应各种视觉风格

  1. 多角度图像处理
    • Loopy可以处理不同角度的图像,即使是侧面图像也能很好地进行处理。在生成虚拟形象时,不会因为图像角度的问题而出现动作不自然或者不协调的情况。例如在一段环绕人物的多角度视频画面中,每个画面里的人物动作都能自然流畅地根据音频同步生成,使整个视频中的虚拟形象都表现出自然流畅的动作和高度真实感,无论从哪个角度观看都符合视觉预期 。
  2. 无需额外条件
    • 与一些类似技术相比,Loopy具有显著优势。它不需要使用额外的空间信号或其他辅助信息,如一些传统方法可能需要的手动指定运动模板等复杂条件。仅依靠音频输入,就能独立生成高质量、高度自然的视频。这种独立性为模型在各种应用场景中的便捷使用奠定了基础,简化了操作流程,降低了使用门槛和成本 。

(四)长期运动信息捕捉

  1. 动作流畅自然
    • Loopy具备处理长期运动信息的能力。这意味着它可以生成更加持续、自然和流畅的动作。在连续的音频输入下,虚拟人物的动作不会出现突然的跳跃或者不连贯现象。比如在一段较长的演讲音频或者音乐视频中,人物从开始到结束的动作都能平滑过渡,给观众带来舒适的视觉感受,仿佛在观看真人在音频环境下自然的反应 。

三、Loopy的应用场景

(一)娱乐领域

  1. 虚拟主播和虚拟偶像
    • 在虚拟主播或虚拟偶像的场景中,Loopy的作用十分明显。它可以根据主播的声音特征,精确地生成与其匹配的动画效果。这样一来,虚拟角色的动态表现会更加生动逼真,能够更好地吸引观众。例如,一位有着独特声线的虚拟主播,Loopy能根据其声音的起伏、情感等因素为其创造出独一无二的动作姿态,让虚拟主播的表演更加精彩,提升在直播或者视频制作中的观赏性和互动性 。
  2. 电影和动画制作
    • 在电影或动画制作方面,Loopy能够显著减轻手动动画制作的工作量。传统的动画制作需要大量的人力来绘制每一帧的画面和动作,通过使用Loopy,只需要输入音频和一帧参考图像,就可以自动生成自然的面部表情和动作。例如在一部动画电影中,某个角色的对话场景,不再需要动画师一帧一帧地调整嘴型、表情等,Loopy可以根据对话音频自动生成合理的面部动作,从而大大提高制作效率,节省制作成本并加快制作周期 。

(二)内容创作领域

  1. 短视频制作
    • 对于内容创作者来说,Loopy是一个非常实用的工具。创作者可以利用Loopy为短视频创作个性化的虚拟人物动画。在制作一些创意短视频时,如想要为文案故事配上生动形象的虚拟人物表演,Loopy能够根据文案的音频内容迅速生成适配的虚拟人物动作。节省了时间的同时还能极大地丰富创作表达的手段。无论是搞笑风格、悬疑风格还是情感风格的短视频,Loopy都能根据音频的风格为虚拟人物生成相符的动态效果 。

(三)游戏领域

  1. 游戏角色动画
    • 在游戏里,每个角色都需要有生动自然的动作表现。Loopy可以为游戏中的角色生成音频驱动的动作和表情,这大大增强了角色互动的自然感和玩家的沉浸感。比如在一款角色扮演游戏中,角色在说话、战斗、行走等不同场景中的动作都可以由Loopy根据相应的音频实时生成。当角色与玩家进行对话时,角色的嘴型、表情能够根据语音内容自然变化,使得玩家感觉游戏角色更加真实,从而提升游戏整体的品质和游戏体验 。

(四)社交和会议领域

  1. 虚拟会议和社交场景
    • 在视频会议或虚拟社交平台上,Loopy可以为用户提供具有真实感的虚拟形象。它会根据用户的音频输入自动生成动作,从而增强互动体验。比如在一场线上会议中,用户可以使用带有Loopy生成动作的虚拟形象代替自己的真实形象,当用户发言时,虚拟形象会根据语音内容做出自然的动作,使会议氛围更加生动,也提升了社交互动中的趣味性和真实感,对于远程交流有着积极的促进作用 。

(五)教育领域

  1. 在线教育平台
    • 在教育方面,Loopy可以为在线教育平台打造虚拟教师形象。将教师的音频讲解与虚拟形象的动作自然同步,有助于提高教学效果。例如,在讲解数学原理时,教师随着讲解节奏充满激情地讲解,Loopy生成的虚拟教师形象就能同步做出相应的手势和表情,吸引学生的注意力,让学生更加专注于教学内容的学习,辅助提升在线教育的教学质量 。