EMO – 阿里推出的AI肖像视频生成框架

一、EMO项目概述

EMO(EmotePortraitAlive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。该系统能够捕捉到人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。

二、EMO的功能特点

多方面的卓越功能特性

  1. 音频驱动视频生成
    • EMO能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。这意味着用户只需提供一张静态图片和对应的音频文件,就能创造出说话或唱歌的动态视频 。
    • 这种音频驱动的方式,使得视频创作更加灵活。例如,用户可以让自己珍藏的历史人物照片“开口说话”,或者将喜欢的动漫角色与特定的语音或歌曲相结合创造出独特的视频内容。
  2. 高表现力和逼真度
    • EMO生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,还能生成与音频节奏相匹配的头部运动。例如,在生成唱歌视频时,人物的嘴型、面部表情以及头部的晃动都能够非常自然地与歌曲的节奏、歌词和情感相呼应。
    • 以一些实验结果为例,当输入一段快节奏的说唱音乐,视频中的人物能够精准地模拟出说唱的韵律感,表情和动作的转换非常流畅,就像真人在演唱一样逼真。
  3. 身份保持
    • 通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。不管角色的面部表情和头部动作如何变化,在整个视频中角色的外貌特征(如五官、发型等)始终保持与原始图像一致。
    • 比如将一幅名画中的人物转化为动态视频时,生成的动态角色完全保留了原画人物的外貌,不会出现特征变化或失真的情况。
  4. 稳定的控制机制
    • EMO采用了速度控制器和面部区域控制器等稳定控制机制,从而增强视频生成过程中的稳定性,避免视频崩溃等问题。在处理复杂的音频和图像信息时,这套机制能够确保各元素之间的协调和稳定。
    • 例如在处理较长的音频文件生成视频时,能够稳定地生成整个视频,不会因为数据处理的复杂性而中途出错或出现画面不协调的情况。
  5. 灵活的视频时长
    • EMO可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。不管是几秒钟的简短语音,还是数分钟的歌曲或演讲,都能够生成与之相匹配时长的视频。
    • 创作过程中如果想要表达一个简短的对话,只需提供简短的音频,EMO就能生成相应时长视频;如果是制作一个完整的歌曲演唱视频,长音频也能生成较长而完整的视频作品。
  6. 表情丰富的动态渲染与多头部姿势支持
    • EMO特别强调在视频中生成自然而富有表情的面部动作,能够捕捉到音频中情感的细微差别,并将其反映在人像的表情上,从而生成看起来自然、生动的面部动画。
    • 除了面部表情外,还能够根据音频生成多样的头部姿势变化,增加了视频的动态性和真实感。例如在一段激情的演讲音频输入下,人物不仅面部会有慷慨激昂的表情,头部也会有相应的晃动、点头等自然动作。
  7. 支持多种语言和肖像风格
    • 该技术不限于特定语言或音乐风格,能够处理多种语言的音频输入,并且支持多样化的肖像风格,包括历史人物、绘画作品、3D模型和AI生成内容等。比如可以使用不同国家语言的音频让蒙娜丽莎画像“开口说话”,或者将3D游戏角色特色的声音与动作结合起来。
  8. 跨演员表现转换
    • EMO能够实现不同演员之间的表现转换,使得一位演员的虚拟形象能够模仿另一位演员或声音的特定表演,拓展了角色描绘的多样性和应用场景。例如可以让小李子的形象来模仿埃米纳姆(Eminem)说唱时的表演风格。

三、EMO的用户评价

用户反馈呈现出的高度认可

  1. 技术创新性评价
    • 在众多的用户评价中,多数都对EMO的技术创新性给予了高度肯定。许多用户认为EMO将静态照片与声音结合,创造出仿佛真实说话或唱歌的动态视频这一能力是非常了不起的创新。例如有用户评论说,这些视频中的人物对话和歌唱场景显得无比真实和生动,就像魔法一样让照片“活”了起来 。
  2. 效果逼真性评价
    • 对于生成视频的逼真效果,用户也表示印象深刻。视频中的表情、唇形同步以及头部动作和音频能够完美协调,让人难以分辨出是人工合成而非真人表演。尤其是在高表现力和真实感方面显著优于当前的一些类似技术(例如在与其他音频 – 视频合成技术对比时)。日本博主KAJI称赞当上传静态图片和声音源时,它就能唱歌和说话,表现力很强。英文博主Minchoi认为这个能让单个图像唱歌、说话,还能用任何音频文件进行说唱的人工智能,表现力极强。
  3. 创作自由度评价
    • 用户很赞赏EMO在创作上的高度灵活性,包括支持多种语言和不同肖像风格。这使得无论是艺术创作、娱乐玩梗,还是教育、文化传播等领域的用户都能够从中找到应用的潜力。例如一些从事历史文化传播的用户可以用它来让历史人物的照片讲述历史故事,而且不用担心语言障碍的问题;创意视频创作者则可以利用不同风格的图像(如绘画、3D模型等)和各种音频自由组合,创造无限可能的视频内容 。然而也有用户指出网页为全英文,对于英语不好的用户可能会有些不便,但也有用户表示这在一定程度上可以借助网页翻译工具解决 。

四、EMO的使用教程

从输入到生成视频的详细流程

  1. 输入准备
    • 用户需要提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础 。例如想要制作一个名人讲话视频,就准备好该名人的高清图片以及对应的讲话音频文件。对于图像的选择尽量选择清晰、正面、完整的图像以便于更好地识别和生成高质量的视频。音频格式也需要注意是否为系统兼容的格式(一般常见格式都能支持,但如果有特殊格式可能需要转换)。
  2. 特征提取
    • 使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(BackboneNetwork)结构相似的网络,它专注于从输入图像中提取详细的特征 。这一步骤是对输入图像深入分析的关键步骤,它将图像里人物的 facial features(面部特征)等信息进行解构和标准化处理,以便后续生成动态视频时准确地还原人物特征并且匹配音频。
  3. 音频处理
    • 音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作 。这个过程就像是将音频里隐藏的对于表情和动作的“指令”进行解码,比如高音、加速的节奏可能会对应人物表情的兴奋状态,而低音、缓慢的节奏可能对应沉稳的表情等,音频编码器能敏锐地识别出这些元素并转化为对应的控制信号。
  4. 扩散过程
    • 在扩散过程中,主网络接收多帧噪声作为输入,并尝试在每个时间步骤中将这些噪声去噪成连续的视频帧。这个过程涉及到两个主要的注意力机制:Reference – Attention和Audio – Attention。Reference – Attention用于保持角色身份的一致性,而Audio – Attention则用于调制角色的动作 。比如说在生成每一个视频帧时,要确保人物的外貌特征不发生偏差(通过Reference – Attention)同时人物的表情、动作要根据音频实时调整(通过Audio – Attention)。
  5. 时间模块操作
    • 为了处理时间维度并调整动作的速度,EMO使用了时间模块。这些模块通过自注意力机制在帧内的特征上操作,以捕捉视频的动态内容,并确保连续帧之间的连贯性和一致性 。当音频有比较复杂的节奏变化或者持续较长时,时间模块像一个调度器一样合理调整视频中人物动作的速度,使整个视频看起来自然流畅,避免动作过快或者过慢导致失真。
  6. 面部定位和速度控制
    • 为了确保生成的角色动作的稳定性和可控性,EMO使用了面部定位器(FaceLocator)和速度层(SpeedLayers)。面部定位器通过轻量级卷积层编码面部边界框区域,而速度层则通过将头部旋转速度嵌入到生成过程中来控制动作的速度和频率 。比如在生成人物快速转头动作时,速度层会限制在合理的速度范围内,面部定位器则确保面部在转动时其结构和基本的外貌特征不发生扭曲。
  7. 生成视频
    • 在推理阶段,EMO使用DDIM采样算法生成视频片段。通过迭代去噪过程,最终生成与输入音频同步的肖像视频 。在整个生成过程中由前面的各个步骤拆解再整合,从微观的特征提取、音频分析到宏观的保持一致性、控制动作等多个维度的协作最终形成一个自然、生动、与音频契合的肖像视频。

五、EMO与类似网站的比较

面对竞品的独特优势

  1. 相较于DID、Heygen、奇妙元等同类产品
    • 在功能的集成度和效果上,EMO展现出更强大的技术实力。EMO具有更高度的表现力和逼真度,它不仅能够生成与音频高度匹配的视频,而且在面部表情细节处理上(如微妙的微表情等方面)表现更为出色。像DID等产品虽然也能实现从音频到视频的创作,但在面部细腻表现上可能较EMO稍逊一筹。
    • 在稳定性方面,EMO采用了专门的稳定控制机制,如速度控制器和面部区域控制器等,可以避免视频崩溃、保证动作和表情的稳定性。而其他一些产品可能在处理一些复杂场景(如长音频、快速节奏音频等)时容易出现卡顿或不协调的情况。
    • EMO在对输入内容的多样性支持上也有优势。它支持多种语言和各种肖像风格,包括历史人物、绘画作品、3D模型和AI生成内容等。对于某些竞品来说,可能在支持的风格种类或者多种语言处理能力上存在局限性。虽然这些类似产品在市场上也有各自的用户群体和应用场景,但EMO在技术的先进性方面更为突出 。
  2. 与基于3D模型等传统的视频生成方式对比
    • 传统的基于3D模型的视频生成方式往往流程复杂,需要先构建或依赖现有的3D模型,而EMO无需依赖于预先录制的视频片段或3D面部模型就可以直接根据输入音频生成视频,大大简化了创作流程。这使得没有3D建模基础或者想要快速创作的用户能够更便捷地得到想要的视频结果。
    • 在生成结果上,传统3D模型生成的视频在面部表情的逼真度、尤其是与音频精确匹配方面可能存在不足。而EMO通过其先进的音频和图像分析技术以及相关的注意力机制等,能够更好地实现面部表情和头部动作与音频的高度同步,提供更自然生动的视频内容。并且使用3D模型可能存在模型构建时的风格限制,不像EMO能够适应各类风格(如历史、绘画等)的输入图像。