Sonic

Sonic 框架概述

  • Sonic 是一款专注于通过音频驱动生成逼真肖像动画的框架,由腾讯和浙江大学联合开发。它利用全局音频感知技术,能够仅依靠音频信号生成高度逼真的面部表情和动作,无需依赖视觉信号,从而显著提升了生成动画的自然性和时间一致性。

Sonic 的主要功能

  • 逼真的唇部同步:Sonic 能够精确地将音频与唇部动作对齐,确保说话内容与嘴型高度一致,使生成的动画在口型上与音频完美匹配。
  • 丰富的表情和头部动作:该框架能够生成多样化且自然的面部表情和头部运动,让动画更具生动性和表现力,从而使得生成的角色更加栩栩如生。
  • 长时间稳定生成:在处理长视频时,Sonic 能够保持稳定的输出,避免抖动和突变,确保整体连贯性,解决了长视频生成中常见的连贯性问题。
  • 用户可调节性:Sonic 支持用户基于参数调整控制头部运动、表情强度和唇部同步效果,提供了高度的可定制性,满足不同用户的需求。

Sonic 的技术原理

  • 上下文增强音频学习:Sonic 提取音频片段内的长期时间音频知识,将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。通过 Whisper-Tiny 模型提取音频特征,并基于多尺度理解将特征与空间交叉注意力层结合,从而指导空间帧的生成。
  • 运动解耦控制器:将头部运动和表情运动解耦,分别用独立的参数控制,增强了动画的多样性和自然性。用户还可以自定义夸张运动,通过调整运动桶参数来控制头部和表情运动的幅度。
  • 时间感知位置偏移融合:基于时间感知的滑动窗口策略,将音频片段的局部感知扩展到全局感知,解决了长视频生成中的抖动和突变问题。在每个时间步中,模型从新的位置开始处理音频片段,逐步融合全局音频信息,确保长视频的连贯性。
  • 全局音频驱动:Sonic 完全依赖音频信号驱动动画生成,避免了传统方法中对视觉信号(如运动帧)的依赖,从而提高了生成的自然性和时间一致性。

Sonic 的应用场景

  • Sonic 在多个领域有着广泛的应用前景,特别是在虚拟主播、动画制作、游戏开发、教育娱乐以及视频会议等领域。它能够帮助用户利用简单的输入(如一张照片和一段音频)快速生成具有自然口型同步和全身动作的虚拟角色,极大地提高了内容创作的效率和质量。

Sonic 的实验结果与生成效果

  • 定量比较:Sonic 在 HDTF 和 CelebV-HQ 数据集上多个评估指标上优于现有的最先进方法,包括 FID、FVD、唇部同步精度和视频流畅度等,表明其生成的视频质量更高,与真实数据的一致性更好。
  • 定性比较:Sonic 能够生成更自然、更多样的面部表情和头部动作,尤其在处理复杂背景和不同风格的肖像时表现出更强的鲁棒性。
  • 与开源及闭源方法对比:Sonic 在生成效果上展现出显著优势,无论是与开源方法还是闭源方法(如 EMO、即梦等)相比,都能生成更符合音频的丰富表情、更自然的头部运动以及更精确的发音。