JoyHallo – 京东推出的音频驱动视频生成AI数字人模型

JoyHallo

一个功能强大的数字人模型，专注于普通话和英语的音频驱动视频生成。它通过优化模型结构和数据集支持，实现了高效的跨语言生成能力，并在推理速度和准确性上表现出色

一、简介

JoyHallo是京东团队于2024年开源的一款数字人模型项目。它主要聚焦于利用图片生成数字人的相关功能。

82a5c082ef60d5107e97ecda9324c311

二、功能特点：对口型效果逼真及多种特性

优秀的语言适配
- 在音频驱动的视频生成领域，创建汉语普通话的视频面临着诸多挑战，例如收集全面的普通话数据集比较困难，而且普通话中复杂的唇部运动相比于英语也让模型训练更加复杂。JoyHallo为适应普通话的数字人创建，从京东健康国际有限公司员工那里收集了29小时的普通话语音视频，组成jdh – Hallo数据集。这个数据集涵盖多样的年龄和说话风格，包含对话和专业的医学话题等内容。并且采用中国wav2vec2模型来进行音频特征嵌入，从而可以较好地处理普通话的数字人视频制作，同时该模型也保持着生成英语视频的能力，展示出优秀的跨语言生成能力。
- 它采用半解耦结构，这种结构能捕捉唇、表情和姿势特征之间的相互关系。这样做不仅提升了信息利用效率，还让推理速度加快了14.3%，有助于快速高效地生成数字人视频。
对口型效果逼真
- 这是JoyHallo较为突出的一个功能，能够让数字人在视频中的口型与给定的音频高度匹配。无论是对于视频创作，还是一些需要数字人说话的场景，如虚拟主播等，这样逼真的对口型效果都能极大地提升数字人的真实性和生动感，增强用户体验。
硬件需求与性能方面
- JoyHallo运行需要显卡16G以上，但目前存在速度较慢的情况。尽管速度慢可能会在一定程度上限制其在一些对效率要求极高的应用场景中的使用，但随着技术发展和硬件性能不断提升，这个问题可能会逐步改善。

三、使用场景：多领域数字人视频制作

影视与动画制作
- 在影视和动画领域，JoyHallo可以为制作特效场景提供支持。例如在制作外星生物、奇幻角色等通过正常演员难以实现的人物对话场景时，可以运用JoyHallo根据特定的音频来生成数字人的说话视频。动画工作室在资源有限，无法雇佣大量声优来为众多角色配音对口型的时候，可借助JoyHallo的对口型功能来使动画角色的说话效果更加逼真。
- 对于一些独立电影制作人或者动画爱好者，JoyHallo可以成为一个低成本制作具有高质量数字角色的工具。比如制作一部小成本动画电影，如果按照传统的制作流程，为角色配音和对口型是一项非常耗时耗力的工作，而JoyHallo能够显著提升这部分工作的效率。
虚拟主播与数字代言人
- 在直播和广告营销领域，JoyHallo可用于创建虚拟主播或者数字代言人。现在很多电商直播需要全天无休的主播，如果单纯依靠人力难以实现，利用JoyHallo制作的数字主播可以根据产品介绍脚本自动生成口型准确、表情自然的直播视频。一些品牌在制作广告宣传视频的时候，数字代言人可以通过JoyHallo达到非常逼真的宣传效果，例如像真人一样介绍产品的特性、功效等。
教育领域辅助教学
- 在教育领域，随着线上教育迅速发展，教学内容的多元化呈现变得很重要。JoyHallo可以用来创建数字人教师，为课程增添生动性。例如在语言学习课程中，数字人教师可以根据不同的语法和单词发音内容准确对口型，有助于学生更好地学习发音。在一些远程教育场景下，还可以利用JoyHallo制作不同地域口音或者不同语言的数字人教师，满足不同学生群体的需求。

四、与类似工具的比较：各有优势的数字人工具

与商业数字人工具对比
- 一些商业数字人工具如HeyGen等，HeyGen具有丰富的模板、功能多样化，并且用户体验相对良好。而JoyHallo是开源的，开源的优势在于对于开发者而言具备可定制性，可以根据自己的需求进行个性化的修改和功能拓展；对于一些预算有限的用户或者研究团队来说，没有使用商业工具时需缴纳的版权费等额外开销。然而HeyGen可能在易用性、交互性方面由于商业团队的优化做得更加出色，JoyHallo目前还存在例如速度慢等问题需要改进。
和其他开源数字人工具区别
- 像腾讯开源的一些项目（如MuseV等），MuseV支持高质量视频、口型同步及无限长度视频生成，兼容多种生成方式和稳定扩散生态系统并发布实时口型同步模型MuseTalk。JoyHallo的优势在于把重点聚焦在对口型效果逼真上并且在汉语普通话场景下有独特的数据集和处理方式。但相比之下，MuseV在视频长度和对生成方式兼容性等方面可能更具优势。

五、用户评价：目前以正面评价为主的新兴工具

对口型效果受肯定
- 目前的用户反馈信息显示，用户大多对JoyHallo的对口型效果给予肯定的态度。在创建数字人说话视频方面，能够达到逼真的口型效果是数字人视频看起来自然真实的重要因素，这种良好的对口型效果能够满足很多用户在视频创作中的需求，无论是简单的视频小制作还是较为复杂的影视动画创作。
开源优势受关注
- 作为一款开源软件，受到很多开发者和研究团队的关注。在人工智能领域，开源软件能够让大家共同参与探讨、改进，有助于推动整个数字人技术领域的发展。虽然目前存在速度较慢等不足之处，不过很多用户依然看好它未来的发展潜力，希望通过社区开发和优化能够解决这些存在的问题。