目前,与音频驱动的对话面部生成相关的研究有很多,这些研究应用于多媒体领域的多个方面。特别是从单张图像和音频生成3D头部,可以为数据受限的场景(如直播和视频会议)提供新的交互体验,促进行业发展,并满足对个性化和交互性的日益增长的需求。然而,尽管已经提出了许多生成对话面部的方法,现有方法在稳定性、视角一致性和身份保持方面仍面临许多挑战。
在对话面部生成的基本模型方面,基于GAN的方法[1]、[69]需要同时训练生成器和判别器。这些模型不稳定,容易发生模式崩溃,且只能生成固定低分辨率的图像。基于NeRF的模型[2]、[4]、[5]、[6]、[54]可以生成更真实的高分辨率图像,但限于为每个目标个体训练特定模型。这一限制显著增加了计算和存储资源的消耗,仅适用于针对单一身份的应用。基于高斯散布的方法[62]、[63]、[64]、[65]最近发展迅速,但通常依赖于视频输入进行重建。由于缺乏统一的3D感知先验,它们无法一次性生成新视角的图像,在生成新视角时存在明显缺陷。基于扩散的模型[8]、[9]、[10]可以生成高分辨率图像,同时确保模型的通用性。然而,模型训练需要特征的马尔可夫链扩散,这需要大量的计算资源,并阻碍了高质量图像的高效生成。此外,缺乏专用的面部特征编码器[7]以及特征的庞大规模进一步加剧了模型的计算负担。因此,开发一个稳定、通用且高效的对话面部生成框架至关重要。
在模型功能方面,现有的研究[1]、[7]、[11]基于2D嘴巴图像生成,生成的视频在嘴巴和面部交界处会产生明显的边界。这种头部和嘴巴的明显分离严重影响了真实感。因此,一些基于生成整个面部的工作[61]、[62]提供了更自然的结果。然而,上述基于2D的研究无法生成多视角图像,应用范围有限。一些3D对话面部生成方法[54]在生成新视角时无法有效保持目标人物的身份和结构信息,导致图像模糊、结构丢失和伪影。此外,收集3D面部视频数据比收集单视角视频数据要困难得多。因此,开发一个视角一致且保持身份的一次性3D对话面部框架至关重要。
为了解决上述挑战,我们提出了一个基于扩散的一次性3D感知音频驱动的对话面部合成框架(A-to-3),该框架结合了NeRF和扩散的优势,同时确保了模型生成的质量和模型的通用性。如图1所示,A-to-3可以从音频片段和目标人物的单张图像生成真实的对话面部视频,并能平滑切换视角。具体来说,我们首先提出了一个3D面部解耦编码器(3DE)来解决使用单视图输入时缺失3D信息的问题。3DE具有丰富的3D面部先验,可以从2D图像中获取解耦的3D面部姿态、身份和表情编码。通过解耦,3DE可以减少音频驱动任务中无关信息的干扰,从而确保生成视频的稳定性。其次,我们提出了一个音频驱动的超扩散模型(AHDM),该模型基于扩散模型,在3DE的编码空间中根据输入音频生成表情编码,通过学习音频特征和表情编码之间的联系来实现。此外,我们提出了一种多模态优化策略,利用相邻帧的视觉和音频信息作为生成条件,以确保生成视频的帧间连续性。最后,渲染模块用于组合身份、表情和姿态编码,并将它们渲染成真实的多视角面部视频。大量实验证明了该框架的有效性,主要贡献总结如下:
- (1)
我们提出了A-to-3,这是一个从单张图像和音频输入合成生动3D面部的新框架,便于动态控制面部的姿态和渲染图像的视角。
- (2)
通过解耦面部特征,我们提出的3D面部编码器3DE消除了音频驱动任务中的姿态干扰,确保了生成视频的帧间连续性。
- (3)
我们引入了音频驱动的超扩散模型(AHDM),该模型根据音频输入生成与身份无关的表情编码。这种设计确保了精确的面部运动控制,同时显著提高了模型的泛化能力。