音频到3D：利用解耦的潜在编码和扩散控制实现一次性说话人脸生成

生物通首页 > 今日动态 > 正文

音频到3D：利用解耦的潜在编码和扩散控制实现一次性说话人脸生成

时间：2026年2月24日

来源：Neurocomputing

编辑推荐：

提出基于音频的3D talking face生成框架A-to-3，通过3D面部解耦编码器分离身份、表情、姿态信息，结合音频驱动的超扩散模型实现高质量单图像多视角视频生成，并采用多模态优化策略确保帧间连续性。

张佩旭|杨新宇

西安交通大学计算机科学与技术学院，中国陕西省西安市长安区和迪路，710049

摘要

音频驱动的对话面部生成技术应用广泛，并在过去几年取得了显著进展。然而，现有方法在从单张图像生成新视角视频时，仍难以保持身份的一致性和音频与嘴唇的准确同步。在本文中，我们提出了Audio-to-3（A-to-3）这一新框架，该框架能够根据音频生成3D对话面部。为了提取3D面部特征，我们引入了3D面部解耦编码器（3DE），该编码器能够高效地分离出用于身份、表情和姿态的轻量级编码。此外，我们还提出了音频驱动的超扩散模型（AHDM），这是一种基于扩散的改进模型，旨在在保持身份一致性的同时捕捉真实的3D面部运动。生成的面部编码被解码为三维平面并以高分辨率渲染。我们的方法基于单目视频数据进行训练，支持任意音频输入，从而能够生成高质量、多身份的对话面部视频，并且视角可控。大量实验证明了A-to-3在一次性对话面部生成方面的有效性。

引言

目前，与音频驱动的对话面部生成相关的研究有很多，这些研究应用于多媒体领域的多个方面。特别是从单张图像和音频生成3D头部，可以为数据受限的场景（如直播和视频会议）提供新的交互体验，促进行业发展，并满足对个性化和交互性的日益增长的需求。然而，尽管已经提出了许多生成对话面部的方法，现有方法在稳定性、视角一致性和身份保持方面仍面临许多挑战。

在对话面部生成的基本模型方面，基于GAN的方法[1]、[69]需要同时训练生成器和判别器。这些模型不稳定，容易发生模式崩溃，且只能生成固定低分辨率的图像。基于NeRF的模型[2]、[4]、[5]、[6]、[54]可以生成更真实的高分辨率图像，但限于为每个目标个体训练特定模型。这一限制显著增加了计算和存储资源的消耗，仅适用于针对单一身份的应用。基于高斯散布的方法[62]、[63]、[64]、[65]最近发展迅速，但通常依赖于视频输入进行重建。由于缺乏统一的3D感知先验，它们无法一次性生成新视角的图像，在生成新视角时存在明显缺陷。基于扩散的模型[8]、[9]、[10]可以生成高分辨率图像，同时确保模型的通用性。然而，模型训练需要特征的马尔可夫链扩散，这需要大量的计算资源，并阻碍了高质量图像的高效生成。此外，缺乏专用的面部特征编码器[7]以及特征的庞大规模进一步加剧了模型的计算负担。因此，开发一个稳定、通用且高效的对话面部生成框架至关重要。

在模型功能方面，现有的研究[1]、[7]、[11]基于2D嘴巴图像生成，生成的视频在嘴巴和面部交界处会产生明显的边界。这种头部和嘴巴的明显分离严重影响了真实感。因此，一些基于生成整个面部的工作[61]、[62]提供了更自然的结果。然而，上述基于2D的研究无法生成多视角图像，应用范围有限。一些3D对话面部生成方法[54]在生成新视角时无法有效保持目标人物的身份和结构信息，导致图像模糊、结构丢失和伪影。此外，收集3D面部视频数据比收集单视角视频数据要困难得多。因此，开发一个视角一致且保持身份的一次性3D对话面部框架至关重要。

为了解决上述挑战，我们提出了一个基于扩散的一次性3D感知音频驱动的对话面部合成框架（A-to-3），该框架结合了NeRF和扩散的优势，同时确保了模型生成的质量和模型的通用性。如图1所示，A-to-3可以从音频片段和目标人物的单张图像生成真实的对话面部视频，并能平滑切换视角。具体来说，我们首先提出了一个3D面部解耦编码器（3DE）来解决使用单视图输入时缺失3D信息的问题。3DE具有丰富的3D面部先验，可以从2D图像中获取解耦的3D面部姿态、身份和表情编码。通过解耦，3DE可以减少音频驱动任务中无关信息的干扰，从而确保生成视频的稳定性。其次，我们提出了一个音频驱动的超扩散模型（AHDM），该模型基于扩散模型，在3DE的编码空间中根据输入音频生成表情编码，通过学习音频特征和表情编码之间的联系来实现。此外，我们提出了一种多模态优化策略，利用相邻帧的视觉和音频信息作为生成条件，以确保生成视频的帧间连续性。最后，渲染模块用于组合身份、表情和姿态编码，并将它们渲染成真实的多视角面部视频。大量实验证明了该框架的有效性，主要贡献总结如下：

(1)
我们提出了A-to-3，这是一个从单张图像和音频输入合成生动3D面部的新框架，便于动态控制面部的姿态和渲染图像的视角。
(2)
通过解耦面部特征，我们提出的3D面部编码器3DE消除了音频驱动任务中的姿态干扰，确保了生成视频的帧间连续性。
(3)
我们引入了音频驱动的超扩散模型（AHDM），该模型根据音频输入生成与身份无关的表情编码。这种设计确保了精确的面部运动控制，同时显著提高了模型的泛化能力。

章节片段

音频驱动的对话面部生成

这项任务的目标是使用给定的音频片段和图像或视频片段创建一个动画肖像。通常会使用中间参数，包括关键点和3DMM系数。在这个任务中，模型学习面部特征和音频特征之间的对应关系，并利用这些知识生成由音频驱动的面部视频帧。2D对话面部生成是当前对话面部生成的主流。早期的工作主要基于GAN[1]，但受到限制

方法论

为了解决模型泛化、缺乏解耦的3D先验以及一次性构建对话面部的挑战，我们提出了A-to-3，这是一个基于扩散的一次性3D对话面部生成模型。如图2、图3所示，A-to-3巧妙地结合了3D面部特征解耦编码器（3DE）和音频驱动的超扩散模型（AHDM）的功能，通过神经渲染实现了多视角头部对话视频的合成，具有真实感和保真度。

数据集

我们在广泛使用的HDTF和CelebV-HQ面部视频数据集上进行了实验。HDTF数据集来自YouTube视频，包含超过300个身份的视频，分辨率为720p或1080p。CelebV-HQ是一个高质量的视频数据集，包含至少512p分辨率的35,666个视频片段。我们从HDTF中随机选择了20个视频进行测试，其余的用于训练。我们也在CelebV-HQ中随机选择了20个视频进行测试。我们遵循了面部预处理方法[25]

结论与讨论

在这项工作中，我们提出了A-to-3：一个基于扩散的、一次性的、3D感知的、音频驱动的对话面部合成框架。它创新地将多种功能集成到一个框架中，便于合成音频驱动的3D对话头像。与之前方法中使用的一般图像编码器不同，所提出的面部编码器3DE将3D面部特征从单视图图像中分离出来，实现了忠实的多视图面部图像重建。为了管理面部表情，我们引入了AHDM