FastTalker:基于3D高斯泼溅的实时音频驱动动态人脸生成技术

时间:2025年5月27日
来源:Image and Vision Computing

编辑推荐:

针对现有3D动态肖像生成方法存在渲染效率低、细节还原不足等问题,中国科学院研究人员提出FastTalker框架,创新性地结合3D高斯泼溅(3DGS)与动态神经蒙皮(DNS)技术,通过自适应FLAME网格采样和音频-动作预对齐驱动,实现超100 FPS的高保真说话人脸生成,为虚拟现实等领域提供高效解决方案。

广告
   X   

论文解读

在数字人技术蓬勃发展的今天,如何让虚拟形象实现与人类语音完美同步的逼真表情,一直是计算机视觉领域的核心挑战。传统方法如基于神经辐射场(NeRF)的方案虽能呈现细腻的面部细节,却因密集采样导致渲染速度仅25 FPS;而点云变形技术虽提速明显,又难以处理头发等非刚性区域。更棘手的是,现有技术常将音频信号直接输入网络,导致动作与语音脱节,产生"橡皮脸"效应。

针对这些瓶颈,中国科学院团队在《Image and Vision Computing》发表的研究中,提出了革命性的FastTalker框架。该研究巧妙融合3D高斯泼溅(3D Gaussian Splatting, 3DGS)的显式表达优势与FLAME人脸模型的解剖学先验,通过三阶段创新设计:首先利用自适应FLAME网格采样初始化语义高斯函数(DSG),再通过动态神经蒙皮网络(Dynamic Neural Skinning, DNS)建模表情变化,最后采用预训练的Audio Motion Net将音频信号转化为FLAME表情系数。这种"几何先导-神经调控-信号对齐"的技术路线,既保留了3DGS的毫秒级渲染特性,又解决了动态场景建模的难题。

关键技术包括:1)基于FLAME语义区域的3DGS初始化方法,通过可学习标签增强高斯基元;2)动态神经蒙皮网络(DNS)采用注意力权重混合机制,分别处理音频和头部姿态对表情的影响;3)两阶段音频驱动方案,引入时序连续性损失函数确保动作自然流畅。实验数据来自AD-NeRF等公开数据集,包含512×512分辨率的人脸视频片段。

研究结果

  1. 实时渲染突破:在相同硬件条件下,FastTalker达到100+ FPS的渲染速度,较NeRF方案提升4倍,且嘴唇同步误差降低23%。
  2. 细节还原优势:通过语义高斯函数(DSG)的形变特性,在牙齿、发丝等细节区域PSNR指标超越PointAvatar 2.7 dB。
  3. 运动控制精度:预对齐驱动方案使元音发音时的嘴角开合度误差控制在0.8mm内,显著优于直接音频输入的基线模型。

结论与意义
该研究首次将3DGS成功应用于动态人脸生成,其创新的神经蒙皮机制突破了传统线性混合蒙皮(LBS)的刚性约束。值得关注的是,方法在保持3DGS原生效率优势的同时,通过FLAME系数中介实现了音频与动作的精准映射,这为多模态驱动数字人开辟了新路径。尽管在极端头部转动时仍存在模糊现象,但其"效率-质量-可控性"的三角平衡,已使其成为实时数字人生成的新标杆。正如作者Keliang Chen指出,这项技术有望重塑虚拟直播、远程教育的交互体验,其开源代码将加速相关产业的迭代升级。

生物通微信公众号
微信
新浪微博


生物通 版权所有