买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于3DGS的高保真语音驱动数字人合成方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于3DGS的高保真语音驱动数字人合成方法

￥31200

专利号： 2025104579331

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-01-08

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，执行如下步骤S1‑步骤S3，生成通过语音信号驱动的数字人动画：步骤S1：针对数字人进行特征编码和静态高斯参数预测，构建静态数字人模型，对静态数字人模型采用3D Gaussian Splatting软件捕捉并渲染数字人的基础形状和外观，采用反向传播方法训练静态数字人模型，获得训练好的静态数字人模型；

步骤S2：构建并训练语音驱动数字人合成系统，包含可优化全局提示模块、渐进式条件属性预测网络模块和双判别器架构模块；其中可优化全局提示模块生成全局提示，渐进式条件属性预测网络模块以音频信号、表情参数、视角参数，以及全局提示为输入，分阶段预测动态形变，将动态形变与静态数字人模型相结合，获得动态数字人模型，双判别器架构模块判别动态数字人模型与真实动态人脸图像；

具体步骤如下：

步骤S2.1：将音频信号a、经过处理的表情特征e、视角特征v及可优化的全局提示输入渐进式条件属性预测网络模块，分阶段预测动态形变；其中为全局位置偏移量、为尺度变化量、为旋转调整量、为不透明度值变化量、为球谐系数变化量；

步骤S2.2：将动态形变与训练好的静态数字人模型相结合，获得动态高斯参数，

为平均位置、为平均尺度、为平均旋转、为平均球谐系数，为平均不透明度值；动态高斯参数构成动态数字人模型；

步骤S2.3：利用3D Gaussian Splatting软件，基于动态高斯参数渲染生成合成动态人脸图像序列；

步骤S2.4：将合成动态人脸图像序列和真实动态人脸图像序列分别输入双判别器架构模块，双判别器架构模块包括空间判别器和时间判别器，获得空间判别器和时间判别器输出的判别结果；

步骤S2.5：基于判别结果以及合成动态人脸图像序列与真实动态人脸图像序列之间的动态损失函数，反向传播优化训练渐进式条件属性预测网络模块、可优化全局提示模块和双判别器架构模块，获得训练好的语音驱动数字人合成系统；

步骤S3：将语音信号输入到训练好的语音驱动数字人合成系统中，输出语音驱动的数字人动画，完成数字人动画的合成。

2.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，步骤S1的具体步骤如下：步骤S1.1：将数字人空间位置输入多分辨率三平面进行编码，获得特征向量，其中所述多分辨率三平面由三个正交的2D特征网格构成，每个2D特征网格的形状为，H表示特征隐藏维度，R表示维度分辨率；

步骤S1.2：将特征向量输入静态网络，所述静态网络基于多层感知器构建，将特征向量映射为静态高斯参数，包含平均位置、平均尺度、平均旋转、平均球谐系数和平均不透明度值，静态高斯参数构成静态数字人模型；

步骤S1.3：利用3D Gaussian Splatting渲染软件，基于静态高斯参数，对静态数字人模型进行渲染，生成合成静态人脸图像；

步骤S1.4：将合成静态人脸图像与真实静态人脸图像输入空间判别器，获得空间判别器输出的判别结果；

步骤S1.5：基于判别结果以及合成静态人脸图像与真实静态人脸图像之间的静态损失函数，反向传播优化训练静态数字人模型，获得训练好的静态数字人模型。

3.根据权利要求2所述的一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，步骤S1.5中所述静态损失函数包括片段重要性均衡损失函数、结构相似性D‑SSIM损失函数、感知相似性LPIPS损失函数以及对抗损失函数，其中：片段重要性均衡损失函数的计算公式如下：；

其中，表示像素数量，表示合成静态人脸图像中第i个像素的值，表示真实人脸图像中第i个像素的值；

结构相似性D‑SSIM损失函数的计算公式如下：；

其中，表示可微分结构相似性D‑SSIM函数；

感知相似性LPIPS损失函数的计算公式如下：；

其中，表示网络层数，表示预训练Alex‑Net网络的第j层的特征提取操作，和分别表示第j层特征图的高度和宽度，表示特征图中的像素位置；

对抗损失函数的计算公式如下：

；

其中，是空间判别器对于合成静态人脸图像的判别结果，是空间判别器对于真实静态人脸图像的判别结果，是真实静态人脸图像的标签，是合成静态人脸图像的标签，BCE表示二元交叉熵损失函数，MSE表示均方误差损失函数；

静态损失函数的计算公式如下：

；

其中，、、和分别表示各项损失函数的权重系数。

4.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，步骤S2.1的具体步骤如下：步骤S2.1.1：预测动态数字人模型的全局位置偏移量；

步骤S2.1.2：在全局位置偏移量的基础上，预测动态数字人模型的尺度变化量和旋转调整量，精细化面部几何形状；

步骤S2.1.3：在面部几何形状的基础上，预测动态数字人模型的不透明度变化量；

步骤S2.1.4：在不透明度变化量的基础上，预测动态数字人模型的球谐系数变化量。

5.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，步骤S2.4中空间判别器的判别包括如下步骤：步骤S2.4.1.1：通过卷积神经网络提取输入的图像的不同尺度的特征，获得多尺度特征；其中是原始分辨率图像经过卷积神经网络后得到的特征图，是原始图像经过1/2下采样后，再经过卷积神经网络后得到的特征图，是原始图像经过1/

4下采样后，再经过卷积神经网络后得到的特征图；

步骤S2.4.1.2：将多尺度特征输入到多层感知机，获得空间判别器输出的判别结果。

6.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，步骤S2.4中时间判别器的判别包括如下步骤：步骤S2.4.2.1：对输入的合成动态人脸图像序列进行2D傅里叶变换，提取频率域特征，随后将原始帧与其频率域特征进行拼接，获得拼接特征；

步骤S2.4.2.2：对拼接特征应用三维卷积用以捕获时序关联特征，利用局部注意力模块对获得的时序关联特征进行提纯；

步骤S2.4.2.3：采用二维卷积与多层感知器相结合的方式，生成相应的评分。

7.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法，其特征在于，步骤S2.5中所述动态损失函数包括静态损失函数、时序对抗损失函数以及时间一致性损失函数，其中：静态损失函数的计算公式与步骤S1.5中的静态损失函数计算公式一致；

时序对抗损失函数的计算公式与步骤S1.5中的对抗损失函数计算公式一致；

时间一致性损失函数的计算公式如下：

；

其中，T表示图像序列的帧数，和分别表示合成动态人脸图像序列中第t帧和第t+1帧的图像，和分别表示真实动态人脸图像序列中第t帧和第t+1帧的图像；

动态损失函数的计算公式如下：

；