1.一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,执行如下步骤S1‑步骤S3,生成通过语音信号驱动的数字人动画:步骤S1:针对数字人进行特征编码和静态高斯参数预测,构建静态数字人模型,对静态数字人模型采用3D Gaussian Splatting软件捕捉并渲染数字人的基础形状和外观,采用反向传播方法训练静态数字人模型,获得训练好的静态数字人模型;
步骤S2:构建并训练语音驱动数字人合成系统,包含可优化全局提示模块、渐进式条件属性预测网络模块和双判别器架构模块;其中可优化全局提示模块生成全局提示,渐进式条件属性预测网络模块以音频信号、表情参数、视角参数,以及全局提示为输入,分阶段预测动态形变,将动态形变与静态数字人模型相结合,获得动态数字人模型,双判别器架构模块判别动态数字人模型与真实动态人脸图像;
具体步骤如下:
步骤S2.1:将音频信号a、经过处理的表情特征e、视角特征v及可优化的全局提示输入渐进式条件属性预测网络模块,分阶段预测动态形变 ;其中为全局位置偏移量、 为尺度变化量、 为旋转调整量、 为不透明度值变化量、 为球谐系数变化量;
步骤S2.2:将动态形变 与训练好的静态数字人模型 相结合,获得动态高斯参数 ,
为平均位置、为平均尺度、为平均旋转、 为平均球谐系数, 为平均不透明度值;动态高斯参数 构成动态数字人模型;
步骤S2.3:利用3D Gaussian Splatting软件,基于动态高斯参数 渲染生成合成动态人脸图像序列 ;
步骤S2.4:将合成动态人脸图像序列 和真实动态人脸图像序列 分别输入双判别器架构模块,双判别器架构模块包括空间判别器 和时间判别器 ,获得空间判别器和时间判别器输出的判别结果;
步骤S2.5:基于判别结果以及合成动态人脸图像序列 与真实动态人脸图像序列之间的动态损失函数 ,反向传播优化训练渐进式条件属性预测网络模块、可优化全局提示模块和双判别器架构模块,获得训练好的语音驱动数字人合成系统;
步骤S3:将语音信号输入到训练好的语音驱动数字人合成系统中,输出语音驱动的数字人动画,完成数字人动画的合成。
2.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S1的具体步骤如下:步骤S1.1:将数字人空间位置 输入多分辨率三平面 进行编码,获得特征向量 ,其中所述多分辨率三平面由三个正交的2D特征网格 构成,每个2D特征网格的形状为 ,H表示特征隐藏维度,R表示维度分辨率;
步骤S1.2:将特征向量 输入静态网络 ,所述静态网络 基于多层感知器构建,将特征向量 映射为静态高斯参数 ,包含平均位置 、平均尺度 、平均旋转 、平均球谐系数 和平均不透明度值 ,静态高斯参数构成静态数字人模型 ;
步骤S1.3:利用3D Gaussian Splatting渲染软件,基于静态高斯参数,对静态数字人模型 进行渲染,生成合成静态人脸图像 ;
步骤S1.4:将合成静态人脸图像 与真实静态人脸图像 输入空间判别器,获得空间判别器输出的判别结果;
步骤S1.5:基于判别结果以及合成静态人脸图像 与真实静态人脸图像 之间的静态损失函数 ,反向传播优化训练静态数字人模型,获得训练好的静态数字人模型。
3.根据权利要求2所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S1.5中所述静态损失函数 包括片段重要性均衡损失函数 、结构相似性D‑SSIM损失函数 、感知相似性LPIPS损失函数 以及对抗损失函数 ,其中:片段重要性均衡损失函数 的计算公式如下:;
其中, 表示像素数量, 表示合成静态人脸图像 中第i个像素的值,表示真实人脸图像 中第i个像素的值;
结构相似性D‑SSIM损失函数 的计算公式如下:;
其中, 表示可微分结构相似性D‑SSIM函数;
感知相似性LPIPS损失函数 的计算公式如下:;
其中, 表示网络层数, 表示预训练Alex‑Net网络的第j层的特征提取操作,和 分别表示第j层特征图的高度和宽度, 表示特征图中的像素位置;
对抗损失函数 的计算公式如下:
;
;
;
其中, 是空间判别器 对于合成静态人脸图像 的判别结果,是空间判别器 对于真实静态人脸图像 的判别结果, 是真实静态人脸图像 的标签, 是合成静态人脸图像 的标签,BCE表示二元交叉熵损失函数,MSE表示均方误差损失函数;
静态损失函数 的计算公式如下:
;
其中, 、 、 和 分别表示各项损失函数的权重系数。
4.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S2.1的具体步骤如下:步骤S2.1.1:预测动态数字人模型的全局位置偏移量 ;
步骤S2.1.2:在全局位置偏移量 的基础上,预测动态数字人模型的尺度变化量 和旋转调整量 ,精细化面部几何形状;
步骤S2.1.3:在面部几何形状的基础上,预测动态数字人模型的不透明度变化量 ;
步骤S2.1.4:在不透明度变化量 的基础上,预测动态数字人模型的球谐系数变化量。
5.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S2.4中空间判别器 的判别包括如下步骤:步骤S2.4.1.1:通过卷积神经网络提取输入的图像的不同尺度的特征,获得多尺度特征 ;其中 是原始分辨率图像经过卷积神经网络后得到的特征图, 是原始图像经过1/2下采样后,再经过卷积神经网络后得到的特征图, 是原始图像经过1/
4下采样后,再经过卷积神经网络后得到的特征图;
步骤S2.4.1.2:将多尺度特征 输入到多层感知机,获得空间判别器输出的判别结果。
6.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S2.4中时间判别器 的判别包括如下步骤:步骤S2.4.2.1:对输入的合成动态人脸图像序列进行2D傅里叶变换,提取频率域特征,随后将原始帧与其频率域特征 进行拼接,获得拼接特征 ;
步骤S2.4.2.2:对拼接特征 应用三维卷积用以捕获时序关联特征,利用局部注意力模块对获得的时序关联特征进行提纯;
步骤S2.4.2.3:采用二维卷积与多层感知器相结合的方式,生成相应的评分。
7.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S2.5中所述动态损失函数 包括静态损失函数 、时序对抗损失函数以及时间一致性损失函数 ,其中:静态损失函数 的计算公式与步骤S1.5中的静态损失函数 计算公式一致;
时序对抗损失函数 的计算公式与步骤S1.5中的对抗损失函数 计算公式一致;
时间一致性损失函数 的计算公式如下:
;
其中,T表示图像序列的帧数, 和 分别表示合成动态人脸图像序列中第t帧和第t+1帧的图像, 和 分别表示真实动态人脸图像序列中第t帧和第t+1帧的图像;
动态损失函数 的计算公式如下:
;
其中, 和 分别表示时序对抗损失函数、时间一致性损失函数的权重系数。
8.根据权利要求1所述的一种基于3DGS的高保真语音驱动数字人合成方法,其特征在于,步骤S3的具体步骤如下:步骤S3.1:将语音信号、表情参数和视角参数以及可优化全局提示模块生成的全局提示 输入到渐进式条件属性预测网络模块中,预测动态形变 ;
步骤S3.2:将动态形变 与静态数字人模型 相结合,获得动态高斯参数 ;
步骤S3.3:利用3D Gaussian Splatting软件,基于动态高斯参数 实时生成语音驱动的数字人动画。