买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于语音驱动的数字人构建方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于语音驱动的数字人构建方法

￥20200

专利号： 2024110230677

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-19

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于语音驱动的数字人构建方法，其特征在于，包括如下步骤：步骤1：获取中文唇语视频数据集，并进行预处理，得到预处理后的中文唇语视频数据集；

步骤2：构建生成器，由wav2lip音频编码器、wav2lip人脸编码器、wav2lip人脸解码器三个模块构成；对wav2lip音频编码器改进，利用深度可分离卷积和时频分解机制优化音频编码器，用于获取音频特征；

所述wav2lip音频编码器使用深度可分离卷积替换现有标准卷积，并在第9个卷积和第

12个卷积层后添加时频分解模块；

所述时频分解模块由时间维度卷积、频率维度卷积和特征融合模块组成；所述时间维度卷积由1维卷积构成，处理音频频谱图的时间维度，以捕捉音频信号时间序列的动态变化；所述频率维度卷积由2维卷积组成，处理音频频谱图的频率维度，以捕捉音频信号的频率分量关系；所述特征融合模块将时间维度和频率维度的特征相加融合；

步骤3：对wav2lip人脸编码器添加特征金字塔FPN，用于获取唇形特征；

所述wav2lip人脸编码器模块使用深度可分离卷积替换现有标准卷积，并在第9个卷积层和第15个卷积层后添加特征金字塔层；

所述特征金字塔层由底层特征提取网络ResNet、多尺度特征融合模块以及上采样模块构成；

步骤4：对wav2lip人脸解码器采用多尺度生成策略提高人脸解码器输出图像的清晰度和细节表现，用于将输入的音频信号和提取的面部特征，包括面部身份和姿势信息结合起来，生成准确匹配输入音频的唇部动作；

步骤5：构建wav2lip音唇同步判别器，判断生成的视频帧中的唇部动作是否与输入的音频信号同步；

步骤6：构建wav2lip视觉质量判别器，评估生成的视频帧的整体视觉质量，包括清晰度、颜色保真度以及是否存在视觉伪影，确保生成的结果既真实又高质量；

步骤7：将预处理后的中文唇语视频数据集输入wav2lip网络中进行训练。

2.根据权利要求1所述的基于语音驱动的数字人构建方法，其特征在于，所述步骤1的具体方法为：步骤1.1：获取中文唇语视频数据集，将每一段视频与音频分离，分别保存到两个文件夹；

步骤1.2：将视频切分为帧，并将每一帧保存为一张图片；

步骤1.3：使用Dlib检测视频帧中的面部，并对其进行裁剪和对齐；

步骤1.3：将数据分割为训练集、验证集和测试集。

3.根据权利要求1所述的基于语音驱动的数字人构建方法，其特征在于，所述步骤4的具体方法为：所述wav2lip人脸解码器模块采用多尺度特征融合机制实现多尺度生成策略；

所述多尺度生成策略由三个不同维度的解码器和一个特征融合模块组成，其中三个解码器分别处理512*512的高分辨率特征图、256*256的中等分辨率特征图和128*128的低分辨率的特征图；所述特征融合模块由两个卷积层和一个激活函数组成，特征融合模块融合三个解码器的特征图，输出最终的高清图像。

4.根据权利要求1所述的基于语音驱动的数字人构建方法，其特征在于，所述步骤5的具体方法为：所述wav2lip音唇同步判别器由音频编码器、视频编码器、同步判别网络组成；随机抽取人脸解码器的5帧连续输出图像和与此5帧图像对应的音频馈送到音唇同步判别器，由音频编码器和视频编码器提取出音频与视频特征，然后将音频和视频特征送入同步判别网络进行特征融合，并计算音频特征与视频特征之间的余弦相似度来评估音唇同步性；

所述音频与视频特征余弦相似度计算公式如下：

其中，ε是一个非常小的正数，确保无论||v||2·|||s||2的值如何，分母总是大于零，避免除以零的问题,v表示视频特征s表示音频特征；

所述音唇同步判别器的损失函数如下：

其中，N为批次大小，是第i帧图像唇形与对应音频的余弦相似度。

5.根据权利要求1所述的基于语音驱动的数字人构建方法，其特征在于，所述步骤6的具体方法为：所述wav2lip视觉质量判别器基于生成对抗网络GAN中的判别器原理，由卷积层、批归一化层、激活层以及全连接层组成，人脸解码器输出的图像送入wav2lip视觉质量判别器，首先通过一系列卷积层提取图像特征，提取的特征通过全连接层进行评估，最终产生一个标量输出，所述标量输出表示图像作为真实图像的概率，用于指导生成模型的优化；

所述wav2lip视觉质量判别器使用的损失函数是交叉熵损失函数：其中，表示对从真实图像分布Lg中抽样的期望，D(x)表示判别器D预测图像x是真实图像的概率，Lgen是生成器的对抗损失；

6.根据权利要求1所述的基于语音驱动的数字人构建方法，其特征在于，所述步骤7的具体方法为：步骤7.1：使用预处理后的视频帧和相应的音频来训练wav2lip音唇同步判别器，使其能准确地评估同步性；

步骤7.2：使用预处理后的视频帧来训练wav2lip视觉质量判别器，使其能区分生成的帧和真实的帧；

步骤7.3：使用预处理后的视频帧和相应的音频以及唇同步损失和视觉质量损失来训练生成器。