利索能及
我要发布
收藏
专利号: 2024118384809
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种教育元宇宙中虚拟教师实时生成方法,其特征在于:所述方法包括以下步骤:S1、获取训练视频数据集,采用生成对抗网络进行优化处理;

S2、构建虚拟教师头部肖像实时生成预训练网络,通过人脸复原模块、头部姿态稳定模块以及三平面哈希表示模块,提取人脸的几何特征,并采用隐式神经场对特征进行渲染,生成头部肖像;

在步骤S2中,包括以下步骤:

S21、首先通过人脸复原模块从低质量人脸图像 恢复出高质量人脸图像 ;

S22、采用头部姿态稳定模块提取高质量人脸图像HQ的关键点特征;

S23、通过三平面哈希表示模块对提取的人脸关键点特征进行三平面分解,并进行重新编码得到几何特征;

S24、结合音频特征、眨眼特征、人脸的几何特征以及对应的视角方向,采用隐式神经场对特征进行渲染,生成头部肖像;

S3、采用从粗到细的训练策略进行训练,得到预训练的头部肖像生成模型;

S4、采用预训练的头部肖像生成模型生成头部肖像,并通过多重唇部平滑模块对文本特征和音频特征进行处理,以驱动虚拟教师;

在步骤S4中,虚拟教师通过输入音频和文本信号进行驱动,从文本信号和输入音频中提取音频特征,通过多重唇部平滑模块进行嘴唇运动平滑处理,其中,多重唇部平滑模块包括通过线性插值的方式,改进指数移动加权平均EWMA算法:式中, 是当前时刻平滑模块处理后的值, 是当前时刻的真值,与 是平滑系数;

多重唇部平滑模块首先将用于推理渲染唇部的音频特征分为若干组,连续的多帧音频特征作为一组,在平滑时采用每组的第一个数值作为无误差的真值,后续数据以此为标准依次进行处理,每组数据基于组中之前的EWMA值进行更新以实现多重平滑,直到对所有音频特征完成处理;

S5、生成的头部肖像再经过人脸复原模块进行高逼真处理,然后由实时语义分割网络将高逼真头部肖像与躯干神经辐射场生成的躯干图像进行叠加,得到完整的虚拟教师形象。

2.根据权利要求1所述的一种教育元宇宙中虚拟教师实时生成方法,其特征在于:在步骤S21中,人脸复原模块中包括LQ编码器、Transformer、预训练的VQGAN离散码本空间Codebook以及HQ解码器,其中,在LQ编码器中,基于预训练的VQGAN离散码本空间,将人脸复原任务转成Code序列的预测任务,使用Transformer对面部的全局进行建模,从而弥补局部信息的丢失,然后通过HQ解码器解码得到高质量人脸图像HQ。

3.根据权利要求1所述的一种教育元宇宙中虚拟教师实时生成方法,其特征在于:在步骤S22中,头部姿态稳定模块采用基于回归树的人脸对齐算法,通过建立级联的残差回归树使人脸形状从当前形状一步一步回归到真实形状,其中,每一棵树之间的关系是串行的,后一棵树的建立在前一棵树的基础之上,回归器的级联表示为:其中 表示第t级回归器的形状,是一个由坐标组成的向量;t表示级联的级数,代表残差回归树的棵树并相互独立;I为图像, 表示当前级的回归器;

更新策略采用梯度提升决策树GBDT,即每级回归器均学习当前形状与真实形状的残差,每一个GBDT的每一个叶子节点上都存储着一个残差回归量,通过叶子节点上保存的残差,当输入落到一个节点上时,将残差加到该输入上,最终将所有残差叠加在一起,完成人脸对齐。

4.根据权利要求1所述的一种教育元宇宙中虚拟教师实时生成方法,其特征在于:在步骤S23中,三平面哈希表示模块通过基于NeRF的三平面分解将3D空间分解为三个正交平面:给定一个坐标 ,分别使用三个2D多分辨率哈希编码器对三个投影坐

标进行编码:

是投影坐标(a , b)的平面级几何特征,其级别数为L,每个条目的特征维度为F;然后将三个平面的编码结果进行连接得到最终的几何特征 :式中, 分别表示三个正交平面的多分辨率哈希编码器。

5.根据权利要求1所述的一种教育元宇宙中虚拟教师实时生成方法,其特征在于:在步骤S24中,采用基于轻量化动态神经辐射场,利用人脸恢复模型处理和三平面哈希编码H对坐标 进行编码为 ;

采用高鲁棒性肖像渲染网络对编码后的特征进行渲染,其隐式函数为:

式中,网络的输入包括坐标 、视线方向 、音频特征 、眨眼特征 和几何特征 ,表示预测的颜色值 和体密度 ;

使用隐式模型,设摄像机射线为r(t),摄像机中心为o,观看方向为d,由体渲染的实际图像颜色 为:是沿着光线传播方向从 到 的累计透光率,得到输入相机位姿条件下的视角图片。

6.根据权利要求1所述的一种教育元宇宙中虚拟教师实时生成方法,其特征在于:在步骤S3中,训练采用从粗到精的两步策略,先使用普通的神经辐射场NeRF采用的MSE损失来评估预测图像 的和实际图像颜色C(r)之间的差异:式中, 分别表示实际图像颜色和预测图像颜色, 表示欧几里得范数的平方;

再从图像中提取随机斑块P,将λ加权的LPIPS与MSE相结合,以改进细节表示:式中, 表示结构相似性损失判断, 表示权值, 为从图像中提取的随机斑块,为该斑块预测值。

7.根据权利要求1所述的一种教育元宇宙中虚拟教师实时生成方法,其特征在于:在步骤S5中,将生成虚拟教师的头部肖像,再经过人脸恢复模型,对生成的人脸肖像进行高清晰恢复,以生成高逼真的头部肖像;

躯干部分由具有自适应姿势编码的躯干神经辐射场NeRF进行渲染,得到躯干图像;再通过实时语义分割网络,将生成的虚拟教师肖像与躯干图像进行叠加,合成完整的虚拟教师形象;其中,实时语义分割网络包括用于获取丰富高级语义信息的上下文路径和用于捕获精细视觉细节信息的空间路径,通过分割网络将人的部分进行标记,随后记录标记位置和分辨率,裁切用于训练的部分,并将位置保存到JSON文件中,推理完成后读取json,使用ffmpeg进行叠加合成,生成含有头部和躯干的虚拟教师。

8.一种用于执行前述权利要求1‑7任一所述的教育元宇宙中虚拟教师实时生成方法的系统,其特征在于:所述系统包括输入模块、特征提取和处理模块、预训练的头部肖像生成模型以及躯干渲染和虚拟教师生成模块,其中,输入模块输入文本信息和音频信息,并由特征提取模块提取文本特征和音频特征,并将特征经过多重唇部平滑模块处理后,用以驱动虚拟教师;

预训练的头部肖像生成模型用于根据输入的视频集生成头部肖像,其中,头部肖像生成模型中包括人脸复原模块、头部姿态稳定模块、三平面哈希表示模块以及隐式神经场,由人脸复原模块对输入进行优化处理,再由头部姿态稳定模块获取身份特征与人像运动姿态,随后通过基于隐式神经场NeRF的三平面哈希表示模块实现动态头部重建;

躯干渲染和虚拟教师生成模块由具有自适应姿势编码的躯干NeRF渲染以预测躯干图像;通过实时语义分割网络,将生成的虚拟教师头部肖像与原始输入躯干进行叠加,合成完整的虚拟教师形象,其中,由头部肖像生成模型生成的头部肖像需再次经过人脸复原模块进行高逼真处理。