利索能及
我要发布
收藏
专利号: 2022108520988
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-10
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种三维人脸重建模型训练方法,其特征在于,包括以下步骤:

获取包含多张人脸图像的人脸数据集、以及各所述人脸图像的特征点标注信息;

根据所述特征点标注信息,对所述人脸数据集中的各人脸图像进行处理,得到训练监督数据,其中,所述训练监督数据包括人脸区域掩模、投影变换后的标准平均人脸模型、以及标准人脸变形信息;

构建用于预测的平均人脸模型、以及人脸变形信息进行三维人脸重建的初始三维人脸重建模型,所述初始三维人脸重建模型由多个具备相同结构的Encoder‑Decoder网络构成,所述Encoder‑Decoder网络在编码层和解码层的跳跃连接中加入了通道‑空间注意力感知机制;

基于所述人脸图像、以及对应的人脸区域掩模进行模型训练,训练过程中,结合用于反映预测结果与对应标准结果之间的偏差程度的目标损失函数进行约束,并在达到训练结束条件时,得到目标三维人脸重建模型;

所述人脸区域注意力网络由用于转换特征图通道数量的全连接层、以及多层应用了通道‑空间注意力感知机制的标准卷积块组成,并经由sigmoid函数激活输出每个像素点的人脸区域可见性,其中,通过以下公式实施特征提取操作:Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)));

CxHxW

其中,F∈R 表示输入特征图,Mc(*)表示对“*”进行通道注意力处理,Ms(*)表示对“*”进行空间注意力处理;AvgPool(*)表示对“*”进行平均池化处理,MaxPool(*)表示对“*”进行最大池化处理;MLP(*)表示共享权重处理,σ表示sigmoid函数;Conv(*)表示一个标准的卷积操作,FAvg、FMax分布表示沿着通道轴应用平均池化操作、以及最大值池化操作对应得到的2D map;

在以UV位置贴图的形式表示预测结果时,所述目标损失函数的计算公式包括:上式中,h和w表示UV位置贴图的高度和宽度;N(u,v)表示基于UV空间中的位置坐标点(u,v)预测到的预测结果;

表示与所述预测结果相对应的训练监督数据即标准结果,M(u,v)表示UV空间中的位置坐标点(u,v)附带的权重值;

其中,为保证预测结果的精准度,对投影变换后的平均人脸模型施加以下针对landmark点‑人脸关键特征点的约束项Llrr:其中,P(u,v)表示基于UV空间中的位置坐标点(u,v)预测到的平均人脸上的landmark点的预测三维坐标信息, 表示训练监督数据中对应UV空间中的位置坐标点(u,v)的平均人脸模型上的landmark点的标准三维坐标信息。

2.根据权利要求1所述的方法,其特征在于,在对所述人脸数据集中的各人脸图像进行人脸掩模处理时,所述方法包括:根据所述特征点标注信息,确定各所述人脸图像在世界坐标系上的三维顶点集合;

根据各所述人脸图像在世界坐标系上的三维顶点集合S,通过下述公式计算得到相应人脸图像在图像坐标系上的三维顶点集合V:V=f·R·S+t;

其中,f表示缩放比例因子,R和t分别表示由人脸数据集中的3DMM姿势参数计算得到的旋转矩阵和平移向量;

结合各所述人脸图像在图像坐标系上的三维顶点集合,构建图像坐标系下的人脸区域掩模。

3.根据权利要求1所述的方法,其特征在于,在对所述人脸数据集中的各人脸图像进行投影变换处理时,所述方法包括:获取对应人脸图像的平均人脸模型,并对所述平均人脸模型进行投影变换处理,得到投影变换后的标准平均人脸模型;

结合所述标准平均人脸模型、与对应在图像坐标系上的人脸三维顶点位置之间的差异,确定投影变换后的标准人脸变形信息。

4.根据权利要求1所述的方法,其特征在于,所述Encoder‑Decoder网络在编码层和解码层的跳跃连接中,嵌入了应用通道‑空间注意力感知机制的人脸区域注意力网络,其中:所述人脸区域注意力网络将人脸区域掩膜作为训练监督数据,经由编码层输出的编码特征图经过所述人脸区域注意力网络后,将得到相应的可见性分数特征图;

在所述人脸区域注意力网络之后,还连接有用于对所述的可见性分数特征图的空间分辨率进行调整,以使得所述可见性分数特征图与所述编码特征图的空间分辨率保持一致的Max‑pooling层。

5.根据权利要求4所述的方法,其特征在于,所述初始三维人脸重建模型由两个具备相同结构的Encoder‑Decoder网络构成;

所述Encoder‑Decoder网络的编码网络部分,由多层加入了通道注意力机制的残差块模块组成,所述残差块模块的主要特征提取通道由1x 1标准卷积层、3x 3标准卷积层、1x1标准卷积层、以及通道注意力提取操作层组成。

6.根据权利要求4所述的方法,其特征在于,在通过Encoder‑Decoder网络进行三维人脸重建时,所述方法包括:由跳跃连接中的编码层对输入的人脸图像进行处理,得到编码特征图;

将所述编码特征图作为所述人脸区域注意力网络的输入,由所述人脸区域注意力网络进行处理,得到可见性分数特征图;

通过以下公式对得到的可见性分数特征图、以及所述编码特征图进行关联,得到相应的可见区域特征图Fatt:Fatt=F?(1+A);

其中,A表示得到的可见性分数特征图,F表示所述编码特征图;

将所述可见区域特征图与跳跃连接中经由解码层的最后一个转置卷积块后输出的特征图连接在一起,得到所需的输出特征图。

7.一种三维人脸重建模型训练系统,其特征在于,所述系统包括数据获取模块、数据处理模块、模型构建模块以及模型训练模块,其中:获取包含多张人脸图像的人脸数据集、以及各所述人脸图像的特征点标注信息;

根据所述特征点标注信息,对所述人脸数据集中的各人脸图像进行处理,得到训练监督数据,其中,所述训练监督数据包括人脸区域掩模、投影变换后的标准平均人脸模型、以及标准人脸变形信息;

构建用于预测的平均人脸模型、以及人脸变形信息进行三维人脸重建的初始三维人脸重建模型,所述初始三维人脸重建模型由多个具备相同结构的Encoder‑Decoder网络构成,所述Encoder‑Decoder网络在编码层和解码层的跳跃连接中加入了通道‑空间注意力感知机制;

基于所述人脸图像、以及对应的人脸区域掩模进行模型训练,训练过程中,结合用于反映预测结果与对应标准结果之间的偏差程度的目标损失函数进行约束,并在达到训练结束条件时,得到目标三维人脸重建模型;

所述人脸区域注意力网络由用于转换特征图通道数量的全连接层、以及多层应用了通道‑空间注意力感知机制的标准卷积块组成,并经由sigmoid函数激活输出每个像素点的人脸区域可见性,其中,通过以下公式实施特征提取操作:Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)));

CxHxW

其中,F∈R 表示输入特征图,Mc(*)表示对“*”进行通道注意力处理,Ms(*)表示对“*”进行空间注意力处理;AvgPool(*)表示对“*”进行平均池化处理,MaxPool(*)表示对“*”进行最大池化处理;MLP(*)表示共享权重处理,σ表示sigmoid函数;Conv(*)表示一个标准的卷积操作,FAvg、FMax分布表示沿着通道轴应用平均池化操作、以及最大值池化操作对应得到的2D map;

在以UV位置贴图的形式表示预测结果时,所述目标损失函数的计算公式包括:上式中,h和w表示UV位置贴图的高度和宽度;N(u,v)表示基于UV空间中的位置坐标点(u,v)预测到的预测结果;

表示与所述预测结果相对应的训练监督数据即标准结果,M(u,v)表示UV空间中的位置坐标点(u,v)附带的权重值;

其中,为保证预测结果的精准度,对投影变换后的平均人脸模型施加以下针对landmark点‑人脸关键特征点的约束项Llrr:其中,P(u,v)表示基于UV空间中的位置坐标点(u,v)预测到的平均人脸上的landmark点的预测三维坐标信息, 表示训练监督数据中对应UV空间中的位置坐标点(u,v)的平均人脸模型上的landmark点的标准三维坐标信息。

8.一种可读存储介质,其特征在于,所述可读存储介质中包括三维人脸重建模型训练方法程序,所述三维人脸重建模型训练方法程序被处理器执行时,实现如权利要求1至6中任一项所述的方法的步骤。