买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于合作网络视线估计方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于合作网络视线估计方法

￥16000

专利号： 2022105637241

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-07

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于合作网络视线估计方法，其特征在于，包括以下步骤：

S1，首先对输入图像进行预处理，具体为利用MTCNN算法多任务级联的卷积神经网络进行人脸检测与人脸关键点定位，得到人脸信息，并通过人脸关键点得到双眼位置信息；

S2，将得到的人脸信息作为输入，利用基于空间权重的卷积神经网络估计头部姿态；

S3，将双眼和面部图像作为输入分别搭建C‑Net和I‑Net，C‑Net为一致性估计网络，用于估计视线的主要方向；I‑Net为不一致性估计网络，用于估计双眼方向的剩余残差；并其中I‑Net的输入只包含双眼图像；

S4，利用C‑Net网络，在C‑Net中加入估计S2到的头部姿态，通过训练，预测眼睛的一致性；

S5，利用预测出的一致性通过交叉注意力模块对I‑Net预测出的不一致性进行指导，从而获取双眼视线方向；

所述步骤S1利用MTCNN算法多任务级联的卷积神经网络进行人脸检测与人眼区域定位，并提取人眼特征信息，具体包括：MTCNN通过三个阶段相互独立的网络结构级联而成，每个阶段的网络都是一个多任务网络，包括P‑Net、R‑Net和O‑Net三个子网络，分别处理三个任务，人脸/非人脸判断、人脸框回归和五个人脸特征点回归；

对于人脸图像采用MTCNN算法进行人脸检测的同时实现瞳孔中心粗定位定位，并通过图像梯度法对瞳孔中心进行二次定位，从而获取准确的瞳孔中心位置；

基于图像梯度法瞳孔定位是利用图像梯度向量场的向量方向在瞳孔中心相交的原理，计算图像的各个点的梯度向量和位置向量的内积，找到平均值最大的点的作为瞳孔中心点，但该方法容易受到某些图像边缘梯度变化同样明显的眉毛干扰区域的影响，因此，在MTCNN对瞳孔中心粗定位的前提下，使用图像梯度法能获取更准确的瞳孔中心位置；

所述步骤S2利用基于空间权重的卷积神经网络估计头部姿态，具体包括：

在普通VGG‑16网络中嵌入一个空间权重模块，空间权重模块包括三个1×1的卷积层和Relu层，得到权重得分图，最后将输入特征图与权重得分图相乘以达到特征图权重再分配的目的；

所述S3，将双眼和面部图像作为输入分别搭建一致性估计网络C‑Net和不一致性估计网络I‑Net，具体包括：C‑Net一致性估计网络，C‑Net的主干网络包括5个常规卷积层与四个膨胀卷积层，将人脸图像与双眼图像作为输入，在第四层膨胀卷积层后面加入Fca‑block模块，用于人脸图像与双眼图像高级特征的权重再分配，最终得到双眼视线方向的主要方向；I‑Net不一致性估计网络，I‑Net的主干网络包括5个常规卷积层与四个膨胀卷积层，与C‑Net同，I‑Net只输入双眼图像，在不加入Fca‑block模块的情况下加入交叉注意力模块，交叉注意力模块是通过C‑Net提取到的高质量的一致性来指导修正I‑Net中剩余残差，最终合作得到准确的双眼视线方向；

采用基于卷积神经网络的方法，将3×64×96的眼睛图像和3×96×96面部图像I作为输入，其中3表示眼睛图像的通道数，64×96表示眼睛图像的大小，96×96表示面部图像的大小；对图像进行预处理后，应用到卷积层，并将得到的特征图谱输入全连接层，最后在全连接层通过训练一个线性回归得到初步视线方向，CI‑Net的损失函数为：*

其中，g表示真实的视线角度，g表示预测的视线角度， gt, 分

别表示预测到的一致性方向，左眼剩余残差，右眼剩余残差；wt，wl，wr是用来平衡主要方向和剩余残差之间的权重，其中，wt＝0.5，wl＝0.25，wr＝0.25；

所述S4，利用C‑Net网络，在C‑Net中加入估计到的头部姿态，通过训练，预测眼睛的一致性，具体包括：C‑net和I‑net共同组成CI‑net，用合作网络CI‑Net对视线方向进行估计；

所述CI‑Net采用一致性估计网络与不一致性估计网络并行的结构，并行结构的每个分支都由膨胀卷积层组成，使用膨胀卷积层代替普通卷积与池化层，并且每个卷积层都经过批处理归一化和ReLU单元；经过膨胀卷积后通过注意力机制重新分配双眼与人脸之间的特征的权重，最后经过交叉注意力模块使用一致性对不一致性进行修正，获取双眼视线方向；

所述通过注意力机制重新分配双眼与人脸之间的特征的权重，最后经过交叉注意力模块使用一致性对不一致性进行修正，获取双眼视线方向；

使用来自C‑Net提取出的特征作为Key和Value，使用来自I‑Net中提取的特征作为Query；由于注意力机制的性质，I‑Net会自行从C‑Net中获取信息，从而改善上述两种情况，其中Cross attention的输出公式如下：其中，dk为Key的通道数。

2.根据权利要求1所述的基于合作网络视线估计方法，其特征在于，所述合作网络选择ReLU函数作为卷积层和全连接层的激活函数，其公式表示为：f(x)＝max(0,x) (2)其中，x是输入，f(x)是经过ReLU单元之后的输出。