利索能及
我要发布
收藏
专利号: 2022106497332
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多模态短时特征的唇部状态识别方法,其特征在于:包括如下步骤:步骤1).利用人脸检测和特征点匹配技术,获取人脸及其主要特征点坐标;

步骤2).利用相邻两帧唇部特征点坐标作输入,构建“唇部特征点短时特征提取网络模块”;

步骤3).利用相邻两帧唇部图像作为输入,构建“唇部外观短时特征提取网络模块”;

步骤4).将步骤2)和步骤3)的输出作为多模态输入,构建“唇部状态识别网络模块”;

步骤5).按照步骤2)至步骤4)将各模块连接,构建“多模态特征唇部状态识别网络”;

步骤6).训练“多模态特征唇部状态识别网络”,对待测图像序列进行唇部状态判定;

所述的步骤2)为:

2.1面向t‑1、t、t+1帧图像中的唇部特征点建立极坐标系,求取唇部特征点的极坐标集合,具体过程如下:以经过上唇部外轮廓中心特征点P52和下唇部外轮廓中心特征点P58的直线Liny方向,确定为唇部特征点纵向坐标轴方向;以经过左半唇部外轮廓中心特征点P49和右半唇部外轮廓中心特征点P55的直线Linx方向,确定为唇部特征点横向坐标轴方向;求解横向坐标轴Linx与纵向坐标轴Liny的交点P00,以P00确定为原点,以Linx方向作为正方向建立唇部特征点极坐标系;在极坐标下,面向t‑1、t、t+1帧图像,求取每帧图像中的20个唇部特征点的极坐标集合Qi(θi,ρi),i∈[1,20];其中,θi为第i个特征点的相位角,ρi为第i个特征点的幅值;

2.2面向t‑1、t、t+1帧图像,利用唇部特征点极坐标集合,提取“静态特征”,具体过程如下:首先,将极坐标系按照相位0‑90度,90‑180度,180‑270度,270‑360度分为四个象限;分别统计外唇轮廓、内唇轮廓在每个象限内的特征点Qi(θi,ρi),i∈[1,20]的“相位‑幅值”直方图,直方图的横轴将相位0‑360度分为8个bin区间,即0‑45,45‑90,90‑135,135‑180,180‑

235,235‑270,270‑315,315‑360,纵轴是特征点的幅值;然后,将外唇特征点直方图、内唇特征点直方图共八个象限内直方图连接起来,构建唇部特征点“静态特征”;

2.3面向(t‑1、t),(t、t+1)两个连续帧图像,提取动态特征矢量,利用动态特征矢量,提取“动态特征”,具体过程如下:首先,按照式(1)依次求取相邻两帧20个唇部特征点的动态特征矢量(Δθi,Δρi),i∈[1,20];其中,(xi(t),yi(t))为t帧图像第i个唇部特征点的坐标;

(xi(t‑1),yi(t‑1))为t‑1帧图像第i个唇部特征点的坐标;

然后,将极坐标系按照相位0‑90度,90‑180度,180‑270度,270‑360度分为四个象限;分别统计外唇轮廓、内唇轮廓在每个象限内的特征动态矢量(Δθi,Δρi),i∈[1,20]的“相位‑幅值”直方图;直方图的横轴将相位0‑360度分为8个bin区间,即0‑45度,45‑90度,90‑135度,135‑180度,180‑235度,235‑270度,270‑315度,315‑360度,纵轴是落在每个bin区间内的动态矢量对应的幅值之和;然后,将外唇轮廓、内唇轮廓共八个象限内的动态矢量直方图连接起来,构建唇部特征动态矢量“动态特征”;

2.4利用LSTM构建唇部特征点短时特征网络模块,具体过程如下:

首先,将t‑1帧的“静态特征”、t帧的“静态特征”和(t‑1、t)帧的“动态特征”连接成一个特征向量 将 作为LSTM区块 的状态输入,将t帧的“静态特征”、t+1帧的“静态特征”和(t、t+1)帧的“动态特征”连接成一个特征向量 将 作为LSTM区块 的状态输入;然后,将LSTM区块 的状态输出 作为LSTM区块 的节点输入,LSTM区块 的状态输出为最后,将LSTM区块 的输出 和LSTM区块 的输出 连接在一起作为“唇部特征点短时特征提取网络模块”的输出

所述的步骤3)为:

3.1将t、t+1帧的唇部图像作为输入,利用“外观特征提取网络”两帧图像的唇部外观特征 “外观特征提取网络”采用LeNet‑5的网络结构:包含1个32×32的输入层、1个

28×28的卷积层、1个2×2的平均池化层、1个10×10的卷积层、1个2×2的平均池化层、1个

120个神经元的全连接层、1个84个神经元的全连接层和一个输出层;

3.2将 作为LSTM区块 的状态输入,将 作为LSTM区块 的状态输入;然后,将LSTM区块 的状态输出 作为LSTM区块 的状态输入,LSTM区块 的状态输出为 最后,将LSTM区块 的输出 和LSTM区块 的输出 连接在一起作为“唇部外观短时特征提取网络模块”的输出所述的步骤4)为:

“唇部状态识别网络”采用基于LSTM‑MLP的联合网络框架构成,具体网络结构如下:将“唇部特征点短时特征提取网络模块”的状态输出 和“唇部外观短时特征提取网络模块”的状态输出 连接起来作为“多模态特征唇部状态识别网络”LSTM区块LR的状态输入 然后,LSTM区块LR的输出 与“唇部特征点短时特征提取网络模块”的输出 连接起来,作为“特征点注意力模型”的输入 STM区块LR的输出

与“唇部外观短时特征提取网络模块”的输出 连接起来,作为“外观注意力模型”的输入 最后,将“外观注意力模型”的输出 和“特征点注意力模型”的输出 作为MLP的输入,MLP输出t+1时刻唇部状态预测结果;MLP为三层结构,输入层两个神经元,分别为 和 隐含层2个神经元,输出层1个神经元。