买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多模态短时特征的唇部状态识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多模态短时特征的唇部状态识别方法

￥15600

专利号： 2022106497332

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多模态短时特征的唇部状态识别方法，其特征在于：包括如下步骤：步骤1).利用人脸检测和特征点匹配技术，获取人脸及其主要特征点坐标；

步骤2).利用相邻两帧唇部特征点坐标作输入，构建“唇部特征点短时特征提取网络模块”；

步骤3).利用相邻两帧唇部图像作为输入，构建“唇部外观短时特征提取网络模块”；

步骤4).将步骤2)和步骤3)的输出作为多模态输入，构建“唇部状态识别网络模块”；

步骤5).按照步骤2)至步骤4)将各模块连接，构建“多模态特征唇部状态识别网络”；

步骤6).训练“多模态特征唇部状态识别网络”，对待测图像序列进行唇部状态判定；

所述的步骤2)为：

2.1面向t‑1、t、t+1帧图像中的唇部特征点建立极坐标系，求取唇部特征点的极坐标集合，具体过程如下：以经过上唇部外轮廓中心特征点P52和下唇部外轮廓中心特征点P58的直线Liny方向，确定为唇部特征点纵向坐标轴方向；以经过左半唇部外轮廓中心特征点P49和右半唇部外轮廓中心特征点P55的直线Linx方向，确定为唇部特征点横向坐标轴方向；求解横向坐标轴Linx与纵向坐标轴Liny的交点P00，以P00确定为原点，以Linx方向作为正方向建立唇部特征点极坐标系；在极坐标下，面向t‑1、t、t+1帧图像，求取每帧图像中的20个唇部特征点的极坐标集合Qi(θi,ρi),i∈[1,20]；其中，θi为第i个特征点的相位角，ρi为第i个特征点的幅值；

2.2面向t‑1、t、t+1帧图像，利用唇部特征点极坐标集合，提取“静态特征”，具体过程如下：首先，将极坐标系按照相位0‑90度，90‑180度，180‑270度，270‑360度分为四个象限；分别统计外唇轮廓、内唇轮廓在每个象限内的特征点Qi(θi,ρi),i∈[1,20]的“相位‑幅值”直方图，直方图的横轴将相位0‑360度分为8个bin区间，即0‑45，45‑90，90‑135，135‑180，180‑

235，235‑270，270‑315，315‑360，纵轴是特征点的幅值；然后，将外唇特征点直方图、内唇特征点直方图共八个象限内直方图连接起来，构建唇部特征点“静态特征”；

2.3面向(t‑1、t)，(t、t+1)两个连续帧图像，提取动态特征矢量，利用动态特征矢量，提取“动态特征”，具体过程如下：首先，按照式(1)依次求取相邻两帧20个唇部特征点的动态特征矢量(Δθi,Δρi),i∈[1,20]；其中，(xi(t),yi(t))为t帧图像第i个唇部特征点的坐标；

(xi(t‑1),yi(t‑1))为t‑1帧图像第i个唇部特征点的坐标；

然后，将极坐标系按照相位0‑90度，90‑180度，180‑270度，270‑360度分为四个象限；分别统计外唇轮廓、内唇轮廓在每个象限内的特征动态矢量(Δθi,Δρi),i∈[1,20]的“相位‑幅值”直方图；直方图的横轴将相位0‑360度分为8个bin区间，即0‑45度，45‑90度，90‑135度，135‑180度，180‑235度，235‑270度，270‑315度，315‑360度，纵轴是落在每个bin区间内的动态矢量对应的幅值之和；然后，将外唇轮廓、内唇轮廓共八个象限内的动态矢量直方图连接起来，构建唇部特征动态矢量“动态特征”；

2.4利用LSTM构建唇部特征点短时特征网络模块，具体过程如下：

首先，将t‑1帧的“静态特征”、t帧的“静态特征”和(t‑1、t)帧的“动态特征”连接成一个特征向量将作为LSTM区块的状态输入，将t帧的“静态特征”、t+1帧的“静态特征”和(t、t+1)帧的“动态特征”连接成一个特征向量将作为LSTM区块的状态输入；然后，将LSTM区块的状态输出作为LSTM区块的节点输入，LSTM区块的状态输出为最后，将LSTM区块的输出和LSTM区块的输出连接在一起作为“唇部特征点短时特征提取网络模块”的输出

所述的步骤3)为：

3.1将t、t+1帧的唇部图像作为输入，利用“外观特征提取网络”两帧图像的唇部外观特征 “外观特征提取网络”采用LeNet‑5的网络结构：包含1个32×32的输入层、1个

28×28的卷积层、1个2×2的平均池化层、1个10×10的卷积层、1个2×2的平均池化层、1个

120个神经元的全连接层、1个84个神经元的全连接层和一个输出层；

3.2将作为LSTM区块的状态输入，将作为LSTM区块的状态输入；然后，将LSTM区块的状态输出作为LSTM区块的状态输入，LSTM区块的状态输出为最后，将LSTM区块的输出和LSTM区块的输出连接在一起作为“唇部外观短时特征提取网络模块”的输出所述的步骤4)为：

“唇部状态识别网络”采用基于LSTM‑MLP的联合网络框架构成，具体网络结构如下：将“唇部特征点短时特征提取网络模块”的状态输出和“唇部外观短时特征提取网络模块”的状态输出连接起来作为“多模态特征唇部状态识别网络”LSTM区块LR的状态输入然后，LSTM区块LR的输出与“唇部特征点短时特征提取网络模块”的输出连接起来，作为“特征点注意力模型”的输入 STM区块LR的输出

与“唇部外观短时特征提取网络模块”的输出连接起来，作为“外观注意力模型”的输入最后，将“外观注意力模型”的输出和“特征点注意力模型”的输出作为MLP的输入，MLP输出t+1时刻唇部状态预测结果；MLP为三层结构，输入层两个神经元，分别为和隐含层2个神经元，输出层1个神经元。