买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多模态证据学习的弱监督时序动作定位方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多模态证据学习的弱监督时序动作定位方法及系统

￥25200

专利号： 2024104242094

申请人：齐鲁工业大学(山东省科学院)

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-22

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多模态证据学习的弱监督时序动作定位方法，其特征是，包括如下步骤：S110.采集待检测的动作视频；

S120.利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的RGB特征和FLOW特征，然后分别通过语义上下文感知模块和时序信息感知模块，获取语义信息和时序信息增强后的RGB特征和FLOW特征以及RGB特征的注意力权重、FLOW注意力权重，将增强后的RGB特征和FLOW特征聚合为视频特征，再将聚合的视频特征送入到分类器中，预测每个片段的时间类激活分数；

S130. 将增强后的RGB特征和FLOW特征送入证据学习模块中，分别得到两者的片段级证据和，然后分别利用注意力权重和对片段级证据和进行top‑k聚合操作，分别得到视频级证据和；

S140.分析计算视频级证据得到RGB特征和FLOW特征的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数、模型不确定性分数、FLOW模态的数据不确定性分数、模型不确定性分数，同理可得片段级RGB模态数据不确定性分数、模型不确定性分数、FLOW模态的数据不确定性分数、模型不确定性分数；

进一步分别融合每个模态的数据不确定性分数和模型不确定性分数，分别得到融合后两个模态的不确定性分数、，加权得到最终的不确定性分数，同理可得片段级两个模态的不确定性分数、，加权得到最终的不确定性分数；

通过对视频级证据分析计算得到两个模态的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数和模型不确定性分数、FLOW模态的数据不确定性分数和模型不确定性分数，具体过程如下：基于普通的EDL框架在一次正向传递中估计不确定性的计算过程如下：，

，

其中，表示本算法的模型不确定性分数，分别得到、；

具体过程如下：

，

、分别表示上文得到的两个模态的视频级证据， , 表示RGB模态和FLOW模态的视频级狄利克雷强度，、分别表示RGB模态和FLOW模态的视频级狄利克雷分布的参数，，表示类别数量，表示类索引, 表示RGB模态类别j的狄利克雷分布的参数，，表示类别数量，表示类索引, 表示FLOW模态类别j的狄利克雷分布的参数；

，

其中，表示下确界，、表示期望值， ,表示联合分布中的点，表示任意范数，W表示Wasserstein‑1距离，表示联合分布的边缘和表示联合分布的边缘表示一个由参数化的狄利克雷分布表示由参数化的只激活一个类别的理想目标狄利克雷分布，表示一个由参数化的狄利克雷分布，表示由参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，，计算过程如下：，

，

其中，c表示类别数量，j表示类索引，表示集合，表示RGB模态的狄利克雷分布的参数，表示RGB模态的狄利克雷分布的参数，被称为RGB模态的目标聚合证据，表示为RGB模态的模型固定的极端证据；表示FLOW模态的狄利克雷分布的参数，表示FLOW模态的狄利克雷分布的参数，被称为FLOW模态的目标聚合证据，表示为FLOW模态的模型固定的极端证据；

进一步分别融合两个模态的数据不确定性分数和模型不确定性分数，得到两个模态的不确定性分数、，加权得到最终的不确定性分数，计算过程如下：，

，

其中，表示一种标量融合方法；

根据上述方法分别得到RGB和FLOW的片段级数据不确定性得分和片段级模型不确定性得分，分别表示为、，以及融合的片段级不确定性分数，，具体过程如下：

，

、分别表示上文得到的两个模态的片段级证据， , 表示RGB模态和FLOW模态的片段级狄利克雷强度，、分别表示RGB模态和FLOW模态的片段级狄利克雷分布的参数，，表示类别数量，表示类索引, 表示RGB模态类别j片段级狄利克雷分布的参数，，表示类别数量，表示类索引, 表示FLOW模态类别j片段级狄利克雷分布的参数；

数据不确定分数、的具体计算如下：

，

其中，c表示类别数量，j表示类索引，表示集合，表示RGB模态的狄利克雷分布参数，表示RGB模态的狄利克雷分布的参数，被称为RGB模态的目标聚合证据，表示为RGB模态的模型固定的极端证据；表示FLOW模态的狄利克雷分布的参数，表示FLOW模态的狄利克雷分布的参数，被称为FLOW模态的目标聚合证据，表示为FLOW模态的模型固定的极端证据；

，

其中，表示一种标量融合方法；

训练过程的损失函数设置如下：

通过交叉熵损失函数约束分类，通过视频分类损失函数约束训练来进行视频级分类，通过相互学习损失约束训练来进行注意力权重相互学习，通过相互学习损失进行约束训练，动态优化过程利用动态学习损失约束训练来进行片段级不确定性分数和注意力权重A的相互学习；

交叉熵损失函数通过以下公式实现：

，

其中，N表示视频数量，表示交叉熵函数，表示视频级别的分类概率，y表示视频标签；

视频分类损失函数通过以下公式实现：

，

其中，是最终融合的不确定性分数，y是视频标签，e是视频级融合后的证据向量， i和j分别表示视频索引和类别索引，c和N分别表示类别数量和视频数量；

相互学习损失通过以下公式实现：

，

其中，表示截断输入梯度的函数，(·)表示相似性度量函数， , 分别表示RGB流、FLOW流的注意力权重，是相互学习损失中的超参数；

所述片段级不确定性分数和注意力权重A相互学习损失通过以下公式实现：，

其中，为l2范数，s（）为梯度截断操作，为实际计算中的超参数，，A是注意力权重，是片段级模型不确定性分数，，T表示视频片段数量；

所述动态学习损失通过以下公式实现：

，

其中，i、j表示类索引，N表示视频数量，T表示视频片段数量，∆是一个表示动态权值变化幅度的超参数，是动态权重函数，tanh表示双曲正切函数，，表示动态权重函数中的关于r的变量函数，r=[1,…,R]，r表示当前训练轮数，R表示训练总轮数，t=[1,…,T]，T表示视频片段数量，，表示动态权重函数中的关于变量t的函数，w (t)表示通过对片段级的数据不确定性分数进行降序排序而得到的片段t的序数；

训练阶段：训练通过对上述所有的优化目标进行聚合，我们得到了最终的损失函数如下：总损失：；

其中、表示两个不同的超参数；

S150.动作定位：在推理阶段，首先预测视频的时间类激活分数CAS，然后应用阈值策略，获得遵循标准流程的动作候选片段，再将连续的代码片段分组到动作提案中，最后执行非最大抑制NMS来删除重复的建议。

2.如权利要求1所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，FLOW特征通过时序信息感知模块，获取时序信息增强后的FLOW特征以及注意力权重，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征，具体过程如下：时序信息感知模块主要是由k层膨胀卷积和注意力模块组成，将FLOW特征输入膨胀值为1的第一层膨胀卷积，再将输出结果经过一个层得到中间结果，其中，表示的值域，表示视频片段长度，表示特征维数；

对于第k层膨胀卷积，计算过程如下：

，其中，

，

其中，，表示第k个膨胀卷积层的输出，表示膨胀值；

然后，将sigmoid函数应用于，与相乘得到增强后的FLOW特征，计算过程如下：，

其中，表示第k个膨胀卷积层的输出，表示sigmoid函数，表示元素级乘法；

最后，进一步对每个应用sigmoid函数和元素级乘法，并使用注意力模块来生成时序注意力权重，其中注意力模块由三个时间一维卷积层和一个sigmoid函数组成，，表示的值域，表示视频片段长度，时序注意权重是的加权平均值，计算过程如下：

，其中，

，

其中，表示权值参数，，，并且，表示第k层输出的时序注意力权重。

3.如权利要求2所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是， RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征以及注意力权重，具体过程如下：通过语义上下文感知模块将RGB特征和增强后的FLOW特征输入到一个共享卷积层中，输出经过sigmoid函数，得到两个权值来增强RGB特征，计算过程如下：，

其中，表示增强后的RGB特征，，表示视频片段长度，表示特征维数，表示增强后的FLOW特征，表示共享卷积层，表示sigmoid函数，表示元素级乘法；

然后使用注意力模块生成空间注意力权重，注意力模块由三个时间一维卷积层和一个sigmoid函数组成，，的计算过程如下：；

最后，连接增强后的RGB特征和FLOW特征，获得增强后的视频特征，聚合空间注意力权重和时序注意力权重，得到注意力权重A，计算过程如下：，

，

其中，表示特征拼接，表示特征聚合，表示增强后的视频特征，，表示视频片段长度，表示特征维数。

4.如权利要求3所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，将增强后的视频特征送入到分类器中，预测每个片段的时间类激活分数，具体过程如下：将增强后的视频特征通过由三个卷积层组成的分类器，生成给定视频的片段级时间类激活分数，，其中，表示视频片段长度，表示类别数量，第类表示背景类，，表示片段级时间类激活分数，表示由三个卷积层组成的分类器，是增强后的视频特征；

通过top‑k机制聚合时间类激活分数，聚合每个类的时间维度的前z个值得到视频激活分数，通过沿类维度应用softmax操作得到视频级别的分类概率；

top‑k机制聚合通过以下公式实现：，

，

其中，表示聚合每个类的时间维度的前k个值得到视频激活分数，j=1,2,3,...,(c+

1)，j表示类索引，代表第a个片段属于类别j的激活分数，表示取最大值，表示聚合到的视频片段，T表示视频片段总数，是预定义的参数，z表示聚合到的前z个视频片段；

所述沿类维度应用softmax操作通过以下公式实现：，

其中，表示通过沿类维度应用softmax操作得到视频级别的分类概率，表示聚合每个类的时间维度的前z个值得到视频激活分数，j=1,2,3,...,(c+1)。

5.如权利要求4所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：将增强后的RGB和FLOW两个模态的特征和送入证据学习模块中，分别得到RGB和FLOW两个模态的片段级证据和，然后分别利用注意力权重和对片段级证据和进行top‑k聚合操作得到视频级证据和，计算过程如下：，

，

其中，表示证据函数，表示由参数化的深度神经网络DNN函数, ，表示一个比例因子，表示视频片段长度，和分别表示RGB模态和FLOW模态的注意力权重，和分别表示RGB和FLOW两个模态的视频级证据，arg max(f(x))表示使得函数f(x)取得最大值所对应的变量点x的集合，表示取得的个视频片段的集合。

6.一种基于多模态证据学习的弱监督时序动作定位系统，其特征是，执行如权利要求

1‑5中任一项所述的一种基于多模态证据学习的弱监督时序动作定位方法，包括以下模块：采集模块：用于采集待检测的动作视频；

初始特征获取模块：用于利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的RGB特征和FLOW特征；

语义上下文感知模块：根据待检测的动作的RGB特征获取语义信息增强后的RGB特征和注意力权重；

时序信息感知模块：根据待检测的动作的时序信息FLOW特征获得时序信息增强后的FLOW以及时序注意力权重，注意力权重表示片段是前景的概率；

分类模块：将聚合的视频特征送入到分类器中，预测每个片段的时间类激活分数，即每个片段属于每个类的概率；

证据学习模块：将增强后的RGB和FLOW两个模态的特征送入证据学习模块中，分别得到片段级证据和，然后分别利用注意力权重和对片段级证据和进行top‑k聚合操作，得到视频级证据和；

不确定性计算模块：将视频级证据分析计算得到两个模态的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数、模型不确定性分数、FLOW模态的数据不确定性分数、模型不确定性分数；同理可得片段级RGB模态数据不确定性分数、模型不确定性分数、FLOW模态的数据不确定性分数、模型不确定性分数；

定位模块：在测试阶段，计算视频级别的分类概率，即表示每个动作类别在给定视频中发生的可能性；设置一个阈值以确定将在视频中定位的动作类；对于选定的动作类，对注意力权重设置多个阈值以丢弃背景片段，获得动作提案的起止时间；获得动作的置信度分数，得到动作提案。