1.一种基于多模态时间感知和注意力的视频交互动作检测方法,其特征在于,包括:采集待检测的动作视频;
利用预训练的I3D网络对所述动作视频进行特征提取,获取待检测的动作的时间特征和空间特征;
通过自注意力和多时序模型,根据待检测的动作的时间特征和空间特征获取聚合特征;将所述聚合特征进行金字塔池化,获取多个尺度的金字塔特征;
对每个尺度的金字塔特征进行卷积,并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征;
通过视频交互动作粗预测模型对所述动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位,获取动作初始分类结果和动作初始定位结果;
通过基于图关系模块的调整模型,对所述动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位,获取动作最终分类结果和动作定位偏移量;其中,通过基于图关系模块的调整模型,对所述动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位,获取动作最终分类结果和动作定位偏移量的方法包括,通过时序自注意力模块,对所述动作初始分类特征进行加权特征操作,获取显著分类特征;通过k近邻算法,对所述动作初始定位特征获取与每个时序位置的距离最小的相邻位置,并对每个时序位置及相对应的相邻位置进行聚合,获取显著定位特征;将动作初始分类特征、显著分类特征和显著定位特征相加,获取动作最终分类特征;将所述动作初始定位特征、显著定位特征和显著分类特征相加,获取动作最终定位特征;根据所述动作最终分类特征和动作最终定位特征,分别进行调整动作分类和调整动作定位,获取动作最终分类结果和动作定位偏移量;
根据所述动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量,获取动作定位提案。
2.如权利要求1所述的基于多模态时间感知和注意力的视频交互动作检测方法,其特征在于,通过自注意力和多时序模型,根据待检测的动作的时间特征和空间特征获取聚合特征的方法,包括,根据待检测的动作的时间特征和空间特征,利用时序自注意力模块,获取全局特征;
利用多尺度聚合模块对所述全局特征进行通道降维;其中,所述通道降维后的特征维度降为通道降维前的特征维度的1/16;
利用设定种类的感受野对所述通道降维后的全局特征进行卷积,获取各个感受野的时序信息;
将各个感受野的时序信息进行聚合,并进行通道升维,获取与原始的全局特征的维度相同的聚合特征。
3.如权利要求1所述的基于多模态时间感知和注意力的视频交互动作检测方法,其特征在于,所述动作定位提案包括动作开始时间,动作结束时间和动作分类结果;其中,所述动作开始时间通过以下公式获得:所述动作结束时间通过以下公式获得:
所述动作分类结果通过以下公式获得:
其中, 表示粗预测动作定位的开始时间, 表示粗预测动作定位的结束时间, 表示调整动作定位的开始, 表示调整动作定位的结束, 表示预测的动作的类别, 表示粗预测动作分类的结果, 表示调整动作分类的结果,αi表示参数。
4.如权利要求3中所述的基于多模态时间感知和注意力的视频交互动作检测方法,其特征在于,所述参数αi为通过二分类交叉熵损失函数对基于图关系模块的调整模型进行训练过程获得;
所述二分类交叉熵损失函数通过以下公式实现:
其中, 表示调整动作分类与定位过程中的正样本的数量,BCE表示二分类交叉熵损失,TIOU表示时序维度上的交并比; 表示对所述动作初始定位特征进行调整动作定位后预测出的边界,φi表示真实的边界;αi表示参数。
5.如权利要求1中所述的基于多模态时间感知和注意力的视频交互动作检测方法,其特征在于,所述视频交互动作粗预测模型的粗预测动作分类过程利用focal损失函数进行约束训练;所述视频交互动作粗预测模型的粗预测动作定位过程利用GIOU损失函数进行约束训练;
所述focal损失函数通过以下公式实现:
其中, 表示对所述动作初始分类特征进行粗预测动作分类的过程的损失, 表示对所述动作初始分类特征进行粗预测动作分类的过程的正样本数量, 表示对所述动作初始分类特征进行粗预测动作分类的结果,yi表示真实的标签;
所述GIOU损失函数通过以下公式实现:
其中, 表示对所述动作初始定位特征进行粗预测动作定位的过程的损失, 表示对所述动作初始定位特征进行粗预测动作定位的过程的正样本数量, 表示对所述动作初始定位特征进行粗预测动作定位预测出的边界,φi表示真实的边界。
6.如权利要求1中所述的基于多模态时间感知和注意力的视频交互动作检测方法,其特征在于,所述基于图关系模块的调整模型的调整动作分类过程利用focal损失函数进行约束训练;所述基于图关系模块的调整模型的调整动作定位过程利用smooth L1损失函数进行约束训练;其中,所述smooth L1损失函数通过以下公式实现:
其中, 表示调整动作定位过程的损失, 表示调整过程的正样本数量, 表示粗预测动作定位的开始与真实开始的偏移, 表示粗预测动作定位的结束与真实结束的偏移, 表示调整动作定位后的开始的偏移量, 表示调整动作定位后的结束的偏移量。
7.一种基于多模态时间感知和注意力的视频交互动作检测系统,其特征在于,包括:采集单元,用于采集待检测的动作视频;
初始特征获取单元,用于利用预训练的I3D网络对所述动作视频进行特征提取,获取待检测的动作的时间特征和空间特征;
通过自注意力和多时序模型,根据待检测的动作的时间特征和空间特征获取聚合特征;将所述聚合特征进行金字塔池化,获取多个尺度的金字塔特征;
对每个尺度的金字塔特征进行卷积,并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征;
预测单元,用于通过视频交互动作粗预测模型对所述动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位,获取动作初始分类结果和动作初始定位结果;
通过基于图关系模块的调整模型,对所述动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位,获取动作最终分类结果和动作定位偏移量;其中,通过基于图关系模块的调整模型,对所述动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位,获取动作最终分类结果和动作定位偏移量的方法包括,通过时序自注意力模块,对所述动作初始分类特征进行加权特征操作,获取显著分类特征;通过k近邻算法,对所述动作初始定位特征获取与每个时序位置的距离最小的相邻位置,并对每个时序位置及相对应的相邻位置进行聚合,获取显著定位特征;将动作初始分类特征、显著分类特征和显著定位特征相加,获取动作最终分类特征;将所述动作初始定位特征、显著定位特征和显著分类特征相加,获取动作最终定位特征;根据所述动作最终分类特征和动作最终定位特征,分别进行调整动作分类和调整动作定位,获取动作最终分类结果和动作定位偏移量;
动作定位提案确定单元,用于根据所述动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量,确定动作定位提案。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的基于多模态时间感知和注意力的视频交互动作检测方法中的步骤。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的基于多模态时间感知和注意力的视频交互动作检测方法。