1.一种基于场景图推理的视频问答方法,其特征在于,包括:获取视频数据,通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据;
对视频数据进行特征提取得到视频特征并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;
对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答;
对所述视频特征及问题特征进行处理的过程包括:构建若干个多尺度跨注意力模型,其中若干个多尺度跨注意力模型依次连接,其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层,将所述视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取,通过所述跨模态多头注意力层对金字塔自注意力结果及问题特征进行关联提取,生成共现信息,通过所述前馈层对问题特征及共现信息进行处理生成特征信息;
通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
对场景图数据进行推导的过程包括:
构建若干个动态图推理模型,将若干个所述动态图推理模型进行连接,所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应;将所述无偏场景图数据输入连接后的动态图推理模型,通过所述共现信息对所述动态图推理模型中的节点进行更新,并通过核函数对所述动态图推理模型中的边进行更新,最终输出答案线索信息;
多尺度跨注意力模型:输入视频特征 以及文本问题特征 ,输出下一步视频特征及问题特征 以及问题特征 ,此模型可以迭代式将多模态特征融合;将最后得到的视频特征及问题特征 以及问题特征 拼接输入到答案解码器中,该模型中包括金字塔自注意力层及跨模态多头注意力层;
金字塔自注意力层:将输入的视频特征 按金字塔模式进行不同步长的池化操作:最后将池化结果 各个特征输入到DWConv,DWConv为深度卷积并拼接得到:
再根据深度卷积拼接结果P分
别生成计算金字塔自注意力需要的查询向量 、键向量 、值向量 得到:其中, 为可学习的金字塔自注
意力参数;之后将上述向量输入到自注意力层得到注意力A:其中 为 的通道数,用作尺度缩放; 上标
代表向量的转置;使用这种金字塔特征降采样的形式,既减少自注意力的计算量,缩小特征序列长度;也引入更丰富的多层次视频特征,有助于与文本特征 进行多尺度的交互;
最后得到多尺度视频特征 :
跨模态多头注意力层:将上一步得到的多尺度视频特征 与文本问题特征 通过归一化层后得到跨模态注意力所需要的查询向量 、键向量 、值向量: 其中 为LayerNorm
归一化层,输入到跨模态多头注意力层:
其中 用作尺度缩放;这样问题语义和视频特征相互联系起来,提取出它们的语义共现,并通过前馈层对共现信息I及文体特征进行处理生成特征信息即下一步视频特征及问题特征 以及问题特征 ;
动态图推理模型:此模型以跨模态多头注意力层的输出共现信息 作指导,通过节点更新操作以及边更新操作,在场景图结构 ,其中H为节点集、E为边集;最后将节点特征池化及边特征拼接并通过全连接层得到输出特征,将输出特征输入到答案解码器中;
节点更新:为了能利用视频特征和文本特征的共现信息,我们将跨模态多头注意力层的输出共现信息 分别与各个节点拼接,并使用图注意力网络;在第 层,关于节点 和节点的注意力 表示为:其中
层为全连接层;当计算完所有的注意力分数后,其第n层的第i个节点特征 更新为:;边更新:为了在更新边的信息时能考虑到时序信息以及节点之间的位置
信息,设计一种核函数 来更新边,使用该核函数根据时序相似度以及位置相似度来评估边的变化情况,最终边更新公式如下: 。
2.根据权利要求1所述的方法,其特征在于:对视频数据进行特征提取的过程包括:
分别对视频数据进行运动特征及外观特征提取,得到视频运动特征及视频外观特征,对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。
3.根据权利要求1所述的方法,其特征在于:通过场景图生成算法对视频数据进行处理的过程包括:构建场景图生成模型,对所述场景图生成模型进行有偏训练,得到有偏场景图生成算法;
通过有偏场景图生成算法对所述视频数据进行处理,得到物体特征;对视频数据中的物体特征进行掩膜覆盖,得到掩膜数据,通过有偏场景图生成算法对掩膜数据进行识别,得到掩膜场景图,对所述视频数据及掩膜场景图进行对比,得到无偏场景图数据;
通过深度生成算法为无偏场景图数据生成伪深度,得到带深度的无偏场景图数据。
4.根据权利要求1所述的方法,其特征在于:获取问题特征的过程包括:
获取问题数据,对问题数据进行初始化,通过Bert模型对初始化后的问题数据进行处理,得到问题特征。
5.根据权利要求1所述的方法,其特征在于:所述核函数 为:
其中 为节点 的坐标, 为节点
的坐标, 为节点 的时间戳, 为节点 的时间戳, 以及 为缩放超参数。
6.根据权利要求1所述的方法,其特征在于:对所述答案线索信息及特征信息进行解码的过程包括:构建答案解码器,对所述答案解码器进行训练;通过训练好的答案解码器对所述答案线索信息及特征信息解码,得到视频问答答案信息,其中训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。