1.一种基于人脑情景记忆通路启发的文本视频检索方法,其特征在于,包括:获得目标文本数据或目标视频数据并输入至文本视频检索模型,所述文本视频检索模型包括内容编码组件、情境编码组件和双曲图神经网络;
利用内容编码组件对目标文本数据或目标视频数据进行内容表征提取获得多尺度目标文本表征或多尺度目标视觉表征;
利用情境编码组件对目标文本数据或目标视频数据进行情境表征提取获得目标文本令牌或目标视觉令牌;
将多尺度目标文本表征和目标文本令牌输入至双曲图神经网络获得目标文本场景表征;或者将多尺度目标视觉表征和目标视觉令牌输入至双曲图神经网络获得目标视觉场景表征;将目标文本场景表征或目标视觉场景表征作为目标索引;
计算待检索文本或视频的表征与目标索引的相似度,根据相似度对待检索文本或视频进行筛选获得目标检索结果;
所述文本视频检索模型的训练过程包括:
获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文本事件表征、文本语义单元表征、视觉事件表征和视觉语义单元表征;
将视频训练数据以及文本训练数据与单词矩阵掩码分别输入至情境编码组件获得文本令牌表征和视觉令牌表征;
将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征;根据文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征、视觉令牌表征、文本场景表征和视觉场景表征计算训练损失值;根据训练损失值优化文本视频检索模型的权重参数,重复迭代直至达到训练终止条件输出训练后的文本视频检索模型。
2.根据权利要求1所述的文本视频检索方法,其特征在于,所述内容编码组件包括第一内容编码组件、第二内容编码组件和第三内容编码组件;
所述获取文本训练数据和视频训练数据并输入至内容编码组件获得单词矩阵掩码、文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征,具体包括:将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉全局表征;
通过句法分析器将文本训练数据获得短语以及单词矩阵掩码;
将短语输入至第二内容编码组件获得文本语义单元表征;
通过K均值算法将视觉全局表征分割为视觉语义单元表征;
将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征。
3.根据权利要求2所述的文本视频检索方法,其特征在于,所述第一内容编码组件包括卷积神经网络、全局视觉编码器和全局文本编码器;
将文本训练数据和视频训练数据输入至第一内容编码组件获得文本全局表征和视觉全局表征,具体包括:通过卷积神经网络由视频训练数据中提取图像块序列;将图像块序列进行层归一化处理后输入至所述全局视觉编码器内的多头注意力层获得全局视觉提取特征,将全局视觉提取特征与图像块序列拼接后的全局视觉融合特征,将全局视觉融合特征进行层归一化处理后输入至所述全局视觉编码器内的多层感知机获得全局视觉感知特征;将全局视觉感知特征与全局视觉融合特征拼接获得视觉全局表征;
将文本训练数据进行层归一化处理后输入至所述全局文本编码器内的多头注意力层获得全局本文提取特征,将全局本文提取特征与文本训练数据拼接后的全局文本融合特征,将全局文本融合特征进行层归一化处理后输入至所述全局文本编码器内的多层感知机获得全局文本感知特征;将全局文本感知特征与全局文本融合特征拼接获得文本全局表征。
4.根据权利要求2所述的文本视频检索方法,其特征在于,所述第三内容编码组件包括事件视觉编码器和事件文本编码器;
将文本语义单元表征和视觉语义单元表征输入至第三内容编码组件后,并与文本全局表征和视觉全局表征相加获得文本事件表征与视觉事件表征,具体包括:将视觉语义单元表征进行层归一化处理后输入至所述事件视觉编码器内的多头注意力层获得视觉事件提取特征,对视觉事件提取特征进行层归一化处理后输入至所述事件视觉编码器内的多层感知机获得视觉事件感知特征;
对视觉全局表征进行平均池化处理后,与视觉事件感知特征以及视觉事件提取特征拼接获得视觉事件表征;
将文本语义单元表征进行层归一化处理后输入至所述事件文本编码器内的多头注意力层获得文本事件提取特征,对文本事件提取特征进行层归一化处理后输入至所述事件文本编码器内的多层感知机获得文本事件感知特征;
对文本全局表征添加分类标记后,与文本事件感知特征以及文本事件提取特征拼接获得文本事件表征。
5.根据权利要求1所述的文本视频检索方法,其特征在于,所述情境编码组件包括情境视觉编码器;
将视频训练数据输入至情境编码组件获得视觉令牌,具体包括:
将视频训练数据输入至情境视觉编码器,对视频训练数据进行层归一化处理后获得视觉标准数据,对视觉标准数据添加分类标签获得视觉初始令牌;
将视觉初始令牌顺着视频帧序列的方向前后移动捕获细粒度的时序信息,并输入至情境视觉编码器内的多头注意力层获得视觉提取令牌,将视觉提取令牌与视觉初始令牌拼接获得视觉融合令牌;将视觉融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第一视觉感知令牌;将第一视觉感知令牌与视觉融合令牌拼接获得视觉细化令牌;
将视觉细化令牌输入至令牌选择层内的多层感知机,将视觉细化令牌压缩至设定比例获得第一视觉压缩令牌;
对第一视觉压缩令牌添加分类标记后再次输入至令牌选择层内的多层感知机获得第二视觉压缩令牌;
对第二视觉压缩令牌进行Softmax函数计算获得重要性评分,然后根据重要性评分选择每个视频帧中前K个视觉细化令牌作为视觉关键令牌;
将视觉关键令牌进行层归一化后,并输入至情境视觉编码器内的多头注意力层获得视觉关键细化令牌,将视觉关键细化令牌与视觉关键令牌拼接获得视觉关键融合令牌;将视觉关键融合令牌进行层归一化处理后输入至情境视觉编码器内的多层感知机获得第二视觉感知令牌,然后将第二视觉感知令牌与视觉关键融合令牌拼接获得视觉令牌。
6.根据权利要求1所述的文本视频检索方法,其特征在于,所述情境编码组件包括第一神经网络架构和第二神经网络架构;
将文本训练数据和单词矩阵掩码输入至情境编码组件获得文本令牌,具体包括:将文本训练数据输入至第一神经网络架构,对文本训练数据进行层归一化处理后输入至第一神经网络架构内的多头注意力层获得第一文本提取令牌,将第一文本提取令牌与文本训练数据拼接获得第一文本融合令牌;将第一文本融合令牌进行层归一化处理后输入至第一神经网络架构内的多层感知机获得第一文本感知令牌;将第一文本感知令牌与第一文本融合令牌拼接获得文本细化令牌;
将文本细化令牌输入至第二神经网络架构,对文本细化令牌进行层归一化处理获得文本标准化令牌,将文本标准化令牌和单词矩阵掩码输入至第二神经网络架构内的多头注意力层获得第二文本提取令牌,将第二文本提取令牌与文本细化令牌拼接获得第二文本融合令牌;将第二文本融合令牌进行层归一化处理后输入至第二神经网络架构内的多层感知机获得第二文本感知令牌,将第二文本感知令牌与第二文本融合令牌拼接获得文本令牌。
7.根据权利要求1所述的文本视频检索方法,其特征在于,将文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征作为节点特征映射至双曲空间构建邻接矩阵,具体包括:将视觉事件表征和文本事件表征映射至双曲空间中第一级别粒度的节点特征;将视觉语义单元表征和文本语义单元表征映射至双曲空间中第二级别粒度的节点特征;将视觉令牌表征和文本令牌表征映射至双曲空间中第三级别粒度的节点特征;
将相同级别粒度的节点相互连接,将第二级别粒度的各个节点特征与所有第一级别粒度的节点特征建立连接;根据语义从属关系在第二级别粒度的节点特征与第三级别粒度的节点特征之间建立连接;当第 个节点特征与第 个节点特征之间存在连接时,连接边;否则,连接边 ;根据各节点特征之间的连接关系建立邻接矩阵 。
8.根据权利要求7所述的文本视频检索方法,其特征在于,将邻接矩阵和节点特征输入至双曲图神经网络,通过双曲图卷积操作和池化操作获得文本场景表征和视觉场景表征,具体包括:对节点特征进行特征转变捕获双曲空间隐藏表征,计算公式为:
;
;
;
其中, 表示第 层的第 个节点特征的双曲空间隐藏表征, 为欧几里得空间至双曲空间的表征映射函数; 表示第 层的第 个节点特征的欧几里得空间隐藏表征, 为双曲正切函数, 为反双曲正切函数, 表示第 层的可学习参数, 表示双曲空间中第 层的曲率, 为双曲空间中第 层的第 个节点特征; 为双曲空间至欧几里得空间的表征映射函数;
根据邻接矩阵对节点特征进行信息聚合获得双曲空间聚合表征,表达公式为:;
;
;
其中, 表示第 层的第 个节点特征的双曲空间聚合表征, 为节点信息聚合函数; 表示第 个节点特征的邻居节点集, 表示第i个节点特征和第j个节点特征之间的聚合权重,[ ; ]表示张量拼接操作, 是可学习矩阵; 表示第 层的第 个节点特征的双曲空间隐藏表征; 为双曲空间隐藏表征 与双曲空间隐藏表征之间的距离; 表示双曲空间中第 层的曲率; 为双曲函数; 为带
泄露线性整流函数; 为逻辑函数;
将双曲空间聚合表征输入至激活函数获得双曲空间表征,表达公式为:
;
其中, 表示第 层的第 个节点的双曲空间表征; 为双曲图神经网络的激活函数;
对双曲空间表征 进行池化操作获得文本场景表征和视频场景表征。
9.根据权利要求1所述的文本视频检索方法,其特征在于,根据文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征和视觉令牌表征、文本场景表征和视觉场景表征计算训练损失值,具体包括:根据文本事件表征、文本语义单元表征、视觉事件表征、视觉语义单元表征、文本令牌表征、视觉令牌表征、文本场景表征和视觉场景表征分别计算获得事件检索损失、单元表征检索损失、令牌检索损失以及场景检索损失;
对各级别粒度的节点特征之间添加父子关系,计算双曲空间的层级结构损失,表达公式为:;
公式中, 为文本孩子节点的双曲表征, 为视觉孩子节点的双曲表征, 为文本父亲节点的双曲表征, 表示视觉父亲节点的双曲表征, 为双曲表征 至双曲表征之间的距离损失; 为双曲表征 与双曲表征 之间的距离损失;表示存在父子关系的节点特征集合, 表示与第 个节点特征不存在父子关系的节点集合; 为双曲表征 至双曲表征 之间的位置损失; 为双曲表征 与双曲表征 之间的位置损失; 为超参数, 为二范数, 为取最大值;为文本孩子节点或视觉孩子节点的序号;为文本父亲节点或视觉父亲节点的序号;
根据事件检索损失、单元表征检索损失、令牌检索损失、场景检索损失、距离损失 、距离损失 、位置损失 和位置损失 计算训练损失值。