利索能及
我要发布
收藏
专利号: 2021102681873
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于音视频多模态时序预测的视频数据特征提取方法,其特征包括以下步骤:步骤1.利用视频采集装置获取视频数据集,记为X={X1,X2,...,Xi,...,XN},Xi代表第i个视频,1≤i≤N,N表示视频总个数,对所述视频数据集X提取音频流A和视频流V,记为其中, 表示第i个视频Xi的音频流, 表示第i个视频Xi的视频流;令 表示第i个音视频数据对,从而构建音视频数据对集合S={S1,S2,...,Si,...,SN};

步骤2.对所述视频流V中每个视频流依次采用随机裁剪、随机水平翻转、颜色扰动、尺度放缩操作后得到预处理后的视频流 其中, 表示预处理后的第i个视频Xi的视频流;根据视频下采样率r将预处理后的第i个视频Xi的视频流 分成T个块,每一个块包含q个视频帧;

对所述音频流A中每个音频片段依次采用振幅扰动、时间扰动操作后得到预处理后的音频流 其中, 表示预处理后的第i个视频Xi的音频流;将所述预处理后的第i个视频Xi的音频流 按照时间戳分别与预处理后的第i个视频Xi的视频流 的T个块相对应,并对每个块的音频片段采用梅尔频谱图转换操作,将一维音频信号转为二维频谱,从而构建预处理后的第i个音视频数据对 进而得到预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N};

步骤3.构建音视频多模态时序预测模型;

步骤3.1.构建T个视频流特征提取网络单元;

每个视频流特征提取单元依次由M1个三维时空卷积blocks和1个三维自适应最大池化层组成,每一个三维时空卷积block包含M2个子模块,每个子模块包含1个空间三维卷积、1个时间三维卷积,每个空间或时间三维卷积后均连接1个批量归一化层、1个Relu非线性激活函数;

所述预处理后的音视频数据对集合S′={S′1,S′2,...,S′i,...,S′N}输入所述音视频多模态时序预测模型中,其中,预处理后的第i个视频Xi的视频流 中的T个块分别经过T个视频流特征提取网络单元后输出T个视频流特征,其中,前t个视频流特征作为已知视频流信息,后K个视频流特征作为未来视频流信息,t+K=T;

步骤3.2.构建T个音频流特征提取网络单元;

每个音频流特征提取单元依次由W1个二维空间卷积blocks和1个二维自适应最大池化层组成,每一个二维空间卷积block包含W2个子模块,每个子模块包含1个二维空间卷积、1个批量归一化层、1个Relu非线性激活函数;

所述预处理后的第i个视频Xi的音频流 中相对应的T个块分别经过T个音频流特征提取网络单元后输出T个音视频流特征;其中,前t个音频流特征作为已知音频流信息,后K个音频流特征作为未来音频流信息;

步骤3.3.构建时序信息聚合网络单元;

所述时序信息聚合网络单元由T个卷积门控循环单元ConvGRU组成;

所述时序信息聚合网络单元分别聚合前t个已知视频流信息和前t个已知音频流信息,从而相应得到已知信息的第t个代表性视频流特征和得到已知信息的第t个代表性音频流特征;

步骤3.4.构建多模态交互预测网络单元;

所述多模态交互预测网络单元,包含1个音频特征映射单元、1个视频特征映射单元、2个音视频特征交互预测单元;

音频或视频特征映射单元、音视频特征交互预测单元均包含1个二维卷积层、1个Relu非线性激活函数、一个二维卷积层;

所述视频特征映射单元对已知信息的代表性视频流特征进行模态信息转换,得到空间映射后的视频特征;

所述音频特征映射单元对已知信息的代表性音频流特征进行模态信息转换,得到空间映射后的音频特征;

所述音视频特征交互预测单元分别对空间映射后的视频特征信息和空间映射后的音频特征信息进行预测,从而相应得到视频模态和音频模态下的第t+1个未来特征信息,将各模态的第t+1个未来特征信息分别再次送入各自对应的时序信息聚合网络单元,得到第t+2个未来特征信息,从而不断循环预测并相应得到视频模态和音频模态下的K个未来特征信息;

步骤4.根据多模态交互预测得到的未来特征信息,构建对比损失函数优化网络;

v

步骤4.1.利用式(1)预测未来视频流信息下的对比损失loss:

式(1)中,E表示期望, 表示特征相似度函数, 表示预处理后的第i个视频Xi的视频流 的第t个块预测的第k个未来特征信息,1≤k≤K, 表示预处理后的第i个视频Xi的视频流 的第t+k个真实的未来特征信息; 表示预处理后的第j个视频Xi的视频流的第t+k个真实的未来特征信息,1≤j≤N;

a

步骤4.2.利用式(2)预测未来音频流特征下的对比损失loss:

式(2)中, 表示预处理后的第i个视频Xi的音频流 的第t个块预测的第k个未来特征信息,1≤k≤K, 表示预处理后的第i个视频Xi的音频流 的第t+k个真实的未来特征信息; 表示预处理后的第j个视频Xi的音频流 的第t+k个真实的未来特征信息,1≤j≤N;

步骤4.3.利用式(3)计算音视频多模态预测的总损失Loss:

v a

Loss=loss+loss                (3)步骤5.利用自适应矩阵估计优化算法对总损失Loss进行优化求解,更新音视频多模态时序预测模型的网络参数,并得到训练好的最优预测模型;从而利用所述训练好的最优预测模型中的视频流特征提取网络单元、音频流特征提取网络单元和时序信息聚合网络单元对待预测的视频进行处理,得到各模态下的代表性特征。