利索能及
我要发布
收藏
专利号: 202210583664X
申请人: 上海商汤智能科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-28
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视频处理方法,其特征在于,包括:

确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号;

对所述目标视频帧图像进行第一编码处理,得到图像特征数据;以及对所述目标音频信号进行第二编码处理,得到音频特征数据;

对所述图像特征数据以及所述音频特征数据进行特征融合处理,得到融合特征数据;

基于所述融合特征数据进行解码处理,得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

2.根据权利要求1所述的方法,其特征在于,所述确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号,包括:获取所述待处理视频、以及与所述待处理视频对应的待处理音频信号,并将所述待处理视频划分为多个待处理子视频;

按照与所述待处理子视频对应的划分方式,将所述待处理音频信号划分为与多个所述待处理子视频分别对应的目标音频信号,以及对多个所述待处理子视频分别进行抽帧处理,得到多个所述待处理子视频分别对应的目标视频帧图像。

3.根据权利要求1所述的方法,其特征在于,所述对所述目标视频帧图像进行第一编码处理,得到图像特征数据,包括:对所述目标视频帧图像进行多级特征提取处理,得到多级特征提取处理的分别对应的中间图像特征数据;

针对多级特征提取中的每级特征提取,对每级特征提取处理对应的中间图像特征数据进行多个采样率的空洞卷积并行采样,得到所述目标视频帧图像对应的图像特征数据。

4.根据权利要求1‑3任一项所述的方法,其特征在于,对所述目标音频信号进行第二编码处理,得到音频特征数据,包括:将所述目标音频信号转换为频谱数据;

对所述频谱数据进行特征提取处理,得到所述音频特征数据。

5.根据权利要求1‑4任一项所述的方法,其特征在于,所述对所述图像特征数据以及所述音频特征数据进行特征融合处理,得到融合特征数据,包括:对所述音频特征数据进行尺寸转化处理,得到尺寸与所述图像特征数据匹配的转化音频特征数据;

确定所述转换音频特征数据、以及所述图像特征数据之间的相似度;

基于所述相似度,对所述图像特征数据进行调整处理,得到所述融合特征数据。

6.根据权利要求5所述的方法,其特征在于,所述对所述音频特征数据进行尺寸转化处理,得到尺寸与所述图像特征数据匹配的转化音频特征数据,包括:基于所述图像特征数据的数据通道数,对所述音频特征数据进行线性变换处理,得到数据通道数与所述图像特征数据一致的中间音频特征数据;

基于所述图像特征数据的高度、以及宽度,对所述中间音频特征数据进行空间上的重复处理,得到所述转化音频特征数据。

7.根据权利要求5或6所述的方法,其特征在于,所述确定所述转换音频特征数据、以及所述图像特征数据之间的相似度,包括:利用第一卷积核对所述图像特征数据进行卷积处理,得到第一卷积图像特征数据;

以及,利用第二卷积核对所述转换音频特征数据进行卷积处理,得到第一卷积转换音频特征数据;

分别对所述第一卷积图像特征数据和所述第一卷积转换音频特征数据进行降维处理,得到第二卷积图像特征数据以及第二卷积转换音频特征数据;

对所述第二卷积图像特征数据以及所述第二卷积转换音频特征数据进行点乘处理,得到所述相似度。

8.根据权利要求5‑7任一项所述的方法,其特征在于,所述基于所述相似度,对所述图像特征数据进行调整处理,得到所述融合特征数据,包括:利用第三卷积核对所述图像特征数据进行卷积处理,得到第三卷积图像特征数据,并对所述第三卷积图像特征数据进行降维处理,得到第四卷积图像特征数据;

将所述第四卷积图像特征数据和所述相似度进行点乘处理后,得到与所述图像特征数据对应的调整特征数据;

将所述调整特征数据和所述图像特征数据进行融合,得到所述融合特征数据。

9.根据权利要求8所述的方法,其特征在于,所述将所述调整特征数据和所述图像特征数据进行融合,得到所述融合特征数据,包括:对所述调整特征数据进行升维处理,得到升维后的调整特征数据;其中,所述升维后的调整特征数据的数据维度、与所述图像特征数据的数据维度相同;

利用第四卷积核对所述升维后的调整特征数据进行卷积处理,得到目标调整特征数据;

将所述目标调整特征数据和所述图像特征数据进行叠加,得到所述融合特征数据。

10.根据权利要求3‑9任一项所述的方法,其特征在于,多级特征提取处理包括:末级特征提取处理、以及非末级特征提取处理;所述融合特征数据包括:与所述末级特征提取处理对应的第一融合特征数据、以及与所述非末级特征提取处理对应的第二融合特征数据;

所述基于所述融合特征数据进行解码处理,得到所述目标视频帧图像中与所述音频信号对应的发声对象在所述目标视频帧图像中的第一位置信息,包括:对所述末级特征提取处理对应的第一融合特征数据进行上采样,得到对所述末级特征提取处理对应的解码特征数据;以及对所述非末级特征提取处理对应的第二融合特征数据、以及与所述非末级特征提取对应的下一级特征去处理对应的解码特征数据进行融合,得到所述非末级特征提取处理对应的融合特征数据,并所述非末级特征提取处理对应的融合特征数据进行上采样,得到所述非末级特征提取处理对应的解码特征数据;

基于所述非末级特征提取处理中的第一级特征提取处理对应的解码特征数据,得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

11.根据权利要求1‑10任一项所述的方法,其特征在于,还包括:基于所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息,生成包括所述发声对象对应掩码的掩码视频帧图像。

12.根据权利要求1‑11任一项所述的方法,其特征在于,所述视频处理方法应用于预先训练好的目标神经网络中,所述目标神经网络包括:编码器网络、以及解码器网络;

所述编码器网络用于对所述目标视频帧图像进行第一编码处理,得到图像特征数据;

以及对所述目标音频信号进行第二编码处理,得到音频特征数据;对所述图像特征数据以及所述音频特征数据进行特征融合处理,得到融合特征数据;

所述解码器网络用于基于所述融合特征数据进行解码处理,得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

13.根据权利要求12所述的方法,其特征在于,还包括:

获取样本数据;所述样本数据包括对所述神经网络进行半监督训练的第一样本数据、和/或对所述神经网络进行全监督训练的第二样本数据;

利用所述样本数据对待训练神经网络进行训练,得到所述目标神经网络。

14.根据权利要求13所述的方法,其特征在于,所述样本数据包括所述第一样本数据,所述第一样本数据包括:多帧第一样本图像、与各帧第一样本图像分别对应的第一样本音频信号、以及与首帧第一样本图像对应的标注信息;所述标注信息用于指示单一发声的目标对象的像素点在所述第一样本图像中的第一位置信息;

所述获取样本数据包括:

获取第一原始样本视频、以及与所述第一原始样本视频对应的第一原始样本音频信号,并将所述第一原始样本视频划分为多个第一样本子视频;

按照与所述第一样本子视频对应的划分方式,将所述第一原始样本音频信号划分为与多个所述第一样本子视频分别对应的第一样本音频信号,以及对多个所述第一样本子视频分别进行抽帧处理,得到多个所述第一样本子视频分别对应的第一样本图像;

对时间戳最早的第一样本图像进行标注,得到标注信息。

15.根据权利要求13或14所述的方法,其特征在于,所述样本数据包括所述第二样本数据,所述第二样本数据包括:多帧第二样本图像、与各帧第二样本图像分别对应的第二样本音频信号、以及多帧所述第二样本图像分别对应的标注信息;所述标注信息用于指示多个发声的目标对象的像素点在各帧所述第二样本图像中的第一位置信息;

所述获取样本数据包括:

获取第二原始样本视频、以及与所述第二原始样本视频对应的第二原始样本音频信号,并将所述第二原始样本视频划分为多个第二样本子视频;

按照与所述第二样本子视频对应的划分方式,将所述第二原始样本音频信号划分为与多个所述第二样本子视频分别对应的第二样本音频信号,以及对多个所述样本子视频分别进行抽帧处理,得到多个所述第二样本子视频分别对应的第二样本图像;

对多帧第二样本图像分别进行标注,得到多帧所述第二样本图像分别对应的标注信息。

16.根据权利要求13‑15任一项所述的方法,其特征在于,所述待训练神经网络包括:待训练编码器、以及待训练解码器;

所述利用所述样本数据对待训练神经网络进行训练,得到所述目标神经网络,包括:利用所述待训练编码器对所述样本数据进行编码处理,得到样本图像特征数据、以及样本音频特征数据,并对所述样本图像特征数据和所述样本音频特征数据进行特征融合处理,得到样本融合特征数据;

利用所述待训练解码器对所述样本融合特征数据作解码处理,得到所述样本数据中与样本音频数据对应发声对象的像素点在所述样本视频图像中的第二位置信息;

基于所述样本融合特征数据、所述第二位置信息、以及所述样本音频特征数据,确定模型损失;

基于所述模型损失对所述待训练编码器和所述待训练解码器进行参数调整,得到目标神经网络。

17.一种视频处理装置,其特征在于,包括:

确定模块,用于确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号;

编码模块,用于对所述目标视频帧图像进行第一编码处理,得到图像特征数据;以及对所述目标音频信号进行第二编码处理,得到音频特征数据;

融合模块,用于对所述图像特征数据以及所述音频特征数据进行特征融合处理,得到融合特征数据;

解码模块,用于基于所述融合特征数据进行解码处理,得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

18.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至16任一项所述的视频处理方法的步骤。

19.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至16任一项所述的视频处理方法的步骤。