1.一种多模态图像处理方法,其特征在于,包括如下步骤:
获取待分析视频数据,并获取所述待分析视频数据的起始时间和截止时间,以建立时间坐标轴;
提取所述待分析视频数据中的随所述时间坐标轴变化的声波变化图像,包括:提取所述待分析视频数据中的人声声音数据和环境声音数据;获取根据所述人声声音数据和所述时间坐标轴建立的人声声波变化图像;获取根据所述环境声音数据和所述时间坐标轴建立的环境声波变化图像;通过所述人声声波变化图像从所述待分析视频数据中筛选第一目标片段;通过所述环境声波变化图像从所述待分析视频数据中筛选第二目标片段;
提取所述声波变化图像中变化幅度超过预设范围的图像片段对应的时间坐标区间,根据所述时间坐标区间从所述待分析视频数据的画面流中提取对应的画面图像作为比对图像集合;
通过图像识别单元将比对图像集合中的各幅画面图像与标准图像进行比对,以提取出含有标准图像的目标图像,并获取所述目标图像对应的时间坐标;
根据所述目标图像对应的时间坐标,在所述待分析视频数据中定位第一关键片段;
沿所述待分析视频数据的进度条,根据所述第一关键片段显示片段切换触控按键;
根据所述声波变化图像随所述时间坐标轴的变化,从所述待分析视频数据中定位第二关键片段,包括:获取各个第一目标片段对应的第一时间坐标区间;获取各个第二目标片段对应的第二时间坐标区间;判断第一时间坐标区间和第二时间坐标区间是否存在时间连续性;将存在时间连续性的第一时间坐标区间和第二时间坐标区间整合成一个时间坐标区间;根据不存在时间连续性的第一时间坐标区间和第二时间坐标区间,以及根据第一时间坐标区间和第二时间坐标区间整合成的时间坐标区间,确定对应的进度条区间,以形成关键进度条区间;根据所述关键进度条区间,从所述待分析视频数据中定位第二关键片段;
沿所述待分析视频数据的进度条,根据所述第二关键片段显示片段切换触控按键。
2.根据权利要求1所述的多模态图像处理方法,其特征在于,所述通过所述人声声波变化图像从所述待分析视频数据中筛选第一目标片段的步骤,包括:获取人声声波变化图像中纵坐标的最大值、纵坐标的最小值,以及所述人声声波变化图像的起始时间和结尾时间;
根据人声声波变化图像中所述纵坐标的最大值、所述纵坐标的最小值,以及所述人声声波变化图像的起始时间和结尾时间,制定人声声波扫描窗的宽度和高度;
采用所述人声声波扫描窗沿所述时间坐标轴对所述人声声波变化图像进行扫描;
计算所述人声声波扫描窗中每一次扫描过的人声声波片段的第一纵坐标均值;
筛选出第一纵坐标均值超过第一预设值的人声声波片段作为第一目标片段;
其中,人声声波扫描窗的高度为Ha,宽度为Wa;
Ha=MAX(ya1,ya2......,yan)‑MIN(ya1,ya2......,yan);
其中,ya1,ya2......,yan,分别表示人声声波变化图像中第1个声波坐标点、第2个声波坐标点,......,直至第n个声波坐标点的纵坐标值;MAX(ya1,ya2......,yan)表示人声声波变化图像中各个声波坐标点的纵坐标最大值;MIN(ya1,ya2......,yan)表示人声声波变化图像中各个声波坐标点的纵坐标最小值;
其中,t1表示所述人声声波变化图像中第1个声波坐标点的横坐标值,tn表示所述人声声波变化图像中第n个声波坐标点的横坐标值,tWa表示人声声波变化图像的参考时间宽度,tBa表示人声声波变化图像的标准声波波形扫描窗的时间宽度。
3.根据权利要求1所述的多模态图像处理方法,其特征在于,所述通过所述环境声波变化图像从所述待分析视频数据中筛选第二目标片段的步骤,包括:获取环境声波变化图像中纵坐标的最大值、纵坐标的最小值,以及所述环境声波变化图像的起始时间和结尾时间;
根据环境声波变化图像中所述纵坐标的最大值、所述纵坐标的最小值,以及所述环境声波变化图像的起始时间和结尾时间,制定环境声波扫描窗的宽度和高度;
采用所述环境声波扫描窗沿所述时间坐标轴对所述环境声波变化图像进行扫描;
计算所述环境声波扫描窗中每一次扫描过的环境声波波形片段的第二纵坐标均值;
筛选出第二纵坐标均值超过第二预设值的环境声波波形片段作为第二目标片段;
其中,环境声波扫描窗的高度为Hb,宽度为Wb;
Hb=MAX(yb1,yb2......,ybn)‑MIN(yb1,yb2......,ybn);
其中,yb1,yb2......,ybn,分别表示环境声波变化图像中第1个声波坐标点、第2个声波坐标点,......,直至第n个声波坐标点的纵坐标值;MAX(yb1,yb2......,ybn)表示环境声波变化图像中各个声波坐标点的纵坐标最大值;MIN(yb1,yb2......,ybn)表示环境声波变化图像中各个声波坐标点的纵坐标最小值;
其中,t1表示所述环境声波变化图像中第1个声波坐标点的横坐标值,tn表示所述环境声波变化图像中第n个声波坐标点的横坐标值,tWb表示环境声波变化图像的参考时间宽度,tBb表示环境声波变化图像的标准声波波形扫描窗的时间宽度。
4.根据权利要求1所述的多模态图像处理方法,其特征在于,所述将存在时间连续性的第一时间坐标区间和第二时间坐标区间整合成一个时间坐标区间的步骤,包括:判断存在时间连续性的各个第一时间坐标区间和各个第二时间坐标区间是否存在交集;
若是,将存在交集的第一时间坐标区间和第二时间坐标区间进行并集运算,以整合得到第三时间坐标区间,直至各个第一时间坐标区间和各个第二时间坐标区间不存在交集;
若否,获取存在时间连续性且不存在交集的第一时间坐标区间和第二时间坐标区间中的时间坐标起始值和终止值,根据所述起始值和所述终止值,以整合得到第四时间坐标区间。
5.根据权利要求1至4中任一项所述的多模态图像处理方法,其特征在于,所述沿所述待分析视频数据的进度条,根据所述第二关键片段显示片段切换触控按键的步骤,包括:确定所述第二关键片段的时间坐标区间对应的进度条区间;
获取在播放界面上预设的声波变化图像显示条幅,其中,所述声波变化图像显示条幅位于所述进度条的上方或者下方,且沿所述进度条延伸;
将所述声波变化图像沿进度条显示在所述声波变化图像显示条幅中;
将所述进度条区间在所述进度条进行标识;
获取每个所述第二关键片段对应的起始时间坐标,根据所述起始坐标调取每个所述第二关键片段对应的起始画面图像;
将所述第二关键片段的起始画面图像沿所述进度条显示,且每个所述第二关键片段的起始画面图像关联有片段切换触控按键。
6.根据权利要求1至4中任一项所述的多模态图像处理方法,其特征在于,所述获取根据所述人声声音数据和所述时间坐标轴建立的人声声波变化图像的步骤,包括:获取所述人声声音数据中随时间变化的短时能量、基频数据、语速数据和共振峰数据;
根据每个时间点的所述短时能量、所述基频数据、所述语速数据和所述共振峰数据,确定对应时间点的人声声波效应值;
以时间值作为横坐标,以所述人声声波纵效应值作为纵坐标,建立人声声波变化图像;
和/或
所述获取根据所述环境声音数据和所述时间坐标轴建立的环境声波变化图像的步骤,包括:获取所述环境声音数据中随时间变化的振幅数据;
以时间值作为横坐标,以所述振幅数据作为纵坐标,建立环境声波变化图像;
其中,人声声波效应值的计算公式为:
yai表示人声声波变化图像中第i个声波坐标点分别对应的人声声波效应值,0
r1、r2、r3和r4为短时能量、基频数据、语速数据和共振峰数据分别对应的权值,且r1、r2、r3和r4的取值范围均为(0,1),同时,r1+r2+r3+r4=1;
xai、zai、eai、fai分别表示人声声波变化图像中第i个声波坐标点分别对应的短时能量、基频数据、语速数据和共振峰数据;
a、b、c、d分别表示短时能量标准值、基频数据标准值、语速数据标准值和共振峰数据标准值;
其中,环境声波变化图像中,ybj表示环境声波变化图像中第j个声波坐标点分别对应的环境声波振幅值,0
7.一种多模态图像处理系统,其特征在于,用于执行权利要求1至6中任一项所述方法的步骤,所述多模态图像处理系统包括:获取模块,用于获取待分析视频数据,并获取所述待分析视频数据的起始时间和截止时间,以建立时间坐标轴;
声波变化图像提取模块,用于提取所述待分析视频数据中的随所述时间坐标轴变化的声波变化图像;
比对图像提取模块,用于提取所述声波变化图像中变化幅度超过预设范围的图像片段对应的时间坐标区间,根据所述时间坐标区间从所述待分析视频数据的画面流中提取对应的画面图像作为比对图像集合;
识别模块,用于通过图像识别单元将比对图像集合中的各幅画面图像与标准图像进行比对,以提取出含有标准图像的目标图像,并获取所述目标图像对应的时间坐标;
定位模块,用于根据所述目标图像对应的时间坐标,在所述待分析视频数据中定位第一关键片段;
触控选择模块,用于沿所述待分析视频数据的进度条,根据所述第一关键片段显示片段切换触控按键。