1.一种数据处理方法,其特征在于,获取待处理的视频数据,对视频数据进行切分,对切分后的数据进行分析,确定是否存在低质量数据,若存在,确定具体的低质量数据类型,选择与所述类型对应的处理方法,进行调优,输出调优后的视频数据;
确定是否存在低质量数据具体包括:对视频数据进行音频轨、图像轨的分离,将音频轨输入训练好的声学识别模型,将图像轨输入训练好的图像识别模型,确定音频轨、图像轨是否存在缺陷;
所述调优包括:若存在缺陷,调用相应的处理方法分别对分离后得到的音频轨、图像轨存在的缺陷进行修正;当图像画面存在亮度缺陷时,定位缺陷区域中心,当中心位置处的亮度值与图像整体的亮度值的平均值的差值在预设阈值内时,对整个图像画面进行亮度修复处理,当差值在预设阈值外时,对缺陷区域进行椭圆拟合,根据椭圆区域的长轴确定步长信息,分别取中心八邻域方向距离中心预设步长的多个点的加权平均亮度信息来对区域内部的各点的亮度信息进行均匀化处理,使得各点的亮度处于多个点中的最大亮度和最小亮度之间;
当确定存在音画不同步的缺陷时,则对音频轨、视频轨的数据进行识别得到文本结果,将两部分文本进行对齐,确定存在的时间差,根据得到的时间差对音频轨、视频轨进行对齐;
在对音频轨和视频画面轨进行对齐后,将各时间窗与时间窗中提及的文本进行映射存储,利用视频的领域语料库基于命名实体模型对文本进行分词检测,确定其中提及的频率高于设定值的多个实体,对关联对应实体的音调以及画面停留进行检测,以音调较高、画面停留时间较长为原则,选取排序靠前m个实体,将m个实体与所属的时间窗进行关联,形成视频文件的词汇实体大纲;
获取用户的眼动信息,确定眼睛的注视角度和时长信息,获取用户面部与显示屏幕的第二角度信息,结合注视角度与第二角度信息确定眼睛注视屏幕的坐标范围,锚定坐标范围中的文本以及注视时长,根据注视时长确定注视文本中的关键词汇实体,更新所述词汇实体大纲。
2.根据权利要求1所述的方法,其特征在于,还包括:对调优后的视频数据进行检测,确定出存在空白音的片段,并记录各片段所对应的起始位置和结束位置;对各片段进行筛选,筛选出空白音时长超过预设阈值的片段集合,将片段集合中各片段的起始位置、结束位置分别后移和前移设定的偏移分量后得到新的起始位置和结束位置,根据新的起始位置和结束位置剪去集合中的各片段,依次对断点处进行缝合,得到待输出的视频数据。
3.根据权利要求1所述的方法,其特征在于,检测输出的视频数据的指标,确认是否符合预先设定的标准,当不符合所述标准时,对系统进行重新初始化的操作,再次回到获取待处理的视频数据的步骤,进行后续的处理。
4.根据权利要求1所述的方法,其特征在于,对输出的视频数据重新进行分片处理,为得到的分片数据添加编码标识,对分片数据进行加密后上传到区块链进行存证。
5.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理的视频数据;
数据切分模块,用于对视频数据进行切分;
数据处理模块,用于对切分后的数据进行分析,确定是否存在低质量数据,若存在,确定具体的低质量数据类型,选择与所述类型对应的处理方法,进行调优;
确定是否存在低质量数据具体包括:对视频数据进行音频轨、图像轨的分离,将音频轨输入训练好的声学识别模型,将图像轨输入训练好的图像识别模型,确定音频轨、图像轨是否存在缺陷;
所述调优包括:若存在缺陷,调用相应的处理方法分别对分离后得到的音频轨、图像轨存在的缺陷进行修正;当图像画面存在亮度缺陷时,定位缺陷区域中心,当中心位置处的亮度值与图像整体的亮度值的平均值的差值在预设阈值内时,对整个图像画面进行亮度修复处理,当差值在预设阈值外时,对缺陷区域进行椭圆拟合,根据椭圆区域的长轴确定步长信息,分别取中心八邻域方向距离中心预设步长的多个点的加权平均亮度信息来对区域内部的各点的亮度信息进行均匀化处理,使得各点的亮度处于多个点中的最大亮度和最小亮度之间;
输出模块,用于输出调优后的视频数据;
当确定存在音画不同步的缺陷时,则对音频轨、视频轨的数据进行识别得到文本结果,将两部分文本进行对齐,确定存在的时间差,根据得到的时间差对音频轨、视频轨进行对齐;
在对音频轨和视频画面轨进行对齐后,将各时间窗与时间窗中提及的文本进行映射存储,利用视频的领域语料库基于命名实体模型对文本进行分词检测,确定其中提及的频率高于设定值的多个实体,对关联对应实体的音调以及画面停留进行检测,以音调较高、画面停留时间较长为原则,选取排序靠前m个实体,将m个实体与所属的时间窗进行关联,形成视频文件的词汇实体大纲;
获取用户的眼动信息,确定眼睛的注视角度和时长信息,获取用户面部与显示屏幕的第二角度信息,结合注视角度与第二角度信息确定眼睛注视屏幕的坐标范围,锚定坐标范围中的文本以及注视时长,根据注视时长确定注视文本中的关键词汇实体,更新所述词汇实体大纲。
6.根据权利要求5所述的装置,其特征在于,还包括上传模块,用于对输出的视频数据重新进行分片处理,为得到的分片数据添加编码标识,对分片数据进行加密后上传到区块链进行存证。
7.一种计算机可读存储介质,其特征在于,其上存储有程序指令,该程序指令被计算机执行时,实现如权利要求1‑4任一项所述的方法的步骤。
8.一种计算机设备,其特征在于,该设备包括处理器和存储器,处理器和存储器通过总线进行通信,存储器上存储有程序指令,该程序指令被处理器执行时,实现如权利要求1‑4任一项所述的方法的步骤。