利索能及
我要发布
收藏
专利号: 2024117186529
申请人: 深圳数拓科技有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种智能音视频混合传输策略,其特征在于,包括:

在一个监测周期内,实时获取用户交互数据、实时音视频数据,对实时音视频数据进行数据分离,得到实时视频数据与实时音频数据;

对实时视频数据进行视频帧提取,得到画面数据,分析并对比画面数据的基础参数是否与预设画面参数一致,并生成第一异常评估结果;

基于用户交互数据获取交互时间节点与画面交互类型信息,基于交互时间节点从画面数据中进行对应画面截取,形成检测画面数据,对检测画面数据进行特征提取、图像识别与文字识别,生成语义识别结果;

通过用户交互数据从画面语义数据库中筛选出画面实时对比语义信息、将语义识别结果与实时对比语义信息进行相似性计算,通过阈值对比进行画面异常分析,生成基于语义分析的第二异常评估结果;

基于第一异常评估结果与第二异常评估结果获取异常时间节点与异常状况信息,基于异常时间节点从实时音视频数据中提取相应音频段数据,通过预设音频处理策略,基于异常状况信息对音频段数据进行相应数据优化,生成优化音频段数据;

将第一异常评估结果与第二异常评估结果发送至用户终端设备,通过用户终端设备对画面异常状态进行实时调整,并生成优化后的实时视频数据,将实时视频数据与优化音频段数据进行混合得到第二音视频数据。

2.根据权利要求1所述的一种智能音视频混合传输策略,其特征在于,所述在一个监测周期内,实时获取用户交互数据、实时音视频数据,对实时音视频数据进行数据分离,得到实时视频数据与实时音频数据,具体为:通过系统平台,统计当前连接的用户终端数量与分析当前音视频数据传输量;

基于用户终端数量与音视频数据传输量设定监测周期;

在一个监测周期内,通过用户终端实时获取用户交互数据、实时音视频数据;

对实时音视频数据进行数据格式解析与音画分离,得到实时视频数据与实时音频数据。

3.根据权利要求2所述的一种智能音视频混合传输策略,其特征在于,所述对实时视频数据进行视频帧提取,得到画面数据,分析并对比画面数据的基础参数是否与预设画面参数一致,并生成第一异常评估结果,具体为:对实时视频数据进行关键帧提取,得到图像集;

将图像集进行图像增强、平滑与标准化预处理,得到画面数据;

基于画面数据统计画面参数信息,参数信息包括分辨率、画面比例、帧率,并得到基础参数;

将基础参数与预设画面参数进行对比,若存在差异,则基于参数差异生成第一异常评估结果,同时,在第一异常评估结果中记录异常时间节点。

4.根据权利要求3所述的一种智能音视频混合传输策略,其特征在于,所述基于用户交互数据获取交互时间节点与画面交互类型信息,基于交互时间节点从画面数据中进行对应画面截取,形成检测画面数据,对检测画面数据进行特征提取、图像识别与文字识别,生成语义识别结果,具体为:通过用户交互数据获取交互指令与交互时间节点;

基于交互时间节点设定交互前时间节点与交互后时间节点;

通过交互前时间节点与交互后时间节点从画面数据中进行对应画面信息截取,得到第一图像数据与第二图像数据;

构建基于CNN的图像识别模型,对第一图像数据与第二图像数据分别进行图像分割与画面图像识别,并得到画面识别结果;

对画面识别结果转换成第一语义信息;

基于OCR技术,对第一图像数据与第二图像数据进行灰度化、降噪预处理,通过OCR系统进行字符 的识别与提取,得到第二语义信息;

将第一语义信息与第二语义信息整合形成语义识别结果。

5.根据权利要求4所述的一种智能音视频混合传输策略,其特征在于,所述通过用户交互数据从画面语义数据库中筛选出画面实时对比语义信息、将语义识别结果与实时对比语义信息进行相似性计算,通过阈值对比进行画面异常分析,生成基于语义分析的第二异常评估结果,具体为:基于用户交互数据获取交互指令;

基于交互指令,从系统数据库中筛选并获取对应的画面实时对比语义信息;

将语义识别结果中的第一语义信息与第二语义信息与实时对比语义信息进行相似性计算,相似性计算过程中,通过词袋模型与余弦相似度计算文本间的语义信息相似性,并最终得到语义相似度;

将语义相似度与相识度阈值进行差异对比,通过对比分析进行异常评估,同时,记录异常时间节点并生成第二异常评估结果。

6.根据权利要求5所述的一种智能音视频混合传输策略,其特征在于,所述基于第一异常评估结果与第二异常评估结果获取异常时间节点与异常状况信息,基于异常时间节点从实时音视频数据中提取相应音频段数据,通过预设音频处理策略,基于异常状况信息对音频段数据进行相应数据优化,生成优化音频段数据,具体为:通过第一异常评估结果与第二异常评估结果获取异常时间节点与异常状况信息;

基于异常时间节点从实时音视频数据中进行数据分割与提取,得到相应音频段数据;

通过预设音频处理策略,基于异常状况信息进行处理策略匹配,通过匹配结果对音频段数据进行优化处理,生成优化音频段数据。

7.根据权利要求6所述的一种智能音视频混合传输策略,其特征在于,所述将第一异常评估结果与第二异常评估结果发送至用户终端设备,通过用户终端设备对画面异常状态进行实时调整,并生成优化后的实时视频数据,将实时视频数据与优化音频段数据进行混合得到第二音视频数据,具体为:将第一异常评估结果与第二异常评估结果发送至用户终端设备;

通过用户终端设备对异常状况进行分析,基于预设调整指令,对不同画面异常状态筛选出对应调整指令进行实时调整;

记录调整后的视频数据,得到优化视频数据,将优化视频数据与优化音频段数据进行音视频数据混合得到第二音视频数据。

8.一种智能音视频混合传输系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括智能音视频混合传输程序,所述智能音视频混合传输程序被所述处理器执行时实现如下步骤:在一个监测周期内,实时获取用户交互数据、实时音视频数据,对实时音视频数据进行数据分离,得到实时视频数据与实时音频数据;

对实时视频数据进行视频帧提取,得到画面数据,分析并对比画面数据的基础参数是否与预设画面参数一致,并生成第一异常评估结果;

基于用户交互数据获取交互时间节点与画面交互类型信息,基于交互时间节点从画面数据中进行对应画面截取,形成检测画面数据,对检测画面数据进行特征提取、图像识别与文字识别,生成语义识别结果;

通过用户交互数据从画面语义数据库中筛选出画面实时对比语义信息、将语义识别结果与实时对比语义信息进行相似性计算,通过阈值对比进行画面异常分析,生成基于语义分析的第二异常评估结果;

基于第一异常评估结果与第二异常评估结果获取异常时间节点与异常状况信息,基于异常时间节点从实时音视频数据中提取相应音频段数据,通过预设音频处理策略,基于异常状况信息对音频段数据进行相应数据优化,生成优化音频段数据;

将第一异常评估结果与第二异常评估结果发送至用户终端设备,通过用户终端设备对画面异常状态进行实时调整,并生成优化后的实时视频数据,将实时视频数据与优化音频段数据进行混合得到第二音视频数据。

9.根据权利要求8所述的一种智能音视频混合传输系统,其特征在于,所述在一个监测周期内,实时获取用户交互数据、实时音视频数据,对实时音视频数据进行数据分离,得到实时视频数据与实时音频数据,具体为:通过系统平台,统计当前连接的用户终端数量与分析当前音视频数据传输量;

基于用户终端数量与音视频数据传输量设定监测周期;

在一个监测周期内,通过用户终端实时获取用户交互数据、实时音视频数据;

对实时音视频数据进行数据格式解析与音画分离,得到实时视频数据与实时音频数据。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括智能音视频混合传输程序,所述智能音视频混合传输程序被处理器执行时,实现如权利要求1至8中任一项所述的智能音视频混合传输策略的步骤。