利索能及
我要发布
收藏
专利号: 2024115830121
申请人: 烟台麦穗儿大数据有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种大数据环境下的数据流处理方法,其特征在于,包括以下步骤:

S1.实时采集数据,得到原始多源异构数据流;引入数据适配机制对原始多源异构数据流进行规范化处理,得到规范化的数据流;对规范化的数据流进行智能调度,得到初步调度策略;

S2.实时检测数据流处理系统的处理状态,得到反馈数据;所述反馈数据包括CPU使用率、内存使用率、任务队列长度、网络宽带和任务执行时间;基于反馈数据,计算并行实时状态反馈,具体公式如下:其中,LPs表示第s个并行处理节点的当前负载,表示并行实时状态反馈;ω1,ω2,ω3分别表示用于调整CPU使用率、内存使用率、任务队列长度对并行处理节点总负载的影响的各项权重参数;CPUs是第s个并行处理节点的CPU使用率;MEMs是第s个并行处理节点的内存使用率;QLs是第s个并行处理节点的任务队列长度;MaxQLs是第s个并行处理节点的任务队列的最大容量;ETs是第s个并行处理节点的任务执行时间;ETs,max表示第s个并行处理节点的最大允许执行时间;

引入网络带宽,计算边缘实时状态反馈,具体公式如下:

其中,LEl表示第l个边缘计算节点的当前负载,表示边缘实时状态反馈;BWl是第l个边缘计算节点的网络带宽的使用率; 是分别用来调节各个因素对边缘计算节点负载的影响的参数权重;CPUl是第l个边缘计算节点的CPU使用率;MEMl是第l个边缘计算节点的内存使用率;QLl是第l个边缘计算节点的任务队列长度; 是第l个边缘计算节点的任务队列的最大容量;ETl是第l个边缘计算节点的任务执行时间;ETl,max表示第l个边缘计算节点的最大允许执行时间;

基于并行实时状态反馈和边缘实时状态反馈,对初步调度策略进行优化,得到优化后的调度策略,并将规范化的数据流分为主规范化的数据流和次规范化的数据流;

S3.基于优化后的调度策略,对主规范化的数据流和次规范化的数据流进行处理。

2.根据权利要求1所述的一种大数据环境下的数据流处理方法,其特征在于,所述S1,具体包括:所述数据适配机制的具体实现步骤如下:

第一步,对原始多源异构数据流中的数据进行数据格式识别与解析,得到解析后的多源异构数据;

第二步,对解析后的多源异构数据进行数据清洗与预处理,得到预处理后的数据;

第三步,对预处理后的数据进行数据结构转换与映射,得到结构转换与映射后的多源数据;

第四步,对结构转换与映射后的多源数据进行数据类型转换与校验,得到数据类型转换与校验后的多源数据;

第五步,对数据类型转换与校验后的多源数据进行整合并输出,得到规范化的数据流。

3.根据权利要求2所述的一种大数据环境下的数据流处理方法,其特征在于,所述S1,具体包括:在数据清洗与预处理的过程中,基于解析后的多源异构数据,引入多源协同异常检测算法进行异常检测;在多源协同异常检测算法的实现过程中,对不同数据源的解析后的多源异构数据进行标准化处理,并通过特征提取转换为向量表示;在每个数据源中计算数据点之间的相似性度量,生成局部相似性矩阵。

4.根据权利要求3所述的一种大数据环境下的数据流处理方法,其特征在于,所述S1,具体包括:引入局部权重系数,对每个数据源中数据点之间的相似性度量进行加权,得到加权后的相似性度量;基于加权后的相似性度量,得到每个数据源的加权相似性矩阵;引入全局权重,将每个数据源的加权相似性矩阵进行综合,得到全局综合相似性矩阵。

5.根据权利要求4所述的一种大数据环境下的数据流处理方法,其特征在于,所述S1,具体包括:定义权重优化目标函数,并使用梯度下降法,动态优化全局权重;权重优化目标函数具体公式如下:其中,表示权重优化目标函数;αk表示第k个数据源的全局权重;m是数据源的总数;

表示解析后的多源异构数据中第i个数据点和第 个数据点在第k个数据源上的相似性度量;表示解析后的多源异构数据在第k个数据源上的数据点的个数; 是解析后的多源异构数据中第i个数据点和第个数据点在第k个数据源上经过加权后得到的相似性度量,表示加权后的相似性度量。

6.根据权利要求4所述的一种大数据环境下的数据流处理方法,其特征在于,所述S1,具体包括:基于全局综合相似性矩阵,计算每个数据点的异常分数;引入动态阈值调整机制,得到动态阈值;将每个数据点的异常分数与动态阈值进行比较,当数据点的异常分数大于动态阈值时,标记为异常点。

7.根据权利要求1所述的一种大数据环境下的数据流处理方法,其特征在于,所述S2,具体包括:对来自已有数据库的历史数据流的流量进行趋势分析,得到数据流的预测流量;基于并行实时状态反馈、边缘实时状态反馈和数据流的预测流量,计算得到剩余可分配任务量;

剩余可分配任务量的计算公式如下:

其中,Trem,q是第q个节点的剩余可分配任务量;Ravail,q为第q个节点当前的可用资源量;

Loadcurrent,q为第q个节点的当前负载;Ft+1,q是第q个节点分配到的预测流量份额,所述预测流量份额是根据每个节点的剩余资源比例对数据流的预测流量进行分配得到的;ETavg,q是第q个节点的平均任务执行时间;ETmax,q为第q个节点预定的最大任务执行时间。

8.根据权利要求7所述的一种大数据环境下的数据流处理方法,其特征在于,所述S2,具体包括:基于节点的剩余可分配任务量,通过全局负载平衡公式,对任务进行动态调整,得到优化后的调度策略;全局负载平衡公式如下:其中,Topt,p是第p个节点的优化后任务分配量,表示优化后的调度策略;Tinit,p是第p个节点的初始分配任务量;是所有节点的个数; 是第 个节点的初始分配任务量;

是第 个节点的剩余可分配任务量;Trem,p是第p个节点的剩余可分配任务量; 是在t+1时数据流的预测流量;

基于优化后的调度策略,重新分配任务至并行处理节点和边缘计算节点,并进行调整与反馈,形成闭环调度机制。

9.一种大数据环境下的数据流处理系统,应用于如权利要求1所述的一种大数据环境下的数据流处理方法,其特征在于,包括以下部分:数据采集模块,异构数据适配模块,智能调度模块,并行处理模块,边缘计算模块;

数据采集模块,实时采集数据,得到原始多源异构数据流;将原始多源异构数据流发送至异构数据适配模块;

异构数据适配模块,引入数据适配机制对原始多源异构数据流进行规范化处理,得到规范化的数据流;将规范化的数据流发送至智能调度模块;基于来自智能调度模块的优化后的调度策略,结合规范化的数据流特性,将规范化的数据流分为主规范化的数据流和次规范化的数据流;将主规范化的数据流和次规范化的数据流分别发送至并行处理模块和边缘计算模块;

智能调度模块,对规范化的数据流进行智能调度,得到初步调度策略;基于并行处理模块的并行实时状态反馈和边缘计算模块的边缘实时状态反馈,以及数据流的预测流量,对初步调度策略进行优化,得到优化后的调度策略;将优化后的调度策略发送至并行处理模块、边缘计算模块和异构数据适配模块;

并行处理模块,基于优化后的调度策略,通过任务分配算法对主规范化的数据流进行独立并行处理,并实时检测并行处理模块的处理状态;将并行实时状态反馈发送至智能调度模块;

边缘计算模块,基于优化后的调度策略,对次规范化的数据流进行边缘处理,并实时检测边缘计算模块的处理状态;将边缘实时状态反馈发送至智能调度模块。