1.一种基于动态反馈机制的云计算环境中数据质量监控方法,其特征在于,包括如下步骤:S1、实时采集云计算环境中云平台的系统日志、应用日志、数据存储状态和数据传输记录,构建云计算数据集;
S2、对云计算数据集进行格式化处理;
S3、将云计算数据集中的各类数据作为分析的基础,针对不同类型的云计算服务模型定义一组数据质量指标,并基于云计算服务模型进行细化调整;
S4、将云计算数据集中的数据质量问题建模为图结构,图结构节点表示不同的云计算服务或数据源,图结构边表示节点之间的数据流动关系;
S5、使用图神经网络对建模的图结构进行初始化,通过训练过程捕捉云计算服务间的数据质量关联建立节点和边之间的权重模型;
S6、基于图神经网络输出的实时结果自动识别潜在的异常传递路径,当某个节点发生数据异常时,系统预测与节点相连的其他节点受到的影响,及时调整监控范围和监控策略;
S7、根据图神经网络的反馈,调整数据质量监控策略;
S8、基于节点间的关联性和边的权重进行多维度的数据质量评估,数据质量评估维度包括数据来源、存储介质、更新频率和数据流动性;
S9、将评估后的数据质量结果通过可视化方式输出并生成反馈报告,记录数据质量监控过程中发生的异常及其处理过程;
所述S5步骤中包括:
S51、对图结构G=(V,E)和特征矩阵X进行初始化,初始化过程包括随机初始化节点vi的特征向量xi和边eij的权重wij;
S52、将图结构G输入图神经网络,通过图卷积层对节点特征进行信息传递和聚合更新每个节点的特征表示,节点vi的更新规则为:其中,x′i为节点vi更新后的特征向量, 表示节点vi的邻居节点集合,wij为边eij的权重,deg(vi)和deg(vj)分别表示节点vi和节点vj的度数,W为可学习的权重矩阵,σ为激活函数;
S53、通过反向传播算法对图神经网络进行训练,定义基于云计算环境中数据质量的特定损失函数L,特定损失函数结合数据的准确性、及时性和一致性表示为:其中,Ai为节点vi的真实准确性, 为其预测值,Ti为节点vi的真实及时性, 为其预测值,Ci为节点vi的真实一致性, 为其预测值,α1、β1、γ为调整不同数据质量指标的权重因子;
S54、通过训练过程优化节点特征x′i和边权重wij捕捉云计算服务间的关联,建立基于图结构的节点和边的权重模型:其中,w′ij为更新后的边权重,反映节点vi和节点vj之间经过优化后的数据流动强度,η1为学习率,控制更新步长,λ为正则化系数, 为损失函数对边权重的偏导数, 为时间维度上的梯度,x′i和x′j分别表示节点vi和节点vj更新后的特征向量。
2.根据权利要求1所述的一种基于动态反馈机制的云计算环境中数据质量监控方法,其特征在于,所述S1步骤中包括:S11、从云计算环境中实时采集云平台的系统日志、应用日志、数据存储状态和数据传输记录,构建云计算数据集:D={d1,d2,...,dn};
其中,D表示包含n个数据记录的集合,dn表示单个数据记录,包括以下几类数据:其中,表示第n条记录的系统日志数据, 表示第n条记录的应用日志数据, 表示第n条记录的数据存储状态, 表示第n条记录的数据传输记录;
S12、对于所述系统日志数据 包括CPU使用情况、内存占用和硬盘读写速率,应用日志数据 包括应用启动时间、执行状态和应用错误信息,数据存储状态 包括存储设备的容量、占用率及存储块状态,数据传输记录 包括数据包传输时间、传输速率及错误率;
S13、将所有采集到的数据进行索引化处理形成索引化云计算数据集:D′={d′1,d′2,…,d′n};
其中,每个d′n是经过索引化处理后的数据记录:
其中, 表示索引化后的系统日志数据, 表示索引化后的应用日志数据, 表示索引化后的数据存储状态, 表示索引化后的数据传输记录;
S14、对索引化云计算数据集D'进行去重和格式化处理,剔除重复数据记录并统一数据格式,最终构建用于数据质量监控的云计算数据集:D″={d″1,d″2,…,d″m};
其中,m≤n,d″m为去重和格式化处理后的数据记录,包括系统日志、应用日志、数据存储状态和数据传输记录的标准化表示。
3.根据权利要求1所述的一种基于动态反馈机制的云计算环境中数据质量监控方法,其特征在于,所述S3步骤中包括:S31、基于云计算数据集D″将各类数据作为分析基础定义初步的数据质量指标集合Q={q1,q2,...,qk},其中k为定义的质量指标数量,qk为第k个数据质量指标:其中,fj表示数据的权重因子,wj为数据源的优先级权重, 为第i类数据的第j个实例的实际值, 和 分别表示第j个实例的均值和标准差,Di为第i类数据的集合;
S32、针对不同类型的云计算服务模型,云计算服务模型包括IaaS、PaaS、SaaS,对初步的数据质量指标集合进行细化调整,生成服务模型相关的指标集合:其中,hM(t)表示时间维度上不同云服务模型的动态调整函数, 表示质量指标关于时间的二阶导数,用于捕捉数据质量的加速度变化,α和β分别为时间区间的起始与结束时间,M为服务模型;
S33、数据质量指标包括以下几项:
数据的准确性A,表示数据与真实值的偏差程度;
数据的一致性C,表示多个数据源之间的差异程度;
数据的及时性T,表示数据从生成到被处理的延迟时间;
S34、基于云计算服务模型M的不同类型,将定义的初步的数据质量指标集合Q与服务模型相关的指标集合QM进行融合,并基于云计算环境的需求对质量指标进行细化调整,生成最终用于监控的数据质量指标集合:其中,δM为服务模型的调节系数,wM为模型权重, 为质量指标关于模型的导数。
4.根据权利要求1所述的一种基于动态反馈机制的云计算环境中数据质量监控方法,其特征在于,所述S4步骤中包括:S41、基于最终用于监控的数据质量指标集合Q′M将云计算数据集中的数据质量问题建模为图结构G=(V,E),其中节点集合V表示不同的云计算服务或数据源,边集合E表示节点之间的数据流动关系,节点vi∈V的属性与相应的数据质量指标q′i相关联;
S42、节点vi的属性A(vi)包括节点所代表的服务的性能、数据处理能力及其在数据质量指标集合Q′M中的特定指标值q′i;边eij∈E的属性W(eij)表示节点之间数据流动的质量,包括流量、延迟及其在相关质量指标中的表现,边的权重wij定义为:其中,q′i和q′j分别表示节点vi和节点vj对应的最终数据质量指标值,Δtij为节点之间的数据传输延迟,Tmax为系统中最大允许的延迟时间,权重wij表示两个节点之间的数据质量流动关系;
S43、构建数据流动矩阵F=[fij]:
数据流动矩阵用于表示节点之间的数据质量流动是否达到监控要求,fij表示节点vi和节点vj之间的质量流动关系是否符合预设阈值;
S44、基于图结构的节点和边的属性,构建图结构的特征矩阵X=[xi],其中xi为节点vi的特征向量,特征向量包括服务性能、数据质量指标值q′i及数据处理能力信息;
S45、将图结构G和图结构的特征矩阵X输入图神经网络。
5.根据权利要求1所述的一种基于动态反馈机制的云计算环境中数据质量监控方法,其特征在于,所述S6步骤中包括:S61、基于图神经网络的输出结果获取每个节点vi的实时数据质量状态x′i以及边权重w′ij,实时计算节点之间的影响传播关系,若某个节点vk发生数据异常,即数据质量指标q′k超出预设阈值,则系统预测与其相连的其他节点vj受到的影响:其中,Ij表示节点vj可能受到的影响值,w′kj为节点vk和节点vj之间的边权重,x′k和x′j分别为每个节点vk和vj的实时数据质量状态,deg(vk)和deg(vj)分别为节点vk和节点vj的度数;
S62、系统将所有可能受影响的节点进行排序,根据影响值Ij从高到低排列并确定监控优先级,当节点vj的Ij超出预设影响阈值时,系统自动扩展监控范围,将节点vj及其邻居节点加入重点监控列表,并实时调整数据质量监控策略;
S63、根据影响传播关系,系统对边权重w′ij进行动态调整,若某些边对应的影响传播较强,则边权重根据以下规则更新:其中,w″ij为更新后的边权重,λ1为学习率,控制调整步长, 为影响值Ij对边权重w′ij的偏导数,用于捕捉影响传播路径中的关键节点和边。
6.根据权利要求1所述的一种基于动态反馈机制的云计算环境中数据质量监控方法,其特征在于,所述S7步骤中包括:S71、根据图神经网络反馈的实时结果,结合节点vi的特征向量x′i和边权重w″ij对数据质量监控策略进行动态调整,修改监控规则、参数配置和资源分配;
S72、计算每个节点的异常概率P(vi),基于每条边eij的权重w″ij和节点的异常概率P(vi)修改监控规则,调整相关参数配置,调整规则为当某条边的权重w″ij超过预设阈值,且两个节点的异常概率P(vi)和P(vj)均大于某一临界值时,增加该条边的监控频率,并分配更多的计算资源和存储空间进行数据分析和处理;
S74、根据云计算环境的实时数据流动情况,重新分配系统资源,若某个节点vi及其邻居节点的异常概率较高,则系统自动将更多资源分配给该节点及其关联的边;
S75、系统根据图神经网络的反馈结果持续监控节点和边的状态,并通过动态调整监控规则、参数配置和资源分配。