1.一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于,包括以下步骤:S1、获取并筛选多变量时间序列SCADA数据:从风电场SCADA系统中获取风电机组多变量时间序列历史数据,进行数据清洗去除缺失值和异常数据,并筛选实验变量和协变量;
S2、消除环境变量及工况变化对实验变量的影响,并获得协变量预处理之后的温度传感器数据,构建基于贝叶斯优化算法的随机森林多输入‑多输出回归模型并进行谱域图卷积网络模型初始化;
S3、将协变量预处理之后的健康数据输入谱域图卷积网络,学习关联特征:构建基于谱域图卷积网络的预测模型,首先利用自注意力机制提取协变量预处理之后的状态变量时间序列数据中不同传感器变量之间的空间相关特征,计算得到表示传感器空间相关性的邻接矩阵;同时,将协变量预处理之后的状态变量时间序列数据输入谱域图卷积模块,提取时间维度的特征,并将其与邻接矩阵一起输入图卷积模块,提取空间维度的特征;利用训练集对基于谱域图卷积网络的预测模型进行训练;
S4、根据训练集设定阀值:将训练集输入到待训练的基于谱域图卷积网络的预测模型,计算训练集中所有变量的预测值和真实值的均方根误差,根据核密度估计的方法,设计阈值;
S5、将在线SCADA测试数据输入模型,并通过检测与定位模块根据阈值判断是否产生异常,并进行误报点采集和故障定位:从风电机组获取在线实时监测多变量时间数据,将其先输入到随机森林多输入‑多输出回归模型,计算得到协变量预处理后的温度状态数据,然后再将其输入到训练好的基于谱域图卷积网络的预测模型,通过检测与定位模块根据预测值与真实值之间的均方根误差,将其与预先设定的阈值进行比较;当均方根误差大于阈值时,则对风机部件发出故障预警;同时将测试数据的均方根误差按天和按小时降采样,由检测与定位模块进行定位,最后根据验证集和阈值设定判断误报情况;
S6、将在线SCADA测试数据输入基于谱域图卷积网络的预测模型,根据数据相关性自适应设置阈值,通过决策可解释性模块,将结果模型可视化,实现故障预警和故障定位,并依据结果优化方法优化模型参数结构;
S7、将检测与定位模块和决策可解释性模块综合评估,对风电机组健康状态进行科学性的评估和指导。
2.根据权利要求1所述的一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于:S1中,具体包括以下步骤:S11、使用基于密度的离群因子检测算法对原始SCADA数据进行离群点检测,去除不符合物理意义的数据以及缺失值;
S12、筛选与实验相关的温度状态变量以及影响温度的协变量进行下一步建模。
3.根据权利要求1所述的一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于:S2中,具体包括以下步骤:S21、将整个实验数据划分为训练集、验证集和测试集,其中测试集数据为实验数据;训练集中将协变量作为自变量,温度状态变量作为因变量,根据传感器数量构建基于贝叶斯优化算法的随机森林多输入‑多输出回归模型,计算得到的回归模型残差作为协变量处理的温度状态变量;
S22、使用滑动窗口对协变量预处理之后的温度状态变量建立固定窗大小的时间序列数据,根据不同的机组的不同故障,选取合适的数据并按照训练集:验证集:测试集=7:2:1的比例划分数据,并进行谱域图卷积网络模型初始化。
4.根据权利要求1所述的一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于:S3中,具体包括以下步骤:S×N
S31、将训练集数据X∈R 输入门控线性单元GLU,其中S为滑动窗口大小,N为温度状态变量的传感器数目,该层按照顺序计算每个窗口S对应的隐藏状态,同时使用最后一个隐藏状态R作为整个时间序列的表示,并且通过自注意力机制计算权值矩阵W,根据权值矩阵W计T算传感器空间耦合图的领接矩阵A,其中A=0.5*W*W ,即构成一个基于每个固定时间窗的固定图结构G,G=(X,W);
S32、将S31中生成的固定图结构G,输入进图傅里叶层用以捕获内部序列间关系,得:T
GF(X)=UX (1)
N×S S×N
其中,U∈R 表示特征向量矩阵,X∈R 表示输入数据;
S33、将S32中的结果输入进离散傅里叶层和门控线性单元GLU学习输入时间序列在频域表示,从而捕获周期数据中的重复模式或不同时间戳之间的自相关特征;
S34、将S33中的频率表示输入到两个一维卷积层和门控线性单元GLU中用以捕获特征模式,得特征hs(X):其中,b和c为偏置参数,W和V为卷积核参数;
S35、将S34中学习到的特征通过图卷积层学习谱矩阵表示再通过逆图傅里叶表现,得结果Z:Z=Z1||Z2…Zn (4)
其中,gθij为图卷积核对应的第i个输入和第j个输出通道,Λi是归一化拉普拉斯特征值矩阵,S表示上述模型层,将每个输出通道Zj拼接起来即为最终结果Z;
S36、将S35的结果经过全连接层即为最终结果。
5.根据权利要求4所述的一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于:S4中,具体包括以下步骤:S41、将S36的结果与原始结果计算均方根误差RMSE,得:其中, 表示第i个数据的均方根误差,Xtrain_pre,i表示第i个数据的训练集预测值,Xtrain_tru,i表示第i个数据的训练集预真实值;
S42、将S41中得到的均方根误差用核密度估计的方法求概率密度,得:其中,k表示数据长度,K(·)表示核函数,使用高斯核即 σ表示带宽;
S43、设置置信水平将式(6)积分即得到阈值Threshold,如式(7)所示:其中,α是置信水平,p(x)为数据的概率密度函数,即求得阈值Threshold。
6.根据权利要求5所述的一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于:S5中,具体包括以下步骤:S51、将验证集数据和S43中设置的阈值比较得出误报率,如下:则误报率为:
S52、根据式(5)将测试集预测结果和原始数据求得均方根误差(RMSE),得:其中,S是测试集长度,N是24(温度状态变量个数);
S53、将S52中的值按天和小时进行降采样得基于每天的Rmse以及每小时的Rmse,记为:S531、将S53中的 与阈值比较,得:
S532、将S52中的每个温度状态变量按天和按小时降采样,得:其中,N是24(温度状态变量个数),S是测试集长度;
S533、将S532中的结果通过热力图进行可视化即得到定位情况。
7.根据权利要求6所述的一种基于可解释性图神经网络的风电机组异常检测与定位方法,其特征在于:S6中,具体包括以下步骤:S61、将S53中求得的 以各自的单位切分成单独矩阵并计算相关性,如下:
ρxy∈(0,1)且 或
其中,N是24,为温度状态变量个数;ρ表示所求的相关性;S表示该时间序列数据长度;
S62、根据S61画出相关性核密度分布曲线,将T时刻下的相关性分成三个梯度,如下:S63、根据S62的核密度分布曲线和梯度,设定不同时间变化阈值为0.4,得:S64、按照不同的时间刻度将S61的实验结果数据输入可解释性模块中,在模块中将相关性映射为不同节点Vertex之间边Edge的距离,即相关性越强节点之间的距离越短,相关性越弱节点之间的距离越远;
S641、将S64学习到的距离特征,绘制出G=(V,E,T)的无向权重图,其中V表示节点即温度状态变量,E表示不同节点直接的边即用距离表示相关性强弱,T表示时间;
S65、根据S641的结果,以及真实机组情况和不同组件之间的相关性对结果做出评估,若出现偏差则反向回馈修改模型框架参数。