1.一种云凝结核数浓度反演方法,其特征在于,包括:获取海洋型和陆地型气象站点数据,并进行预处理;
基于预处理后的海洋型和陆地型气象站点数据进行模型选择、模型训练、模型集成和模型优化,得到海洋型和陆地型云凝结核数浓度预测模型;
采用海洋型和陆地型云凝结核数浓度预测模型分别对海洋型和陆地型气象站点进行反演,并结合Shapley值进行可解释性分析;
根据海洋型和陆地型云凝结核数浓度预测模型以及可解释性分析结果,得到海岸交界处云凝结核数浓度预测模型;
基于海洋型和陆地型云凝结核数浓度预测模型以及海岸交界处云凝结核数浓度预测模型,实现不同地区云凝结核数浓度的预测;
所述模型集成的方法包括:
在模型的集成学习过程中,设计基于模型表现的动态调整学习率:;
式中, 为动态调整学习率, 为初始学习率,和 为调节参数,t为当前迭代次数,为两次迭代间的误差改进;
在使用多个模型的集成学习中,通过以下权重分配公式来优化每个模型的贡献:;
式中, 为该模型在集成中的权重,MAEa为第a个模型的平均绝对误差,MAEb为第b个模型的平均绝对误差,n为模型总数。
2.根据权利要求1所述的云凝结核数浓度反演方法,其特征在于,所述气象站点数据包括光学数据、气象要素数据和云凝结核数浓度数据;
所述光学数据包括三个波长的散射系数、吸收系数、透过率、后向散射系数、后向散射比、埃斯特罗姆指数、非对称因子和单次散射反照率,所述气象要素数据包括相对湿度。
3.根据权利要求1所述的云凝结核数浓度反演方法,其特征在于,所述预处理包括识别并去除数据中的异常值和缺失值,并进行时空匹配;
所述识别并去除数据中的异常值和缺失值包括:对数据进行统计分析,计算均值和标准差,定义距离均值超过3个标准差的数据点为异常值,对异常值和缺失值进行处理,公式如下:;
式中,xi表示原始数据点,NaN表示数据异常或缺失,进行剔除;
所述时空匹配包括:对不同气象站点不同仪器的数据按时间序列进行匹配,并剔除其他数据,公式如下:;
式中,Ti、Tj表示原始时间对应数据点,i、j表示不同仪器的时间序列,M表示不匹配,进行剔除。
4.根据权利要求2所述的云凝结核数浓度反演方法,其特征在于,所述模型选择和模型训练的方法包括:根据气象站点数据的完整性、准确性与一致性筛选树模型,并将筛选出的各树模型作为基线模型;
将预处理后的光学数据和气象要素数据作为特征值进行输入,将云凝结核数浓度作为目标值进行预测,对各基线模型进行训练。
5.根据权利要求4所述的云凝结核数浓度反演方法,其特征在于,所述模型优化的方法包括采用贝叶斯优化算法对各模型超参数进行自适应调整,以使各评价指标达到最优,具体如下:通过高斯过程,从目标函数中收集观测数据,其中,目标函数被建模为:;
式中,f(x)为输入 处的随机函数值,GP(·)为高斯过程模型, 为均值函数,为输入空间的一个单独向量, 为是输入空间的另一个单独向量,用于与 进行比较,为协方差函数,定义了输入空间中任意两点的相似度;
从目标函数中收集观测数据,每一步迭代,都会在当前最可能提高目标函数的点上评估目标函数,使用收集到的观测数据更新概率模型的后验分布,均值和方差更新为:;
;
式中, 为更新后的均值, 为更新后的方差, 为新输入的观测点, 为已观测的输入点集, 是核函数计算出的从一个新输入的观测点 到已观测的输入点集 中每一个点的协方差,K(Xn, Xn)为协方差矩阵,表示观测点之间的相似度; 为噪声方差,表示观测数据的噪声水平;I是单位矩阵,其维度与K相同;Yn为对应的观测值;
为新输入的观测点 的自协方差,用于计算后验方差;k(Xn, )是由新输入的观测点x与每一个已观测的输入点集Xn通过核函数k计算得到的相似度向量;
定义采集函数决定下一个评估目标函数的位置,采集函数EI(x)的公式如下:;
式中, 为高斯过程代理模型对输入空间的一个单独向量x的目标函数值的预测均值, 为目前观测到的最佳值,为非负调节参数, 为标准正态分布的累积分布函数, 为高斯过程代理模型对新输入的观测点x的预测标准差, 为标准正态分布的概率密度函数,Z为标准化改进量;
通过重复观测、更新后验、使用采集函数选择新点的过程,直到满足停止条件,根据指定的基准,选择出海洋型和陆地型云凝结核数浓度预测模型。
6.根据权利要求1所述的云凝结核数浓度反演方法,其特征在于,所述对海洋型和陆地型气象站点进行反演的方法包括:采用实时获取且经过预处理的光学数据和气象要素数据输入所述海洋型和陆地型云凝结核数浓度预测模型中,输出云凝结核数浓度;
所述结合Shapley值进行可解释性分析的方法包括:根据Shapley值解释每个特征对模型预测结果的贡献程度、正负影响:;
;
;
式中, 为单个特征, 为 的Shapley值,S为模型中使用的特征的子集,val是一个值函数,用来评估S对模型预测的贡献,val(S)为在S下的模型输出值, 是模型中的全部特征,p为总特征数量, 为表示S中的元素数量, !为S的大小的阶乘,表示不包括 的特征组合数, 表示添加特征 到S中所导致的预测值的改变,为模型的预测函数, 为针对S定义的值函数,用来评估该特征集在 中的相对贡献,( )表示为一个关于所有特征 的函数, 表示在S以外的特征上的概率测度,W为整个输入数据集, 是 关于W的期望预测值,即整个数据集的平均预测值,(w)为表示模型对于输入w的预测输出, 是模型的截距项,也称为偏置, 表示第l个输入特征, 表示第l个特征的系数或权重, 表示所有输入特征 和它们各自的系数 的加权和,M表示模型中特征总数;
根据Shapley值解释每个特征的交互作用:
;
式中, 表示在一个机器学习模型中的两个特征 和 的交互影响或交互作用,即Shapley交互值, 表示在包含了S及两个特征 和 的情况下模型的预测值, 、 分别为当S中只包含 、 一方时的函数,v(S)表示模型中使用的特征的子集S对模型预测输出的贡献或模型值,表示不包含 和 的情况下模型的预测值;当 为正时,表明特征 和 一起工作时比单独工作时对模型预测的贡献更大,说明它们之间存在正的交互作用;当 为负时,表明特征和 一起出现时对模型的贡献小于它们分别单独作用的总和,说明它们之间存在冗余或相互抑制的关系;
对计算得到的Shapley值和Shapley交互值进行排序,根据每一个Shapley值以及其对应的Shapley交互值确定Shapley主效应值;
根据多个Shapley主效应值对海洋型和陆地型云凝结核数浓度预测模型进行可解释性分析。
7.根据权利要求1所述的云凝结核数浓度反演方法,其特征在于,所述海洋型和陆地型云凝结核数浓度预测模型分别为:;
;
式中,P( )为陆上云凝结核数浓度预测模型,m为集成的模型数量, 是陆地型云凝结核数浓度预测模型中分配给第r个模型的权重,满足 , 是陆地型云凝结核数浓度预测模型中第r个模型;Q( )为海上云凝结核数浓度预测模型,是海洋型云凝结核数浓度预测模型中分配给第u个模型的权重,满足 , 是海洋型云凝结核数浓度预测模型中第u个模型, 是模型中的全部特征,p为总特征数量。
8.根据权利要求1所述的云凝结核数浓度反演方法,其特征在于,所述海岸交界处云凝结核数浓度预测模型为:;
;
;
式中, 为海岸站点数据依据陆上Shapley排序所对应的变量,为顺序, 为校准后的序列,L为陆上站点与海岸的距离, 为陆上 的平均值,为海上 的平均值; 为海上 校准后的序列, 为海岸站点数据依据海上Shapley排序所对应的变量,为顺序,为常数,若 与 相同则顺延, 为陆上 的平均值, 为海上 的平均值;CCNcoast为海岸交界处云凝结核数浓度预测模型, 为陆上训练好的机器学习模型。
9.一种云凝结核数浓度反演系统,其特征在于,包括:数据获取和预处理模块,用于获取海洋型和陆地型气象站点数据,并进行预处理;
第一模型建立模块,用于基于预处理后的海洋型和陆地型气象站点数据进行模型选择、模型训练、模型集成和模型优化,得到海洋型和陆地型云凝结核数浓度预测模型;
反演和分析模块,用于采用海洋型和陆地型云凝结核数浓度预测模型分别对海洋型和陆地型气象站点进行反演,并结合Shapley值进行可解释性分析;
第二模型建立模块,用于根据海洋型和陆地型云凝结核数浓度预测模型以及可解释性分析结果,得到海岸交界处云凝结核数浓度预测模型;
预测模块,用于基于海洋型和陆地型云凝结核数浓度预测模型以及海岸交界处云凝结核数浓度预测模型,实现不同地区云凝结核数浓度的预测;
所述模型集成的方法包括:
在模型的集成学习过程中,设计基于模型表现的动态调整学习率:;
式中, 为动态调整学习率, 为初始学习率,和 为调节参数,t为当前迭代次数,为两次迭代间的误差改进;
在使用多个模型的集成学习中,通过以下权重分配公式来优化每个模型的贡献:;
式中, 为该模型在集成中的权重,MAEa为第a个模型的平均绝对误差,MAEb为第b个模型的平均绝对误差,n为模型总数。