利索能及
我要发布
收藏
专利号: 2021114171706
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于K‑近邻的太阳耀斑预报方法,其特征在于:包括以下步骤,步骤(A),模型构建,检测ARs,从下载的观测数据库图像中提取太阳特征,利用探测到的ARs数据库,从每个AR中提取太阳特征;

步骤(B),使用格朗日插值法处理缺失值,将不完整原始数据的值用NAN进行替换,减少有价值数据损失,用于后续模型训练;

步骤(C),剔除同一活动区的太阳耀斑记录中跨越两种耀斑级别的现象;

步骤(D),将提取的单位不一致的太阳特征原始数据x使用最大最小值进行标准化,公式如下:

其中:xmin是最小值,xmax是最大值,X’为所求值;

步骤(E),设置分类器预测发生和不发生耀斑的ARs两类的成本参数,确保分类器不会只关注负类,检测模型是否过度拟合;

步骤(F),使用k‑NN算法计算测试数据与各个训练数据之间的距离,按照距离的递进关系进行排序,选取距离最小的K个点,确定前K个点所在类别的出现频率,返回前K个点中出现频率最高的类别作为测试数据的预测分类;

步骤(G),模型验证。

2.根据权利要求1所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:步骤(B),所述缺失值取值范围为:K+1个取值点:(x0,y0),…,(xk,yk),其中x对应自变量的位置,y对应这函数在这个位置,这里每一个y值都不等于0的取值;

解设任意两个不同的xj都互不相同,其中j的含义为:K+1个取值点:(x0,y0),…,(xk,yk)中的任意第j个元素xj,

对应的拉格朗日插值所得到的拉格朗日插值多项式为:其中每个lj(x)为拉格朗日基本多项式(或称插值基函数),其表达式为:

3.根据权利要求1所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:步骤(C),剔除同一活动区的太阳耀斑记录中跨越两种耀斑级别的现象的具体流程为:(C1),将数据集分类为由低到高的B、C、M、X四个耀斑级别;

(C2),遍历一个级别的数据集,判断是否存在于更高类中,如果存在则删除更高类中的一条记录,如果不存在则继续遍历,直到整个数据集遍历完成;

(C3),判断是否为倒数第二个数据集,如果不是则返回(C2),如果是该步骤(C3)结束。

4.根据权利要求1所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:所述步骤(E)中将正类成本参数设置为C1,负类的成本参数C2,其中设置C1>C2,改变了正类和负类之间的惩罚csot,其公式为:

T

其中:W代表混淆矩阵,w代表混淆矩阵的转置矩阵。

5.根据权利要求1所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:步骤(E),采用shuffle和split CV来证明模型的有效性,其中两组数据的大小比为8:2。

6.根据权利要求1所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:步骤(F),为优化的模型,令K=50,采用了曼哈顿距离d1(x,y),该距离如下表示:

7.根据权利要求1所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:步骤(E),其中定义预测正确的耀斑ARs为真阳性TP,预测错误的耀斑ARs为假阴性FN,预测正确的耀斑ARs为真阴性TN,预测错误的耀斑ARs为假阳性FP,从这四个量中,计算出各种度量:精度描述分类器不将一个例子标记为正或负的能力,定义为:召回率是分类器找到所有正面例子的能力的特征:精度和查全率通常是反相关的,查全率会随着精度的提高而降低,反之亦然,计算谐波均值是一个有用的量,即f1得分:以上的定义是针对正类的,通过用TN替换TP,用FN替换FP(反之亦然),可以为负类定义类似的数量;

其中,负召回率被定义为TN/(TN+FP);另一个广泛使用的分类器性能指标是准确度,定义为:

8.根据权利要求7所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:当一个分类器总是预测一个活动区总是不发生耀斑时,此时精度与f1得分无意义,评估分类器性能是通过计算技能得分来确定它与给定基准的比较方式,使用HSS技能评分方式,将HSS定义如下:

其中,P=TP+FN为正样本总数,N=TN+FP为负样本总数,HSS1的范围在负无穷到1之间,得分为1表示预测完美,得分为负表示预测没有耀斑的表现更差。

9.根据权利要求8所述的一种基于K‑近邻的太阳耀斑预报方法,其特征在于:当比较不同预测研究结果时,HSS技能得分失效,此时采用TSS技能得分,定义如下: