利索能及
我要发布
收藏
专利号: 2021110558071
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:包括以下步骤,步骤(A),对实验模型进行数据预处理,构建数据集;

步骤(B),斯皮尔曼等级相关系数的确定,并求得等级之间的差值公式,具体步骤如下,步骤(B1),斯皮尔曼等级相关系数的确定,斯皮尔曼等级相关系数即spearman相关系数,用字母ρ表示此系数,对于样本来说,样本的m个原始数据转换成等级数据,相关系数ρ如公式(1)所示,其中,存在两个变量分别为X、Y,元素个数均为N,两个变量的第i个元素分别用Xi、Yi表示;X、Y的排序集合x、y,元素xi、yi分别为Xi在X中的排名以及Yi在Y中的排名;xi与yi对应相减得到一个排序差分集合d;即变量X、Y之间的斯皮尔曼等级相关系数由x、y计算得到的排序差分集合d而得;

步骤(B2),求得等级之间的差值公式,总体数据上,原始数据会考察其在总体中的相对位置,获取相应的等级,而实际研究应用中,不看重变量间的连接,通过简化计算步骤计算ρ,并得到等级之间的差值如公式(2)所示,步骤(C),对机器学习的训练特征进行分析和测试,再对实验模型样本进行特征选择,并通过斯皮尔曼等级相关系数对特征之间的联系进行验证,具体步骤如下,步骤(C1),对机器学习的训练特征进行分析和测试,了解特征之间的相关性,探究其对模型的影响,具体步骤如下,步骤(C11),耀斑的X射线具有从低到高的A、B、C、M、X的5级分类,其中C类是小型耀斑,M、X为大型耀斑,A、B为无耀斑,接着将A、B统称为N级耀斑,且表示无耀斑发生的样本;

步骤(C12),为了方便最终数据的训练,先进行标签转换,并将C、M、X标记为1,将N标记为0,这样代表着是否发生耀斑;

步骤(C13),提取数据中的关于耀斑检测的10项数据特征,并将数据进行归一化操作,把各个特征映射为0‑1范围内的小数;

步骤(C14),使用单变量特征选择对10项特征进行处理;

步骤(C2),对实验模型样本进行特征选择,特征选择也叫做特征子集选择,是一个对数据降维的过程,且具体特征选择方法是SelectBest中分类任务f_classif方法,使用10组数据集中第1个数据集,并通过对特征重要性进行打分实现对特征的排序,以及保留指定的K个评分最高的特征,同时使用随机森林的特征打分函数与SelectBest方法进行比较验证;

步骤(C3),通过斯皮尔曼等级相关系数对特征之间的联系进行验证,使用斯皮尔曼系数检测目标特征与结果之间的关联性,从而揭露每个特征之间的线性关联程度,在数据预处理步骤中,需要应用斯皮尔曼系数对特征之间的联系进行分析,且获得10项特征之间以及与结果之间的关系,并通过10项特征之间的关联性验证最后结果中特征对预测结果的影响;

步骤(D),采用SVM寻找决策边界,并对SVM核函数进行选择,其中SVM表示支持向量机,它的算法思想是将数据映射到高一维的空间,在高维空间找到一个超平面将数据划分两类,超平面造成的分割需要间隔最大化,采用SVM寻找决策边界,并对SVM核函数进行选择的具体步骤如下,步骤(D1),采用SVM寻找决策边界,SVM的目标是在一组数据中根据特征的不同找出中间点,并依据这个中间点进行判断和分类,即在中间点的一边是一类,另一边是另一类,这个中间点称为决策边界,决策边界是一条线或一个平面,而采用SVM寻找决策边界的具体步骤如下,步骤(D11),超平面的建立,将数据分组就需要一个高纬度的分割边界,且数据是同一平面的点,这时需要一条线就能将数据分为两个部分,这条线相对点就是一个高纬度的边界,也就是超平面;

步骤(D12),间隔最大化,对超平面进行分割;

步骤(D2),对SVM核函数进行选择,在高维空间寻找超平面,需要使用核函数,核函数是利用数学方法将本来维度空间的任意两点映射为目标高维空间的距离,而在SVM中,核函数是已经设定好了的,仅需要考虑如何处理和表达数据并设计成SVM计算原理;

步骤(E),对SVM计算原理进行推导;

步骤(F),采用SVM对数据进行预测处理,并产生预测结果;

步骤(G),对预测结果进行判定,并通过计算技能得分来确定预测结果与给定基准的比较方式。

2.根据权利要求1所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(A),对实验模型进行数据预处理,构建数据集,其中预处理采用的方法是对总体数据按照活动区编号进行分组,且数据源为SDO/HMI公布的SHARPS数据序列以及GOES卫星观测的X射线耀斑事件数据,而构建数据集的具体步骤如下,步骤(A1),对数据进行剔除,具体是剔除观测处于地区边界的观测数据;

步骤(A2),将原始数据每张图片的地区编号属性提取出来作为一个数组,采用2/8分割的方式—8份的数据作为训练集,2份的数据作为最终测试模型性能的测试集,将地区编号数组使用shuffle方法无序打乱,再使用比例相乘的方法,将其中的8赋值给训练集,2赋值给测试集,并重复此过程10次,得到了10组同时具有训练集和测试集的机器学习实验数据集。

3.根据权利要求2所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(E),对SVM计算原理进行推导,而SVM计算原理分为软间隔最大化、拉格朗日对偶、最优化问题求解、核函数以及序列最小优化,其具体步骤如下,步骤(E1),软间隔最大化,软间隔最大化是加入松弛变量的目标函数,使支持向量到分类超平面间隔最大化,其具体步骤如下,步骤(E11),需要样本点x到超平面(w,b)的距离公式,设d为样本点到超平面(w,b)的距离,则距离d如公式(3)所示,而超平面的公式如公式(4)所示,

w·x+b=0                         (4)这样样本点x到超平面(w,b)的间隔如公式(5)所示,

其中,γi表示样本点x到超平面(w,b)的间隔;xi表示第i条数据,yi表示第i条数据对应的因变量取值,且因变量取值为±1;当xi被正确分类时,yi的值与w*x+b取值的符号相同,且几何间隔为正;当xi被错误分类时,yi的值与w*x+b取值的符号相异,几何间隔为负;

步骤(E12),定义几何间隔中最小值如公式(6)所示,

γ=minγi                           (6)由公式(6)可得间隔最大化问题的目标函数,且如公式(7)所示,maxγ   (7)

并遵循约束条件如公式(8)所示,

接着做变换如公式(9)所示,

则目标函数转换为公式(10)所示,

且相应的约束条件变为公式(11)所示,

并做变换如公式(12)所示,

得到目标函数和约束条件分别如公式(13)和公式(14)所示,s.t.yi(w′·xi+b′)≥1                  (14);

步骤(E13),由于(w,b)的倍数不会对超平面公式产生影响,因此如公式(15)所示,w′=w,b′=b                    (15)通过对公式(15)进行变换,间隔最大化问题的目标函数和约束条件分别如公式(16)和公式(17)所示,s.t.yi(w·xi+b)≥1                 (17);

步骤(E14),数据中存在一些奇异点,这些奇异点并不满足公式(17)的约束条件,为使奇异点满足约束条件,对样本点的计算引入松弛变量,约束条件变为如公式(18)所示,其中,εi表示松弛变量;

步骤(E15),给约束条件加上松弛变量,使奇异点满足大于等于1的条件,则相应的目标变量变为如公式(19)所示,其中,C为惩罚参数;

步骤(E2),将拉格朗日乘子应用于求解凸二次优化问题,拉格朗日函数整合目标函数与约束条件,能够求解目标函数的最值问题,并得到的拉格朗日函数如公式(20)和公式(21)所示,其中,αi和ui分别表示目标函数的取值,将原最优化问题转换成如公式(22)所示,通过公式(22)不易求解原最优化问题,通过利用拉格朗日对偶性,将原最优化问题转化为对偶问题,求解对偶问题得到原问题的最优解,原最优化问题的对偶问题为公式(23)所示,步骤(E3),最优化问题求解,通过软间隔最大化和拉格朗日对偶可以将目标函数和约束条件转换成极大极小化拉格朗日函数的问题,为方便求解,先求解拉格朗日函数的极小化问题,具体步骤如下,步骤(E31),对三个变量分别求偏导得公式(24),

步骤(E32),将求导得的偏导函数带入拉格朗日函数中得公式(25),步骤(E33),将公式(25)代入极大极小化拉格朗日函数,如公式(26)所示,步骤(E34),将极大转换成极小得公式(27),步骤(E4),核函数,超平面无法解决线性不可分问题,为解决这类问题可将超平面换成超曲面,使用超曲面可以将数据进行二类划分,具体步骤如下,步骤(E41),曲面公式如公式(28)所示,

其中,k表示曲面的相关系数;

步骤(E42),映射到新坐标如公式(29)所示,

其中,z表示映射的坐标;

步骤(E43),超平面坐标下的超曲面,如公式(30)所示,

k′1z1+k′2z2+k′3z3+k′4z4+k′5z5+k′6=0                (30);

步骤(E44),通过坐标转化,将二维空间的线性不可分问题转换为在五维空间下线性可分问题,得映射后新坐标下的内积,如公式(31)所示,其中,p和q分别表示新的坐标系;

步骤(E45),核函数如公式(32)所示,

可得公式(33),

步骤(E45),核函数将低维映射到高维空间,并计算高维空间內积,公式(27)包含自变量的内积运算,通过使用核函数将低维映射到高维,并完成高维空间的內积运算,这样目标函数和约束条件转变为公式(34)所示,步骤(E5),序列最小优化,如公式(34)所示,最优化问题转化成一个目标函数和两个约束条件,序列最小优化是在约束条件下求解最优目标函数,其具体步骤如下,步骤(E51),选取两个自变量分别是α1和α2,则目标函数和约束条件转化为公式(35)和公式(36)所示,步骤(E52),通过约束条件,将目标函数中的α1替换成α2,则目标函数只包含α2,对目标函数进行对α2偏导使其等于0,求得α2未经修剪的值,如公式(38)所示,

其中,E是真实值与预测值差值的绝对值,使用约束条件二,对α2进行修剪,如公式(39)所示,步骤(E53),由公式(39)可得公式(40),

分两种情况,当y1等于y2时,有公式(41)和公式(42),当y1不等于y2时,有公式(43)和公式(44),

修剪后,得到α2的取值如公式(45)所示,

步骤(E54),在公式(45)中,由α2和α1的关系,得公式(46),其中α1更新后的值满足0<α1

步骤(E54),更新后α1和α2的值同时满足约束条件二,那么b取b1,否则b取b1和b2的中点,违背KKT条件推导α1,如公式(49)所示,且为了让每次变化大,α2选择步长最大化,如公式(50)所示,|E1‑E2|(50)

其中,SVM不断选择一对α,当达到模型最大迭代次数或所有α都不再变化,SVM分类模型运算结束。

4.根据权利要求3所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(F),采用SVM对数据进行预测处理并产生预测结果,依次包括对样本数据进行归一化、应用核函数对样本进行映射、用cross‑validation和grid‑search对超参数进行优选、用最优参数训练得到模型以及测试并得到预测结果。

5.根据权利要求4所述的一种基于支持向量机的太阳耀斑二分类预测方法,其特征在于:步骤(G),对预测结果进行判定,并通过计算技能得分来确定预测结果与给定基准的比较方式,其具体步骤如下,步骤(G1),对预测结果进行判定,其中判定的数值包括预测耀斑发生正确的事件为真阳性TP、预测耀斑未发生正确的事件为真阴性TN、预测耀斑发生错误的事件为假阳性FP和预测耀斑未发生错误的事件为假阴性FN,接着根据此四个数值设定评价指标,而设定评价指标的具体步骤如下,步骤(G11),精度,描述正确耀斑预测事件在所有预测出现耀斑的事件中的比例,如公式(51)所示,步骤(G12),召回率,分类器找到所有正面例子的能力,如公式(52)所示,步骤(G13),准确度,所有预测正确的事件中占所有事件中的比例,步骤(G2),通过计算技能得分来确定它与给定基准的比较方式,对于耀斑预测,技能评分指标包括HSS和TSS两种,具体步骤如下,步骤(G21),HSS,公式中P=TP+FN为正样本总数,N=TN+FP为负样本总数,HSS的范围在负无穷到1之间,如公式(54)所示,步骤(G22),TSS,TSS是召回率与误报率的差值,如公式(55)所示,