1.一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,包括:实时获取煤矿瓦斯原始数据集,将煤矿瓦斯原始数据集进行分类,得到二分类不平衡数据集;
采用K-means聚类算法对二分类不平衡数据集进行处理,得到k个样本池;每个样本池包括一个未打标的样本池和一个打标的样本池;
对每个打标的样本池中的数据进行分类,得到k个正类打标样本池和k个负类打标样本池;
将k个正类打标样本池分别输入到单类支持向量机模型中,预测k个未打标样本池中的打标标签;根据k个未打标样本池中的打标标签对煤矿瓦斯原始数据集中的数据进行打标。
2.根据权利要求1所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述得到二分类不平衡数据集的过程包括:步骤1:提取原始数据集中的特征;
步骤2:根据提取的数据特征对数据集进行打标分类,得到二分类不平衡数据集。
3.根据权利要求2所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述提取原始数据集中的特征包括:当前瓦斯浓度与前一次采集的瓦斯浓度的差值,当前瓦斯浓度与下一次采集的瓦斯浓度的差值以及当前瓦斯浓度值。
4.根据权利要求1所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述得到k个样本池的过程包括:步骤1:采用K-means算法对二分类不平衡数据集进行聚类,得到K个簇;
步骤2:计算每个簇中每个样本的曼哈顿距离;挑选出每个簇中曼哈顿距离最小的两个样本;并对两个样本进行初始化;
步骤3:设置单类支持向量机学习循环次数m;
步骤4:将初始化的样本数据输入到单类支持向量机中进行主动学习。
5.根据权利要求4所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述对两个样本进行初始化的过程包括:计算每簇中所有样本距离dc;计算每个样本到别的样本距离的最小值dci;将dc中的最小值记为dcmin;根据得到的dci与dcmin求每个样本密度;对每簇中样本密度最大的两个样本进行标记,将标记结果为正的样本作为单类支持向量机的初始化样本。
6.根据权利要求5所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述计算每簇中所有样本距离dc的公式为:其中,Xi表示第i个样本,Xj表示第j个样本,n表示所有样本。
7.根据权利要求5所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,样本密度公式为:dcmin=min(dc)
其中,dti表示样本密度,dci表示当前簇中与样本最近的距离,dcmin表示当前簇中最近两个样本的距离,min(.)表示选取最小值,Xi表示第i个样本,Xj表示第j个样本,n表示所有样本。
8.根据权利要求4所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述将初始化的样本数据输入到单类支持向量机中进行主动学习的过程包括:步骤41:对初始化的样本数据进行打标;将标记池分为正类标记样本池和负类标记样本池;若标记的样本为正,则将该样本放正类标记样本池,若标记的样本为负,则将该样本放入负类样标记样本池;
步骤42:确定当前打标次数,判断当前打标次数与设置的循环次数m的大小,当打标次数小于循环次数时,执行步骤43;当打标次数大于等于循环次数时,执行步骤45;
步骤43:将标记样本池中的正类标记样本输入到支持向量机模型中进行学习,预测得到未标记样本池中的标签;
步骤44:采用样本查询策略对预测得到未标记样本池中的标签进行抽样,并将抽样得到的样本加入标记样本池中,同时移除未标记样本池中对应的样本,对标记样本池和未标记样本池进行更新,打标次数加1;返回步骤42;
步骤45:将最终更新后的标记样本池重新输入到单类支持向量机中进行学习,最终得到该样本池中的样本标签。
9.根据权利要求8所述的一种基于单类支持向量机的煤矿瓦斯数据标记方法,其特征在于,所述采用样本查询策略对预测得到未标记样本池中的标签进行抽样的公式为:Q=pl*dt
其中,Q表示抽样得到的样本,pl表示每一次单类支持向量机学习预测的样本标记,dt表示样本密度。