1.基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:包括以下步骤:S1、输入一个新的特征组GT,新的特征组GT取自图像分析、音乐软件中的自动音乐分类、垃圾邮件过滤中其中一个领域的数据集;
S2、在线相关性分析:根据特征组GT中的特征 与类标签C间的相关性删除新到达的特征组GT中的不相关特征;
在步骤S2中使用C‑relevant评估特征与类标签的相关性;
其具体包括以下步骤:
S21、定义特征 与类标签C之间的相关性为C‑relevant,其由用于表示特征 和类标签C之间的对称不确定性的 表示,其中为特征 的熵,用来度量 值的不确定性;H(C)=‑Σp(C)log2p(C)为类标签C的熵,用来度量C值的不确定性; 为信息增益,表示得知类标签C信息后使得 不确定性减少的程度;
为条件熵,用来测量给定C值时 值的不确
定性;
S22、在时间窗口T,设定新到达的特征组为 类标签为C,并令输出的相关特征组GT′为空集;
S23、计算GT中每个特征的C‑relevant值,并确定阈值δT:式中, 表示特征组GT中第 个特征的C‑relevant值,其中为向下取整函数;
S24、判断特征
若特征 的C‑relevant值不小于阈值δT,则说明该特征带有类标签C的预测信息,那么将其添加到相关特征组所有GT′中,否则删除;
S25、循环步骤S24,直至特征组GT中的特征全部判断完毕,输出相关特征组GT′;
S3、增量式特征聚类:将经步骤S2处理后的特征划分到已有特征簇中或创建新簇;
S4、判断是否满足启动条件,若满足则执行步骤S5,否则从每个特征簇中选取最重要的特征并作为输出特征子集ST;
S5、历史信息驱动的整型粒子群算法:在聚类的基础上,采用历史信息驱动的粒子群算法搜索最优特征子集,并输出特征子集ST;
步骤S5具体包括以下步骤:
S51、利用融合历史信息的初始化策略生成初始种群Pop0;
S52、计算初始种群Pop0中每个粒子的适应度值,并评价每个粒子的适应值得到个体极值Pbest和全局极值Gbest;
其中,适应度函数为Fitness(Xi)=Acc(Fi),Xi和Fi分别是第i个粒子及其对应的特征子集;Acc(Fi)是Fi的分类精度,定义分类精度为正确预测样本的百分比:S53、更新粒子位置;
S54、判断是否满足迭代次数,若满足则执行步骤S55,否则返回步骤S53;
S55、输出Gbest到特征子集ST,并利用历史信息存储策略将特征子集ST存入到储备集MT‑1中得到MT;
S6、判断有无新的特征组到来,若有则返回步骤S1,否则结束,从而解决图像分析、音乐软件中的自动音乐分类或者垃圾邮件过滤领域出现的流特征选择问题。
2.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:在步骤S3中具体包括以下步骤:S31、将特征 和第l个特征簇的代表性特征fl_R间的相关性称作FR‑relevant,且由 表示;
S 32 、对 于 时间 窗 口 T 下 相 关特 征 组 G T ′中 的 特 征 使 用 公 式计算其与所有特征簇的代表性特征间的FR‑relevant值,式中,为特征 的熵,用来度量 值的不确定性;H(fl_R)=‑∑p(fl_R)log2p(fl_R)为特征fl_R的熵,用来度量fl_R值的不确定性;
为信息增 益,表示得 知类标签C 信息后使 得 不确定性 减少的程度 ;
为条件熵,用来测量给定C值时 值的不确
定性;
并假定特征 与第l个特征簇的代表性特征fl_R间的FR‑relevant值最大,如果满足其中 为最大的FR‑relevant值,则特征与第l个特征簇的代表性特征fl_R冗余,进一步与第l个特征簇冗余,称为Cluster‑redundancy;
S33、特征划分:
当输入的是初始时间窗口内的相关特征组G1′时,T=1,首先根据C‑relevant值将G1′中的所有特征进行降序得到集合G1″;而后使用FCFC聚类算法聚类为若干个初始特征簇;
当输入的是时间窗口T内的相关特征组GT′时,首先,根据步骤S31计算集合GT′中每一个特征与每一个特征簇 中的代表性特征间的FR‑relevant值,将最大值和相应的下标分别保存 在value和i ndex中;然 后,根据步骤 S32判断:若 满足则将其添加到相应特征簇中;否则,新建特征簇,其中的代表性特征选取新簇中C‑relevant值最大的特征;最后,循环执行,直至把GT′中的所有特征都划分到相应特征簇中。
3.根据权利要求2所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:在步骤S3中随着对到来的特征组执行增量式特征聚类,求解问题的决策变量空间将发生变化,因此,问题的粒子编码的长度和取值范围将发生变化,故采用如下粒子编码策略:假设第T个时间窗口内的聚类结果为 且对于包含k个特征簇的优化问题,设定其对应粒子的编码长度为k;同时设定第i个粒子的编码为其中, 表示第T个时间窗口内第j个簇 中的第a个特征被选择。
4.根据权利要求2所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:针对步骤S3所获得的QT个特征簇,采用进化优化算法从上述特征簇中选择部分关键特征使目标函数H(·)最优,其表达式如下:maxH(XT)
式中,H(XT)为所要求解的目标函数;QT为经步骤S2获得的特征簇个数;XT为当前聚类结果所对应的特征子集; 表示将第T个时间窗口内第i个簇 中第a个特征选入特征子集XT;当a=0时,表示第T个时间窗口内第i个簇 中没有一个特征被选中。
5.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:步骤S4中所述的启动条件为:式中,QT为当前时间窗口聚类后的簇数;QT‑1为上一时间窗口聚类后的簇数。
6.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:步骤S51具体包括以下步骤:S511、设定历史信息 并设定当前时间窗口下聚类结果共有QT个特征簇,分别为
S512、根据对于特征子集 的重要性的定义,计算储备集MT‑1中每个历史最优特征子集的重要性IVi值;
S513、每个特征子集的IVi值,采用轮盘赌的方式从储备集MT‑1中选择一个最优特征子集以引导种群中初始粒子的生成;
S514、根据被选中的最优特征子集 中包含的特征来确定初始粒子中每一维元素的取值;
S515、输出N个粒子 并组成初始种群Pop0。
7.根据权利要求6所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其特征在于:在步骤S513中:若特征簇 中包含特征子集 中的一个特征,则将特征在特征簇 中的位置作为粒子 的第j维元素的取值;
若特征簇 中包含特征子集 中的两个及两个以上的特征,则将C‑relevant值最大的特征在特征簇 中的位置作为粒子 的第j维元素的取值;
若特征簇 中不包含特征子集 中的任意一个特征,则利用相关性引导的初始化策略,确定粒子 的第j维元素的取值。
8.根据权利要求1所述的基于动态特征聚类和粒子群优化的在线流特征选择方法,其1
特征在于:在步骤S55所述的历史信息存储策略中采用了双储备集,储备集M用于存储每个
2 1
时间窗口的最优特征子集,储备集M用于存储储备集M中特征的样本信息;
其具体包括以下步骤:
1 1
S551、给出储备集M中特征子集的时效性定义:对于储备集M中的特征子集 其时效性描述为pi,通过以下公式计算所得:式中,T为当前时间窗口的序号;Ti为将特征子集 存入储备集时的时间窗口序号;
1 1
S552、给出储备集M中特征子集的利用率的定义:对于储备集M 中的特征子集 将其分类精度定义为qi,该值由分类器评估获得;
1
S553、定义特征子集 的重要性:对于储备集M 中的特征子集 将其重要性定义为IVi,通过以下公式计算所得:IVi=α*pi+(1‑α)*qi
式中,α为设置的超参数,α越大,则特征子集 的时效性越重要,反之,α越小,特征子集的分类精度就越重要。