1.一种基于自适应遗传算法的关联规则挖掘方法,其特征在于,包括:步骤S1:获取待挖掘数据,对所述待挖掘数据进行预处理;
步骤S2:基于Apriori算法,对预处理结果进行处理,获得频繁项集;
步骤S3:基于自适应遗传算法,对所述频繁项集进行处理,获得关联规则集;
步骤S4:基于预设的筛选规则,从所述关联规则集中筛选出关联规则。
2.如权利要求1所述的一种基于自适应遗传算法的关联规则挖掘方法,其特征在于,步骤S1中,对所述待挖掘数据进行预处理,包括:对所述待挖掘数据依次进行数据清洗和数据集成处理。
3.如权利要求1所述的一种基于自适应遗传算法的关联规则挖掘方法,其特征在于,步骤S2:基于Apriori算法,对预处理结果进行处理,获得频繁项集,包括:基于Apriori算法中的谱聚类将预处理结果离散化成布尔型数据;
计算所述布尔型数据中每个第一目标数据的第一支持度;
若所述第一支持度大于等于预设的最小支持度,将对应所述第一目标数据作为第二目标数据;
整合所述第二目标数据,获得频繁项集。
4.如权利要求1所述的一种基于自适应遗传算法的关联规则挖掘方法,其特征在于,步骤S3:基于自适应遗传算法,对所述频繁项集进行处理,获得关联规则集,包括:将所述频繁项集进行编码,生成初始种群P(t)={x1,x2,…,xn};
计算所述初始种群P(t)中的每个个体的适应度f(t),其中,优化的适应度函数如下:其中,f(t)是第t个个体适应度函数值;sup(t)是第t个个体的支持度,sup_min是设定的衡量支持度的一个阈值;conf(t)是第t个个体的置信度,conf_min是设定的衡量置信度的一个阈值;lift(t)是第t个个体的提升度,lift_min是设定的衡量提升度的一个阈值;
ω1,ω2,ω3是非负权重,0≤ω1,ω2,ω3≤1,并且ω1+ω2+ω3=1;
若所述适应度大于等于预设的适应度阈值,将对应所述个体复制到下一代,否则,保留对应所述个体;
统计保留下来的所述个体的数目m,若所述数目小于预设的数目阈值n,随机生成n‑m个新个体,同时,去除所述适应度小于所述适应度阈值的所述个体;
根据交叉概率Pc进行自适应交叉操作,其中,所述交叉概率的计算公式如下:其中,e为自然常数,Pc1和Pc2为交叉概率,favg表示平均适应度值,f'表示交叉个体中适应度较大的值,G为繁殖代数;
根据变异概率Pm进行自适应交叉操作,其中,所述变异概率的计算公式如下:其中,e为自然常数,Pm1和Pm2为交叉概率,favg表示平均适应度值,f表示要变异个体的适应度值;
当自适应交叉操作完成后,自动获得关联规则集。
5.如权利要求1所述的一种基于自适应遗传算法的关联规则挖掘方法,其特征在于,步骤S4:基于预设的筛选规则,从所述关联规则集中筛选出关联规则,包括:计算所述关联规则集中的每个备选关联规则的支持度 置信度和提升度 其中
是关联规则的一种蕴含式,
X、Y表示两个项集,分别是关联规则的先导和后继,X∪Y表示X、Y的并集,N表示总事务个数,σ表示计数,sup(Y)是Y的支持度;
如果 和 提取对应所
述备选关联规则,作为关联规则;
获取相关性并对提取的关联规则进行解码。
6.一种基于自适应遗传算法的关联规则挖掘系统,其特征在于,包括:第一处理模块,用于获取待挖掘数据,对所述待挖掘数据进行预处理;
第二处理模块,用于基于Apriori算法,对预处理结果进行处理,获得频繁项集;
第三处理模块,用于基于自适应遗传算法,对所述频繁项集进行处理,获得关联规则集;
筛选模块,用于基于预设的筛选规则,从所述关联规则集中筛选出关联规则。
7.如权利要求6所述的一种基于自适应遗传算法的关联规则挖掘系统,其特征在于,所述第一处理模块执行如下操作:
对所述待挖掘数据依次进行数据清洗和数据集成处理。
8.如权利要求6所述的一种基于自适应遗传算法的关联规则挖掘系统,其特征在于,所述第二处理模块执行如下操作:
基于Apriori算法中的谱聚类将预处理结果离散化成布尔型数据;
计算所述布尔型数据中每个第一目标数据的第一支持度;
若所述第一支持度大于等于预设的最小支持度,将对应所述第一目标数据作为第二目标数据;
整合所述第二目标数据,获得频繁项集。
9.如权利要求6所述的一种基于自适应遗传算法的关联规则挖掘系统,其特征在于,所述第三处理模块执行如下操作:
将所述频繁项集进行编码,生成初始种群P(t)={x1,x2,…,xn};
计算所述初始种群P(t)中的每个个体的适应度f(t),其中,优化的适应度函数如下:其中,f(t)是第t个个体适应度函数值;sup(t)是第t个个体的支持度,sup_min是设定的衡量支持度的一个阈值;conf(t)是第t个个体的置信度,conf_min是设定的衡量置信度的一个阈值;lift(t)是第t个个体的提升度,lift_min是设定的衡量提升度的一个阈值;
ω1,ω2,ω3是非负权重,0≤ω1,ω2,ω3≤1,并且ω1+ω2+ω3=1;
若所述适应度大于等于预设的适应度阈值,将对应所述个体复制到下一代,否则,保留对应所述个体;
统计保留下来的所述个体的数目m,若所述数目小于预设的数目阈值n,随机生成n‑m个新个体,同时,去除所述适应度小于所述适应度阈值的所述个体;
根据交叉概率Pc进行自适应交叉操作,其中,所述交叉概率的计算公式如下:其中,e为自然常数,Pc1和Pc2为交叉概率,favg表示平均适应度值,f'表示交叉个体中适应度较大的值,G为繁殖代数;
根据变异概率Pm进行自适应交叉操作,其中,所述变异概率的计算公式如下:其中,e为自然常数,Pm1和Pm2为交叉概率,favg表示平均适应度值,f表示要变异个体的适应度值;
当自适应交叉操作完成后,自动获得关联规则集。
10.如权利要求6所述的一种基于自适应遗传算法的关联规则挖掘系统,其特征在于,所述筛选模块执行如下操作:
计算所述关联规则集中的每个备选关联规则的支持度 置信度和提升度 其中
是关联规则的一种蕴含式,
X、Y表示两个项集,分别是关联规则的先导和后继,X∪Y表示X、Y的并集,N表示总事务个数,σ表示计数,sup(Y)是Y的支持度;
如果 和 提取对应所
述备选关联规则,作为关联规则;
获取相关性并对提取的关联规则进行解码。