1.基于混合采样的客户流失预测方法,其特征是,包括步骤如下:步骤1、收集已知的流失客户和非流失客户的多属性数据,并根据客户的类型在其多属性数据上加上流失客户或非流失客户的标签,以形成样本数据;
步骤2、将标签为流失客户的样本数据归入少数类样本集中,将标签为非流失客户的样本数据归入多数类样本集中;
步骤3、对多数类样本集进行欠采样,得到采样多数类样本集;
步骤4、计算采样多数类样本集的样本数据个数与少数类样本集的样本数据个数的差值,并将该差值作为所需的合成样本个数P;
步骤5、遍历少数类样本集的每个样本数据,计算当前样本数据与少数类样本集中其他样本数据的欧式距离,并将当前样本数据及其欧式距离最近的Q个其他样本数据归入当前样本数据的相似样本集;其中Q为设定的大于等于4的正整数;
步骤6、遍历少数类样本集的每个样本数据,从当前样本数据的相似样本集中随机选择
4个样本数据,先计算这4个样本数据的质心,再将质心分别与这4个样本数据进行合并得到
4个合成样本数据,后将合成样本数据归入合成样本数据集;
步骤7、判断合成样本数据集的合成样本数据个数是否等于合成样本个数P:如果合成样本数据集的合成样本数据个数等于合成样本个数P,则将合成样本数据集的合成样本数据全部归入到采样少数类样本集中;
如果合成样本数据集的合成样本数据个数大于合成样本个数P,则从合成样本数据集中随机选择P个合成样本数据归入到采样少数类样本集中;
如果合成样本数据集的合成样本数据个数小于合成样本个数P,则返回步骤6;
步骤8、将采样多数类样本集和采样少数类样本集作为最终的训练集,并将最终的训练集送入到支持向量机中进行训练,得到客户流失预测模型;
步骤9、采集待预测客户的多属性数据,并将其送入到客户流失预测模型中进行分类预测,以确定待预测客户属于流失客户还是非流失客户。
2.根据权利要求1所述的基于混合采样的客户流失预测方法,其特征是,步骤2中,对多数类样本集进行DBSCAN欠采样或K‑Means欠采样。
3.根据权利要求1所述的基于混合采样的客户流失预测方法,其特征是,步骤6中,质心AC为:式中,Aij表示第i个样本数据的第j个属性,i=1,2,3,4,j=1,2,…,n,n为样本数据的属性个数。
4.根据权利要求1所述的基于混合采样的客户流失预测方法,其特征是,步骤6中,第i个样本数据的合成样本数据Ai‑new为:Ai‑new=Ai+rand(0,1)×(AC‑Ai)式中,rand(0,1)为0到1之间的一个随机数,Ai为第i个样本数据,AC为质心,i=1,2,3,
4。
5.根据权利要求1所述的基于混合采样的客户流失预测方法,其特征是,步骤1和步骤9中,多属性数据的属性个数n=3。