1.一种基于数据场聚类的客户细分方法,其特征在于,该方法包括以下步骤:S1:采用解释模型SHAP对客户流失预测模型中的数据集进行解释,计算每个数据集中每个特征对预测结果的影响力,包括数据集telecom‑churn中日均通话分钟数、日均通话次数、平均每月账单,数据集new‑customer‑churn中是否使用语音邮件、语音邮件数量以及是否国际用户;
S2:根据每个数据集中的每个特征对预测结果的影响力,分别绘制吧每个数据集的特征分析图,得到每个数据集中的每个特征的影响力结果,剔除数据集中对预测结果影响力小的特征,得到优化后的数据集;
S3:采用基于数据场改进的K‑Means聚类算法分别对每个优化后的数据集中的流失客户和非流失客户进行细分,分别得到每个数据集中的流失客户和非流失客户的聚类结果;
S4:分别分析每个数据集中的流失客户和非流失客户的聚类结果得到的各个客户群体的数量情况,以及各个客户群体的客户特征情况,得到每个数据集中的流失客户中各个客户群体流失的原因和非流失客户中各个客户群体留下的原因;
根据流失客户中各个客户群体的流失原因,为流失客户群体制定不同的客户保留策略;
根据非流失客户中各个客户群体留下的原因,为留下的客户群体执行更精确的客户保留策略。
2.根据权利要求1所述的一种基于数据场聚类的客户细分方法,其特征在于:所述S1,具体为:SHAP通过为每个特征分配一个权重值来计算每个数据集中每个特征对预测结果的影响,其计算公式如下:其中,f表示客户流失预测模型,x是输入样本,F是特征集,S则表示特征子集,i表示样本的第i个特征,F\{i}是除第i个特征后的子集,fx(S∪{i})表示输入S和特征i的并集时模型的输出,fx(S)则表示只输入S时模型的输出。
3.根据权利要求2所述的一种基于数据场聚类的客户细分方法,其特征在于:所述S2中,绘制的特征分析图包括:summary_plot和force_plot特征分析图。
4.根据权利要求3所述的一种基于数据场聚类的客户细分方法,其特征在于:所述S3,具体包括以下步骤:S41:采用线性函数归一化min‑max scaling对数据集中的数据点进行标准化;
S42:优化数据对象点的影响因子σ;
S43:计算所有数据对象点的势值 和到比它势值更大的数据对象点之间的最小距离δ;
S44:通过计算得到的数据对象点的势值 距离δ,选取距离和势值都较大的数据点作为聚类中心;
S45:采用K‑means算法进行聚类,得到最终聚类结果。
5.根据权利要求4所述的一种基于数据场聚类的客户细分方法,其特征在于:所述S42具体为:令数据对象点xi的势值为 则势熵H表示为:
式中, 为标准化参数;当势熵H取最小值时,对应的σ即为最优值;此时公式(4‑4)变为:
采用线性探查法来得到最优影响因子σ,具体算法包括以下步骤:S51:设d1=min||xi‑xj||,d2=max||xi‑xj||,其中,i≠j;阈值ε;
S52:计算σ1=d1+(1‑τ)(d2‑d1),σ2=d1+τ(d2‑d1),τ=0.618;
S53:若H(σ1)‑H(σ2)>0,且d2‑d1>ε,则d1=σ1,σ1=σ2,σ2=d1+τ(d2‑d1),重复步骤S52;
否则,停止计算,输出σ=σ2;
若H(σ1)‑H(σ2)≤0,且d2‑d1>ε,则d2=σ1,σ2=σ1,σ1=d1+(1‑τ)(d2‑d1);重复步骤S52;
否则,停止计算,输出σ=σ1。
6.根据权利要求5所述的一种基于数据场聚类的客户细分方法,其特征在于:所述S43具体为:在包含n个数据样本的数据集D={x1,x2,...,xn}及其产生的p维空间数据场中,p是指样本x是一个具有p个特征的向量,即每个样本x可以表示为p维向量。每一个对象x的势值计算如公式(3)(4‑2)所示:式中,|x‑xi|表示对象x与其他样本对象之间的距离,σ是影响因子;
根据高斯分布的“3σ规则”,每个数据对象的影响范围是以该数据对象为中心、半径等于2.12σ的邻域空间,即对象间的相互作用范围约为2.12σ;当两个数据对象之间的距离大于2.12σ时,二者之间的相互作用基本可以忽略,此时势函数变为:对于含有n个数据样本的数据集D={x1,x2,...,xn},取势值大于当前样本点xi的所有样本点到xi距离的最小值作为样本点xi到比自身势值更大的样本点之间的距离δi,其公式如下:式中, 表示样本点xi到样本点xj之间的距离,fnum是特征的维数,xik、xjk分别是样本点xi、xj在第k个维度上的值。若势值大于xi的样本点中包含最大势值的样本点,则将δi设为势值大于 的所有样本点到xi距离的最大值。
7.根据权利要求6所述的一种基于数据场聚类的客户细分方法,其特征在于:所述S44具体为:令 将计算得来的τ值进行逆序排序;
从前往后按顺序计算相邻两个τ值的比值τi/τi+1,直到出现连续两个比值都小于某个阈值μ时停止计算,即τi/τi+1<μ,μ∈(1,2),前i‑1个数据点即为聚类中心,i‑1则为最佳聚类数目。