1.一种个人金融信用风险评价方法,其特征在于,所述评价方法由计算机执行,包括以下步骤:获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
2.如权利要求1所述的评价方法,其特征在于,基于K-means方法对所述历史数据进行聚类处理,具体包括:初始化所述历史数据,得到正类样本数据和负类样本数据;
设置聚类中心数的取值范围;
确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值;
输出正信用簇群和负信用簇群。
3.如权利要求1所述的评价方法,其特征在于,所述信用样本子集的获取方法包括:组合配对:从生成的 个正信用簇群和 个负信用簇群中随机挑选单个子集进行配对组合,共形成 个包含正负类样本的新数据集。
4.如权利要求1所述的评价方法,其特征在于,对所述信用样本子集进行过滤,具体包括:确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于
50%,则为非均衡样本子集,否则为均衡样本集;
其中:少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
5.如权利要求4所述的评价方法,其特征在于,所述采样倍率的计算方法包括:根据样本不平衡比例IL以确定采样倍率n;
n=round(IL)
其中:
round表示对IL四舍五入;
其中:
majority表示多数类样本,minority表示少数类样本。
6.如权利要求5所述的评价方法,其特征在于,对所述非均衡样本子集进行采样处理,得到均衡样本子集,具体包括:计算所述非均衡样本子集内少数类样本之间的欧式距离矩阵;
在少数类样本xi的k个近邻样本中随机选择一个样本作为辅助样本,在样本xi与每个辅助样本间进行线性插值;具体为:xnew,attr=xi,attr+(xij,attr-xi,attr)×γ其中:
xi∈Rd,xi,attr表示第i个少数类样本中的第attr个属性,attr=1,2,...,d;Rd表示少数类样本集合;
γ为[0,1]之间的随机数;
xij是样本xi的第j个近邻样本,j=1,2,...,k;
xnew表示在样本xij与xi之间插值得到的样本;
共生成nt个合成样本,其中t为样本集中原始少数类样本个数。
7.如权利要求6所述的评价方法,其特征在于,基于证据推理规则方法融合多个决策树的结果,具体包括:将分类结果表示为证据:
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
为第s个基分类器的分类结果取yj的概率;
计算证据的信度:
其中:
是综合考虑可靠性与权重的证据es对Dj的支持度,定义如下:crw,nc=1/(1+wnc-rnc)其中:
crw,s=1/(1+ws-rs),表示归一化因子;
rs与ws分别表示相应的可靠性和权重;
使用证据推理规则对S个基分类器所提供的S条证据e1,e2,...,eS进行融合,可得到这S条证据联合支持yj的信度函数 如下:其中:
rs表示可靠性;
mP(Θ),e(S-1), mB,e(S-1),mC,S为信度分布函数。
8.一种个人金融信用风险评价系统,其特征在于,所述系统包括计算机,所述计算机包括:至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
9.一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如权利要求1所述的方法。