1.基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,包括:基于待计算样本到最近的两类样本的距离均值,对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型;
所述生成多个样本数量平衡的征信样本集,具体为:
假设要生成T个样本数量平衡的征信样本集,则执行T次自步上采样和自步下采样,每次生成的高风险样本子集和低风险样本子集构成一个样本数量平衡的征信样本集,从而得到T个样本数量平衡的征信样本集;
每次生成的高风险样本子集,包括两部分样本:
第一部分是迭代样本集中的全部高风险样本,其中,迭代样本集是上次生成的高风险样本子集,而第一次的迭代样本集是原始高风险样本集;
第二部分是根据高风险样本难度的概率密度函数,对高风险样本进行自步上采样,生成的新的高风险样本,其中,第二部分的高风险样本的生成方法为:(1)根据高风险样本难度的概率密度函数 从Np个原始高风险样本中选择N1个高风险样本,N1的具体计算公式为:N1=(Nn‑Np)/T
其中,Nn为原始低风险样本集的样本个数,Np为原始高风险样本集的样本个数,T是要生成的征信样本集的个数;
重复执行以下过程N1次,每次从Np个原始高风险样本中选择1个高风险样本:利用随机数生成器生成一个正随机数r1,利用r1从Np个原始高风险群样本中选出1个高风险样本 满足以下条件:
其中, 为高风险样本xi的概率密度函数, 为选出的高风险样本,t1∈{1,
2,...,Np};
(2)以选出的每个高风险样本为种子点,利用上采样方法SMOTE,产生一个新的高风险样本,则选出的N1个高风险样本,总共产生N1个新的高风险样本;
每次生成的低风险样本子集,是根据低风险样本难度的概率密度函数,对低风险样本进行自步下采样得到的,具体为:根据低风险样本难度的概率密度函数 从Nn个原始低风险样本中选择N2个低风险样本,N2为当前新生成的高风险样本子集中高风险样本的个数;
重复执行以下过程N2次,每次从Nn个原始低风险样本中选择1个低风险样本:利用随机数生成器生成一个正随机数r2,利用r2从Nn个原始低风险样本中选出1个低风险样本 满足以下条件:其中, 为低风险样本xj的概率密度函数, 为选出的低风险样本,t2∈{1,2,...,Nn};
新选出来的N2个低风险样本构成低风险样本子集;
高风险样本子集与低风险样本子集构成样本数量平衡的征信样本集。
2.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,所述样本难度计算,包括:对于高风险样本,分别计算每个高风险样本到最近的两类样本的距离均值,两个距离均值的倒数之和为该高风险样本的样本难度;
对于低风险样本,分别计算每个低风险样本到最近的两类样本的距离均值,计算两个距离均值的倒数之和,1除以倒数之和为该低风险样本的样本难度。
3.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,所述基于样本难度得到样本难度的概率密度函数,具体为:对于高风险样本,该高风险样本的样本难度除以所有高风险样本的样本难度之和,得到高风险样本难度的概率密度函数;
对于低风险样本,该低风险样本的样本难度除以所有低风险样本的样本难度之和,得到低风险样本难度的概率密度函数。
4.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,所述风险评估模型,是利用多数投票机制融合多个基分类器得到的。
5.基于双重自步学习的不平衡征信数据风险评估系统,其特征在于,包括函数计算模块、样本构建模块、模型训练模块和风险评估模块:函数计算模块,被配置为:基于待计算样本到最近的两类样本的距离均值,对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
样本构建模块,被配置为:根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
模型训练模块,被配置为:基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
风险评估模块,被配置为:通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型;
所述生成多个样本数量平衡的征信样本集,具体为:
假设要生成T个样本数量平衡的征信样本集,则执行T次自步上采样和自步下采样,每次生成的高风险样本子集和低风险样本子集构成一个样本数量平衡的征信样本集,从而得到T个样本数量平衡的征信样本集;
每次生成的高风险样本子集,包括两部分样本:
第一部分是迭代样本集中的全部高风险样本,其中,迭代样本集是上次生成的高风险样本子集,而第一次的迭代样本集是原始高风险样本集;
第二部分是根据高风险样本难度的概率密度函数,对高风险样本进行自步上采样,生成的新的高风险样本,其中,第二部分的高风险样本的生成方法为:(1)根据高风险样本难度的概率密度函数 从Np个原始高风险样本中选择N1个高风险样本,N1的具体计算公式为:N1=(Nn‑Np)/T
其中,Nn为原始低风险样本集的样本个数,Np为原始高风险样本集的样本个数,T是要生成的征信样本集的个数;
重复执行以下过程N1次,每次从Np个原始高风险样本中选择1个高风险样本:利用随机数生成器生成一个正随机数r1,利用r1从Np个原始高风险样本中选出1个高风险样本 满足以下条件:其中, 为高风险样本xi的概率密度函数, 为选出的高风险样本,t1∈{1,
2,...,Np};
(2)以选出的每个高风险样本为种子点,利用上采样方法SMOTE,产生一个新的高风险样本,则选出的N1个高风险样本,总共产生N1个新的高风险样本;
每次生成的低风险样本子集,是根据低风险样本难度的概率密度函数,对低风险样本进行自步下采样得到的,具体为:根据低风险样本难度的概率密度函数 从Nn个原始低风险样本中选择N2个低风险样本,N2为当前新生成的高风险样本子集中高风险样本的个数;
重复执行以下过程N2次,每次从Nn个原始低风险样本中选择1个低风险样本:利用随机数生成器生成一个正随机数r2,利用r2从Nn个原始低风险样本中选出1个低风险样本 满足以下条件:其中, 为低风险样本xj的概率密度函数, 为选出的低风险样本,t2∈{1,2,...,Nn};
新选出来的N2个低风险样本构成低风险样本子集;
高风险样本子集与低风险样本子集构成样本数量平衡的征信样本集。
6.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1‑4任一项所述的方法。
7.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1‑4任一项所述方法的指令。