买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于双重自步学习的不平衡征信数据风险评估方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于双重自步学习的不平衡征信数据风险评估方法及系统

￥26400

专利号： 2023100672582

申请人：齐鲁工业大学(山东省科学院)

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-10

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于双重自步学习的不平衡征信数据风险评估方法，其特征在于，包括：基于待计算样本到最近的两类样本的距离均值，对采集到的原始征信样本集进行样本难度计算，基于样本难度得到样本难度的概率密度函数，其中，所述原始征信样本集包含两种风险类型的样本：高风险样本和低风险样本；

根据样本难度的概率密度函数，分别对高风险样本和低风险样本进行多次自步上采样和自步下采样，生成多个样本数量平衡的征信样本集；

基于多个征信样本集中的样本数据及对应的风险类型，训练多个基分类器，将基分类器融合得到风险评估模型；

通过训练后的风险评估模型对待评估的征信数据进行风险类型预测，以生成并输出所述征信数据的风险类型；

所述生成多个样本数量平衡的征信样本集，具体为：

假设要生成T个样本数量平衡的征信样本集，则执行T次自步上采样和自步下采样，每次生成的高风险样本子集和低风险样本子集构成一个样本数量平衡的征信样本集，从而得到T个样本数量平衡的征信样本集；

每次生成的高风险样本子集，包括两部分样本：

第一部分是迭代样本集中的全部高风险样本，其中，迭代样本集是上次生成的高风险样本子集，而第一次的迭代样本集是原始高风险样本集；

第二部分是根据高风险样本难度的概率密度函数，对高风险样本进行自步上采样，生成的新的高风险样本，其中，第二部分的高风险样本的生成方法为：(1)根据高风险样本难度的概率密度函数从Np个原始高风险样本中选择N1个高风险样本，N1的具体计算公式为：N1＝(Nn‑Np)/T

其中，Nn为原始低风险样本集的样本个数，Np为原始高风险样本集的样本个数，T是要生成的征信样本集的个数；

重复执行以下过程N1次，每次从Np个原始高风险样本中选择1个高风险样本：利用随机数生成器生成一个正随机数r1，利用r1从Np个原始高风险群样本中选出1个高风险样本满足以下条件：

其中，为高风险样本xi的概率密度函数，为选出的高风险样本,t1∈{1,

2,...,Np}；

(2)以选出的每个高风险样本为种子点，利用上采样方法SMOTE，产生一个新的高风险样本，则选出的N1个高风险样本，总共产生N1个新的高风险样本；

每次生成的低风险样本子集，是根据低风险样本难度的概率密度函数，对低风险样本进行自步下采样得到的，具体为：根据低风险样本难度的概率密度函数从Nn个原始低风险样本中选择N2个低风险样本，N2为当前新生成的高风险样本子集中高风险样本的个数；

重复执行以下过程N2次，每次从Nn个原始低风险样本中选择1个低风险样本：利用随机数生成器生成一个正随机数r2，利用r2从Nn个原始低风险样本中选出1个低风险样本满足以下条件：其中，为低风险样本xj的概率密度函数，为选出的低风险样本,t2∈{1,2,...,Nn}；

新选出来的N2个低风险样本构成低风险样本子集；

高风险样本子集与低风险样本子集构成样本数量平衡的征信样本集。

2.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法，其特征在于，所述样本难度计算，包括：对于高风险样本，分别计算每个高风险样本到最近的两类样本的距离均值，两个距离均值的倒数之和为该高风险样本的样本难度；

对于低风险样本，分别计算每个低风险样本到最近的两类样本的距离均值，计算两个距离均值的倒数之和，1除以倒数之和为该低风险样本的样本难度。

3.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法，其特征在于，所述基于样本难度得到样本难度的概率密度函数，具体为：对于高风险样本，该高风险样本的样本难度除以所有高风险样本的样本难度之和，得到高风险样本难度的概率密度函数；

对于低风险样本，该低风险样本的样本难度除以所有低风险样本的样本难度之和，得到低风险样本难度的概率密度函数。

4.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法，其特征在于，所述风险评估模型，是利用多数投票机制融合多个基分类器得到的。

5.基于双重自步学习的不平衡征信数据风险评估系统，其特征在于，包括函数计算模块、样本构建模块、模型训练模块和风险评估模块：函数计算模块，被配置为：基于待计算样本到最近的两类样本的距离均值，对采集到的原始征信样本集进行样本难度计算，基于样本难度得到样本难度的概率密度函数，其中，所述原始征信样本集包含两种风险类型的样本：高风险样本和低风险样本；

样本构建模块，被配置为：根据样本难度的概率密度函数，分别对高风险样本和低风险样本进行多次自步上采样和自步下采样，生成多个样本数量平衡的征信样本集；

模型训练模块，被配置为：基于多个征信样本集中的样本数据及对应的风险类型，训练多个基分类器，将基分类器融合得到风险评估模型；

风险评估模块，被配置为：通过训练后的风险评估模型对待评估的征信数据进行风险类型预测，以生成并输出所述征信数据的风险类型；