利索能及
我要发布
收藏
专利号: 2021113418222
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于,包含如下步骤:步骤1)数据预处理;

计算度量之间的相关性,处理高度相关的度量,对度量执行对数转换;

步骤2)获得各样本的近邻集;

步骤2‑1:计算样本间距离;

假设对于任意样本xi,xil表示样本xi的各个属性值,Yi表示样本xi的标签,n表示样本xi的属性个数, 表示样本xi的近邻集;用公式(6)计算样本xi与样本xj之间的距离d(xi,xj);

步骤2‑2:根据样本间距d(xi,xj)确定样本的近邻集;

样本xi通过对d(xi,xj)升序排列,选择前k个样本,得到距离样本xi最近的K个样本,组成样本xi的近邻集 其中k为自行设定的参数;

步骤3)识别并处理训练样本集中的噪声样本;

步骤3‑1:计算训练样本集的缺陷密度;

假设原始训练集为T,其中有缺陷的样本为少数类,表示为T+;无缺陷的样本为多数类,表示为T‑;使用公式(1)计算训练样本集的缺陷密度DT,其中nums(T+)表示有缺陷样本集T+中样本的数量,nums(T)表示原始训练集T的样本数量;

DT=nums(T+)/nums(T)                      (1)步骤3‑2:计算样本的缺陷密度;

通过公式(2)计算各个样本的近邻集 的缺陷密度Di,其中Ynsj表示近邻集 中第j个样本的标签,Ynsj为0表示近邻集 的第j个样本为无缺陷样本,Ynsj为1表示近邻集的第j个样本为有缺陷样本;

步骤3‑3:对样本进行区域划分;

如公式(3)所示,如果样本xi为无缺陷样本,通过对当前样本xi的近邻集 的缺陷密度Di与训练样本集缺陷密度DT的比较,划分样本xi的区域;当缺陷密度Di大于训练样本集的缺陷密度DT,将样本xi划分到噪声区;当缺陷密度Di小于训练样本集的缺陷密度DT,将样本xi判断为非噪声区;如公式(4)所示,如果样本xi为有缺陷样本,当缺陷密度Di等于0时,也就是当前有缺陷样本xi的近邻集 中全都是无缺陷样本,则判断样本xi处于噪声区;当缺陷密度Di大于0时,将样本xi划分到非噪声区;

无缺陷样本:

有缺陷样本:

步骤3‑4:处理噪声区样本;

如公式(5)所示,丢弃处于噪声区的有缺陷样本;将噪声区的无缺陷样本的标签转换成有缺陷样本的标签,以此增加有缺陷样本的数量;

步骤4)识别并处理边界样本;

步骤4‑1:通过步骤3)获得了相对干净的训练样本集T′后,进入数据处理的第二阶段,对处于边界区的无缺陷样本进行识别及处理;

步骤4‑2:回到步骤3)重新计算各个样本的近邻集步骤4‑3:判断样本xi是否是无缺陷样本;

如果样本xi是无缺陷样本,进入步骤3‑2计算当前样本xi的缺陷密度Di′;当样本xi的缺陷密度Di′大于0,也就是说,当前无缺陷样本周围的k个邻居中存在有缺陷样本,则认为该样本处于边界区域,丢弃处于边界区域的无缺陷样本,形成新的训练样本集T″;

步骤5)平衡数据集;

步骤6)使用随机森林训练模型。

2.根据权利要求1所述的一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于步骤1所述的数据预处理的具体实施如下:计算各个度量之间的相关性,由于NF和ND,REXP和EXP高度相关,ND和REXP被排除在外;

由于LA和LD与LT高度相关,LA和LD通过除以LT归一化;由于LT和NUC与NF高度相关,LT和NUC通过除以NF归一化;对每个度量都执行对数转换,FIX除外。

3.根据权利要求1所述的一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于:步骤5所述的平衡数据集的具体实施如下:判断新训练样本集T″是否是平衡数据集,如T″不为平衡样本集则进行随机欠采样,达到数量上的平衡,得到新的训练样本集T”'。