买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于数据类不平衡分布的即时软件缺陷预测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于数据类不平衡分布的即时软件缺陷预测方法

￥15000

专利号： 2021113418222

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于数据类不平衡分布的即时软件缺陷预测方法，其特征在于，包含如下步骤：步骤1)数据预处理；

计算度量之间的相关性，处理高度相关的度量，对度量执行对数转换；

步骤2)获得各样本的近邻集；

步骤2‑1：计算样本间距离；

假设对于任意样本xi，xil表示样本xi的各个属性值，Yi表示样本xi的标签，n表示样本xi的属性个数，表示样本xi的近邻集；用公式(6)计算样本xi与样本xj之间的距离d(xi,xj)；

步骤2‑2：根据样本间距d(xi,xj)确定样本的近邻集；

样本xi通过对d(xi,xj)升序排列，选择前k个样本，得到距离样本xi最近的K个样本，组成样本xi的近邻集其中k为自行设定的参数；

步骤3)识别并处理训练样本集中的噪声样本；

步骤3‑1：计算训练样本集的缺陷密度；

假设原始训练集为T，其中有缺陷的样本为少数类，表示为T+；无缺陷的样本为多数类，表示为T‑；使用公式(1)计算训练样本集的缺陷密度DT，其中nums(T+)表示有缺陷样本集T+中样本的数量，nums(T)表示原始训练集T的样本数量；

DT＝nums(T+)/nums(T) (1)步骤3‑2：计算样本的缺陷密度；

通过公式(2)计算各个样本的近邻集的缺陷密度Di，其中Ynsj表示近邻集中第j个样本的标签，Ynsj为0表示近邻集的第j个样本为无缺陷样本，Ynsj为1表示近邻集的第j个样本为有缺陷样本；

步骤3‑3：对样本进行区域划分；

如公式(3)所示，如果样本xi为无缺陷样本，通过对当前样本xi的近邻集的缺陷密度Di与训练样本集缺陷密度DT的比较，划分样本xi的区域；当缺陷密度Di大于训练样本集的缺陷密度DT，将样本xi划分到噪声区；当缺陷密度Di小于训练样本集的缺陷密度DT，将样本xi判断为非噪声区；如公式(4)所示，如果样本xi为有缺陷样本，当缺陷密度Di等于0时，也就是当前有缺陷样本xi的近邻集中全都是无缺陷样本，则判断样本xi处于噪声区；当缺陷密度Di大于0时，将样本xi划分到非噪声区；

无缺陷样本:

有缺陷样本:

步骤3‑4：处理噪声区样本；

如公式(5)所示，丢弃处于噪声区的有缺陷样本；将噪声区的无缺陷样本的标签转换成有缺陷样本的标签，以此增加有缺陷样本的数量；

步骤4)识别并处理边界样本；

步骤4‑1：通过步骤3)获得了相对干净的训练样本集T′后，进入数据处理的第二阶段，对处于边界区的无缺陷样本进行识别及处理；

步骤4‑2：回到步骤3)重新计算各个样本的近邻集步骤4‑3：判断样本xi是否是无缺陷样本；

如果样本xi是无缺陷样本，进入步骤3‑2计算当前样本xi的缺陷密度Di′；当样本xi的缺陷密度Di′大于0，也就是说，当前无缺陷样本周围的k个邻居中存在有缺陷样本，则认为该样本处于边界区域，丢弃处于边界区域的无缺陷样本，形成新的训练样本集T″；

步骤5)平衡数据集；

步骤6)使用随机森林训练模型。

2.根据权利要求1所述的一种基于数据类不平衡分布的即时软件缺陷预测方法，其特征在于步骤1所述的数据预处理的具体实施如下：计算各个度量之间的相关性，由于NF和ND,REXP和EXP高度相关，ND和REXP被排除在外；

由于LA和LD与LT高度相关，LA和LD通过除以LT归一化；由于LT和NUC与NF高度相关，LT和NUC通过除以NF归一化；对每个度量都执行对数转换，FIX除外。