利索能及
我要发布
收藏
专利号: 2018103507302
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种样本数据分类方法,其特征在于,所述方法包括:

计算样本数据中每个样本的特征;

根据每个样本的特征,计算每个样本的距离集,所述每个样本的距离集包括每个样本与每个样本对应的剩余样本中每个样本间的距离;

将每个样本的距离集中每个距离与距离阈值进行对比,确定大于所述距离阈值的距离数,并将每个样本对应的距离数作为每个样本的密度值;

对于密度值最大的样本,从所述密度值最大的样本的距离集中,筛选最大距离作为所述密度值最大的样本的密度距离值;对于第二样本集中任意一个样本,确定密度值大于所述任意一个样本的密度值的样本;根据所述任意一个样本的距离集,从密度值大于所述任意一个样本的密度值的样本中确定与所述任意一个样本最近的距离,将与所述任意一个样本最近的距离确定为所述任意一个样本的密度距离值,所述第二样本集包括所述样本数据中除去密度值最大的样本的其他样本;

根据每个样本的密度值及每个样本的密度距离值,确定至少一个聚类中心;

基于所述至少一个聚类中心及每个样本的特征,将所述样本数据聚类成多个子集;

将与所述至少一个聚类中心中每个聚类中心的距离超过距离阈值的样本确定为错误样本。

2.如权利要求1所述的样本数据分类方法,其特征在于,所述根据每个样本的密度值及每个样本的密度距离值,确定至少一个聚类中心包括:根据每个样本的密度值及每个样本的密度距离值,计算每个样本的聚类度量值;

根据每个样本的聚类度量值,确定至少一个聚类中心,所述每个样本的聚类度量值等于每个样本的密度值与每个样本的密度距离值的乘积。

3.如权利要求2所述的样本数据分类方法,其特征在于,所述根据每个样本的聚类度量值,确定至少一个聚类中心包括:根据每个样本的聚类度量值,从大到小进行排序,从排序后的聚类度量值中,筛选聚类度量值排序前预设位数的样本作为聚类中心点;

根据每个样本的聚类度量值,筛选聚类度量值大于阈值的样本作为聚类中心点。

4.一种模型训练方法,其特征在于,所述方法包括:

获取每个类别的样本数据;

利用如权利要求1至3中任一项所述的样本数据分类方法对每个类别的样本数据进行分类,得到每个类别的多个子集;

计算每个类别的多个子集中每个子集与每个子集所在类别的相关度;

根据每个类别的多个子集中每个子集与类别的相关度,从高到低,对每个类别的多个子集进行排序,得到每个类别的多个排序后的子集;

依次从每个类别的多个排序后的子集中,读取排序位置相同的子集作为模型的训练样本,对所述模型进行训练。

5.如权利要求4所述的模型训练方法,其特征在于,在所述多个排序后的子集中,排序位置越靠前的子集对应的权重越大。

6.一种电子设备,其特征在于,所述电子设备包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现如权利要求1至3中任一项所述样本数据分类方法,及/或如权利要求4或5中任一项所述模型训练方法。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至3中任一项所述样本数据分类方法,及/或如权利要求4或5中任一项所述模型训练方法。