利索能及
我要发布
收藏
专利号: 2023100111200
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,包括以下步骤:S1、将不平衡时序数据集划分为少数类数据集M={m1,m2,...,mm},其中,mi表示第i个子序列;多数类数据集N={n1,n2,...,nn},其中,nj表示第j个子序列;设置近邻样本数量参数K;确定需要生成的样本总数量num;

S2、根据平均欧氏距离D1、D2的大小,将M划分为近多数类数据集N‑Maj,样本数量为n_maj;近少数数据集N‑Min,样本数量为n_min;

S3、计算N‑Maj的子序列之间的DTW距离,并组成DTW距离矩阵E3;计算N‑Min的子序列之间的DTW距离,并组成DTW距离矩阵E4;确定N‑Maj需要生成的序列数量为num1,确定N‑Min需要生成的数量为num2;

S4、随机选取N‑Maj中的子序列ap,通过E3的对应元素位置,筛选ap的K个近邻子序列,组成近邻序列集P={ap1,ap2,...,apK};

S4.1、通过ap和P={ap1,ap2,...,apK}之间的DTW规整对齐,得到临时对齐序列集Cp={ap‑avg1,ap‑avg2,...,ap‑avgK};

S4.2、根据子序列ap及其近邻序列集Cp,确定距离权重集W;

S4.3、:按照距离权重集W,对临时对齐序列集Cp求取加权平均值,构成新的平均序列ap‑avg;

S4.4、将新的平均序列ap‑avg加入N‑Maj中,并与N‑Maj中每个子序列进行DTW计算,更新DTW距离矩阵E3;

S4.5、重复步骤S4到S4.4,直到生成num1条新数据;

S5、随机选取N‑Min中的第q个子序列bq,通过E4的对应元素位置,筛选bq的K个近邻子序列,组成近邻序列集Q={bq1,bq2,...,bqK};

S5.1、通过bq和Q={bq1,bq2,...,bqK}之间的DTW规整对齐,得到临时对齐序列集Cq={bq‑avg1,bq‑avg2,...,bq‑avgK};

S5.2、根据子序列bq及其近邻序列集Cq,确定距离权重集W;

S5.3、按照距离权重集W,对临时对齐序列集求取加权平均值,构成平均序列bq‑avg;

S5.4、在bq‑avg的每个时间步上添加样本随机差异rand_diff,形成新的序列bq‑new;

S5.5、将新生成序列bq‑new加入N‑Min中,并与N‑Min中每个子序列进行DTW计算,同时更新DTW距离矩阵E4和N‑Min;

S5.6、重复步骤S5到S5.5,直到生成num2条新数据;

S6、合并N‑Min和N‑Maj,组成新的少数类数据集M',将新的数据集M'与N合并,组成平衡数据集。

2.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S2中,D1表示子序列mi与少数类数据集M中K个近邻子序列的平均欧氏距离;D2表示子序列mi与多数类数据集N={n1,n2,...,nn}中K个近邻序列的平均欧氏距离;

当D1>D2时,子序列mi储存至近多数类数据集N‑Maj;

当D1≤D2时,子序列mi储存至近少数数据集N‑Min。

3.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S4、S5中,通过E3、E4对应的元素位置,筛选ap的K个近邻子序列,组成近邻序列集P={ap1,ap2,...,apK}和bq的K个近邻子序列,组成近邻序列集Q={bq1,bq2,...,bqK}。

4.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S4.2中,对子序列ap和近邻序列集P中的子序列进行DTW规整对齐,根据DTW计算过程中求得的最优匹配路径,获得子序列ap和近邻序列集P最优对齐的临时对齐序列集Cp={ap‑avg1,ap‑avg2,...,ap‑avgK};通过序列bq和近邻序列集Q的DTW最优对齐,得到临时对齐序列集Cq={bq‑avg1,bq‑avg2,...,bq‑avgK}。

5.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S4.3和S5.3中,根据子序列ap与Cp在E3中对应的DTW距离,确定权重集;权重集W初始权重为ω0,权重数量为K+1,其和为1,权重集W为:W=[ω0,ω1,ω2,...,ωK]

其中,ωj表示权重集中第j个权重,1≤j≤K;ej表示子序列与自身第j条近邻序列DTW距离;fj表示与距离成反比的系数,ρ为配置参数;

同理,S5.2中,按根据子序列bq与近邻序列集Cq子序列在E4中对应的DTW距离,确定权重集。

6.根据权利要求1所述针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,步骤S5.4中,对于由N‑Min中生成的新序列bq‑avg,在其每个时间步的值上添加随机差异rand_diff;其中,每条新序列的随机差异由步骤S5中的子序列bq与近邻序列集Q={bq1,bq2,...,bqK}决定,即bq‑avg每个时间步上的值需要添加的随机差异,都是由bq=(xq,1,xq,2,...,xq,t)与近邻序列集Q={bq1,bq2,...,bqK}中的所有子序列在同一时间步上的平均差异得到,组成长度为t的rand_diff(r):其中,bqi为近邻序列集Q={bq1,bq2,...,bqK}的子序列之一;bqi(r)和bq(r)为bqi和bq在不同时间步上的值,1≤r≤t;

在bq‑avg所有时间步上,添加随机差异,得到bq‑new:

bq‑new(r)=bq‑avg(r)+rand_diff(r)。