1.一种基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,包括以下步骤:
(1)输入不平衡化工产品语料集,对语料集中的化工产品文本样本进行数据清洗以及预处理;
(2)统计不平衡化工产品语料集中各类别文本样本的频率,计算实际状态下每类一级标签文本样本在总语料集中的占比;计算数据均匀分布时一级标签下每类文本样本在总语料集中的占比;
(3)从化工产品语料集中获得不同类别样本空间下的化工文本样本对(X1,Y1),(X2,Y2),预设Y1标签所属样本标签大类别为主样本空间m,其余样本所属类别样本空间为副样本空间n;将获得的化工文本样本对分别输入动态词向量编码器中,获得文本样本对输出动态词向量WD1和WD2;将获得的化工文本样本对输入静态词向量生成模型获得对应的静态词向量WS1和WS2;
(4)对化工文本样本对生成的动态词向量WD1和WD2与静态词向量WS1和WS2分别展开self‑mixup样本自插值混合,获得插值混合后的词向量W1和W2及其对应的标签Y1和Y2;
(5)随机在主样本空间m中选择与文本样本(X1,Y1)位于同一大类别样本空间下属不同小样本类别空间中的文本样本(X3,Y3),并对X3应用不同于文本样本X1的静态词向量生成算法生成静态词向量W3及其对应的标签Y3,对生成的(W1,Y1),(W2,Y2)以及(W3,Y3)展开层次样本空间插值,输出获得原始化工文本样本数据增强后的词向量 及其对应的标签所述步骤(4)实现过程如下:W1=μ1WD1+(1‑μ1)WS1
W2=μ2WD2+(1‑μ2)WS2
其中,μ1和μ2表示从β分布获得的插值混合超参数;
步骤(5)所述层次样本空间插值公式为:
其中,m和n分别表示主样本空间以及副样本空间,i和j表示主样本空间下属不同子样本空间,即一级标签相同,二级标签不相同的文本样本,λ表示从β分布获得的插值混合超参数,QA表示样本均衡时,各个一级标签样本在总样本数中所占比例,Q2表示样本(X2,Y2)所属一级标签在总样本数中的占比, 表示不平衡系数。
2.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,步骤(3)所述动态词向量编码器为ELMo、GPT、BERT模型或者分别基于上述三种模型衍生的动态词向量算法模型。
3.根据权利要求1所述的基于混合样本空间的不平衡化工文本数据增强方法,其特征在于,步骤(3)所述静态词向量生成模型为Word2Vec、Glove或FastText模型。
4.一种基于混合样本空间的不平衡化工文本数据增强装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1‑3任一项所述的基于混合样本空间的不平衡化工文本数据增强方法。