1.基于词性标注和子字符增强的电力领域专家画像标签抽取方法,其特征在于,包括如下步骤:步骤1:输入原始电力领域专家数据集D1,对数据集中的数据进行去除重复项和清除缺失值的处理,获取清洗后的样本集D2;
步骤2:使用K‑means算法对样本集D2进行聚类,生成N个电力领域专家的聚类点簇,并对聚类结果进行标注,生成标注后的样本集D4;
步骤3:利用Jieba进行分词和词性标注,将词和词性结合形成词性向量Epos;
步骤4:使用Jieba技术对输入文本进行分词,获得词集合,将词集合的每个词转换为对应的仓颉码形式,并使用子字符n‑grams词袋表示词得到子字符n‑gram集合,根据仓颉码对词的n‑gram进行分解,得到每个子字符n‑gram,将子字符n‑gram作为FastText模型的输入,对子字符n‑gram和词本身都进行训练,得到两种类型的向量:一种是词语子字符n‑gram特征向量,另一种是单词特征向量,将这两种向量的均值作为输入单词的嵌入向量,最终得到子字符增强的向量Vcangjie;
步骤5:使用GRU更新门机制将子字符增强的向量Vcangjie与词性向量融合Epos;
步骤6:通过DPCNN提取局部和长距离特征,以获取最终特征向量,然后使用全连接层和SoftMax层进行分类完成模型的标签抽取。
2.根据权利要求1所述的基于词性标注和子字符增强的电力领域专家画像标签抽取方法,其特征在于,所述步骤2的具体方法为:步骤2.1:使用k‑means算法对样本集D2进行聚类,得到N个聚类点簇;
步骤2.2:定义D3为聚类后的电力领域专家数据集,D3={data1,data2,data3,...,dataN},其中dataN为第N个电力领域专家点簇数据集;
步骤2.3:将数据集D3中的N个电力领域专家点簇为电力领域专家数据集标注标签,生成标注后的样本集D4={d1,d2,...,da,...,dN},其中da={label,dataa},其中,label为文本标签,dataa为文本内容。
3.根据权利要求1所述的基于词性标注和子字符增强的电力领域专家画像标签抽取方法,其特征在于,所述步骤3的具体方法为:步骤3.1:使用Jieba技术对输入文本进行分词,获得词集合S={w1,w2,...,wm}和对应的词性集合P={p1,p2,...,pm},其中wi和pi分别表示词以及对应的词性标签,m表示文本中的总词数;
步骤3.2:将词wi和指定的词性标签pi相关联,形成词‑词性对序列:W‑P={<w1,p1>,<w2,p2>,...<wm,pm>};
步骤3.3:定义循环变量i,且i赋初值为1;
步骤3.4:如果i≤m跳转到步骤3.5,否则跳转到步骤3.7;
步骤3.5:使用大规模词‑词性语料库PWE模型训练,并引入词性相关权重因子来构建词‑词性对序列的词性向量表示,计算公式为:其中, 表示文本中第i个词的词性向量,Φ(pt+i,pt)表示从pt+i到pt的词性标签相关权重的核心权重因子, 表示在特定上下文窗口中训练的静态单词向量,c表示上下文窗口的大小,即从当前位置向左右各取c个词来考虑;
步骤3.6:增加循环变量i的值,跳转到步骤3.4;
步骤3.7:结束循环,得到融合词性的向量
4.根据权利要求1所述的基于词性标注和子字符增强的电力领域专家画像标签抽取方法,其特征在于,所述步骤4的具体方法为:步骤4.1:使用Jieba技术对输入文本进行分词,获得词集合S={w1,w2,...,wm},其中wi表示词,m表示文本中的总词数;
步骤4.2:定义循环变量j,且j赋初值为1;
步骤4.3:如果j≤m跳转到步骤4.4,否则跳转到步骤4.10;
步骤4.4:将每个词wj转换为其对应的仓颉码形式C(wj);
步骤4.5:使用子字符n‑grams词袋表示词wj,设词wj的子字符n‑gram集合表示为{Cj,1,Cj,2,...,Cj,n};
步骤4.6:根据仓颉码对词的子字符n‑gram进行分解,每个子字符n‑gram表示为Cj,q,其中q=1,2,...,n;
步骤4.7:将子字符n‑gram作为FastText模型的输入,对子字符n‑gram和词语本身都进行训练,得到两种类型的向量:一种是词语子字符n‑gram特征向量Vj,q,另一种是单词特征向量步骤4.8:将这两种向量的均值作为输入单词的嵌入向量,对于给定的单词wj,其嵌入向量由单词嵌入 和子字符n‑gram向量Vj,q的均值计算得到,计算公式为:其中,n表示词wj被分解成的子字符n‑grams的数量, 表示词wj的整体特征向量,这是词语作为一个整体单位的嵌入表示,Vj,q表示词wj的第q个子字符n‑gram的特征向量;
步骤4.9:增加循环变量j的值,跳转到步骤4.3;
步骤4.10:结束循环,得到子字符增强的向量Vcangjie=[V1,V2,...,Vm],其中Vj表示文本中第j个词的子字符增强向量。
5.根据权利要求1所述的基于词性标注和子字符增强的电力领域专家画像标签抽取方法,其特征在于,所述步骤5的具体方法为:步骤5.1:首先通过线性变换将Epos和Vcangjie这两个向量的维度对齐,计算公式为:其中,Wv是变换矩阵, 示转化后的特征向量,V表示子字符增强的特征向量;
步骤5.2:然后,通过GRU的更新门机制来确定信息的保留程度,计算公式为:其中,gw表示信息的保留程度,Epos表示融合词性的特征向量,σ表示sigmoid激活函数,wq与wc为更新门的权重,bg表示更新门的偏置;
步骤5.3:最后,子字符增强的特征向量Vcangjie与词性向量Epos的特征融合可表示为:其中,Vfusion表示融合后的特征向量,g是从更新门得到的信息保留程度。
6.根据权利要求1所述的基于词性标注和子字符增强的电力领域专家画像标签抽取方法,其特征在于,所述步骤6的具体方法为:步骤6.1:采用等长卷积来生成具有大小为h的卷积核W的特征,由单词嵌入产生的特征可以由以下公式表示:xi=f(WVfusion(i:i+h‑1)+b)
其中,b为偏置,h代表了卷积核的大小,f为非线性变换函数,W为任务特定的参数矩阵,Vfusion(i:i+h‑1)是指词嵌入层的特征向量的一个子集,这个子集包含了从第i个特征向量到第i+h‑1个特征向量,这个子集的大小由卷积核的大小决定;
步骤6.2:对卷积后的特征进行最大池化,并进行残差连接,池化的步幅为2,计算公式为:x=px+x
其中,x是最终输出向量,Maxpool表示最大池化操作,px是1/2池化后的词向量,len是序列长度,k是循环次数;
步骤6.3:将卷积层的输出连接成一个向量矩阵,并使用全连接层和SoftMax层输出最终的分类结果,首先通过全连接层的线性变换得到的最终的特征表示:X=Wx+b,其中W是权重矩阵,b是偏置;然后计算属于某个类别i的概率Pi:其中,Xi表示最终的特征表示,L表示类别数,Wo是权重矩阵,bo是偏置;
步骤6.4:通过选择具有最高概率的类别来确定分类类别:Y=argmax(Pi);
步骤6.5:将分类结果作为最终标签抽取的结果,完成电力领域专家画像的标签抽取。
7.基于词性标注和子字符增强的电力领域专家画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1‑6任一项所述的基于词性标注和子字符增强的电力领域专家画像标签抽取方法。