1.一种多特征双向门控领域专家实体抽取方法,其特征在于:包括以下步骤:步骤1:获取领域专家语料库D1∈{d1,d2,...,dN},其中,d为单条领域专家文本,N为语料大小,对领域专家语料库D1中的语料进行标记,包括将领域关键词实体标记为Key;对标记后的语料库依次进行字符级切分和标记,完成全分词标注语料库D2的构建;
步骤2:定位全分词标注语料库D2中标记为Key的领域关键词实体,获取领域关键词实体的前后向特征,通过前后向特征生成二元共现词汇组,并利用二元共现词汇组构建边界特征向量矩阵E1;将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间,得到边界特征;
步骤3:对领域专家语料库D1进行预处理,并采用预处理后的数据对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model,循环遍历领域专家语料库D1中每条领域专家文本,通过BERT_Model得到融合全文语义信息的字特征;
步骤4:拼接边界特征和字特征,得到基于多特征融合的向量数据集D3;基于双向门控神经网络和注意力机制,构建中文领域专家实体抽取模型Model,采用向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model;
步骤5:将待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,得到领域专家实体识别结果。
2.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:在所述步骤1中,需对领域专家语料库进行预处理,所述预处理包括去重和去掉特殊字符;
在步骤1中,所述的对领域专家语料库D1中的语料进行标记,包括:使用领域专业术语词汇与领域专家语料库D1中的领域关键词实体进行匹配,并标记为Key;
采用YEDDA工具,对领域专家语料库D1中的其他实体进行补充标记,标记类型记为type。
3.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述全分词标注语料库D2由字符对(context,label)构成,其中,context表示切分后的单个字符,label:{offset-type}表示实体的标记,offset表示实体起始到结束的标识,表示为{B,M,E,S},B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词,type表示非领域关键词实体的其他实体的标记类型。
4.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述步骤2具体包括:S201:定位全分词标注语料库D2中标记为Key的领域关键词实体;
S202:设定滑动窗口宽度width,滑动窗口,获取领域关键词实体在滑动窗口宽度width内所有边界的前后向特征;
S203:将前后向特征生成二元共现词汇组,统计各二元共现词汇组以前后顺序同时出现的频率,记为共现频次w;
S204:基于下式计算得到二元共现词汇组出现的概率f:
式中,fi表示第i组二元共现词汇组出现的概率,wi表示第i组二元共现词汇组的共现频次;
S205:构建边界特征矩阵E1=(prev,next,w,f),其中,prev表示二元共现词汇组中的前一个词汇,next表示二元共现词汇组中的后一个词汇,w为二元共现词汇组的共现频次,f为二元共现词汇组出现的概率;
S206:将全分词标注语料库D2中所有单条文本通过边界特征向量矩阵E1,映射至向量空间,得到文本中的边界特征
5.根据权利要求4所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述S206具体包括以下步骤:统计文本边界特征数,并根据下式计算文本中每个字符作为边界特征的可信度P(ci):其中,ci代表在全分词标注语料库D2中的第i个字符, 表示字符ci作为边界的二元概率, 表示字符ci在全分词标注语料库D2中的共现频次;
对可信度P(ci)归一化处理,得到离散特征值:
式中, 表示字符ci的边界特征值,round函数为四舍五入计算,k为切割值,用于控制离散化后的特征数,Pmin表示最小可信度阈值,Pmax表示最大可信度阈值。
6.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述步骤3具体包括:S301:对领域专家语料库D1中的语料按照句子进行切分;
S302:对每个句子进行字符化,将句子切分为Max_len个字,对超过长度Max_len的字符进行截断;
S303:句首以特殊字符[CLS]标记,句子之间用[SEP]字符连接,句末以[SEP]标记,句子中替换的词汇用[MASK]代替,长度不足用[PAD]补齐对应补全符号为0,真实字符以及特殊标记[CLS]和[SEP]对应为1,得到预处理后的语料;
S304:采用预处理后的语料对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model;
S305:循环遍历原始语料库D1中每条记录d,通过BERT语言模型得到字特征
7.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述的拼接边界特征和字特征,得到基于多特征融合的向量数据集D3,具体包括以下步骤:S401:定义用于遍历全分词标注语料库D2的循环变量i2,i2赋初值1;
S402:判断是否满足i2≤N,若满足,则跳转到S403,否则跳转到S407;
S403:提取边界特征
S404:提取字特征
S405:拼接字特征 和边界特征 得到多特征融合后新的特征
S406:i2=i2+1,跳转至S402;
S407:得到基于特征融合的向量数据集D3={X1,X2,...,XN}。
8.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述步骤5包括:将待抽取领域专家文本进行预处理,该预处理与步骤3中对对领域专家语料库D1进行预处理相同;
将预处理后的待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,通过训练好的模型参数,采用维特比算法计算最大可能的输出序列,将其作为最优命名实体识别结果,得到预测实体标签y;
基于预测实体标签y,建立高质量的领域专家实体信息索引项。
9.一种多特征双向门控领域专家实体抽取系统,其特征在于:包括:全分词标注语料库构建模块,执行如下操作:
获取领域专家语料库D1∈{d1,d2,...,dN},其中,d为单条领域专家文本,N为语料大小,对领域专家语料库D1中的语料进行标记,包括将领域关键词实体标记为Key;对标记后的语料库依次进行字符级切分和标记,完成全分词标注语料库D2的构建;
边界特征获取模块,执行如下操作:定位全分词标注语料库D2中标记为Key的领域关键词实体,获取领域关键词实体的前后向特征,通过前后向特征生成二元共现词汇组,并利用二元共现词汇组,构建边界特征向量矩阵E1;将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间,得到边界特征;
语言模型训练模块,执行如下操作:
对领域专家语料库D1进行预处理,并采用预处理后的数据对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model;
字特征获取模块,执行如下操作:
循环遍历领域专家语料库D2中每条领域专家文本d,通过BERT_Model得到融合全文语义信息的字特征;
中文领域专家实体抽取模型Model构建及训练模块,执行如下操作:拼接边界特征和字特征,得到基于多特征融合的向量数据集D3;基于双向门控神经网络和注意力机制,构建中文领域专家实体抽取模型Model,采用向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model。