利索能及
我要发布
收藏
专利号: 2020107381724
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种自学习事件抽取方法,其特征在于:包括:

S0:对工业异常日志记载的事件信息按分隔标记进行分隔,对分隔后的每个句子按前后顺序进行顺序编码;

S1:通过数据预处理过程依次抽取每个句子中的候选词和候选词对应的角色,获得按顺序排列的候选词集和候选词‑角色映射集,将所得候选词集和候选词‑角色映射集通过词嵌入操作分别得到按顺序排列的候选词向量集和候选词‑角色映射向量集;

S2:通过第一分类器,根据由候选词向量集转化得到的句向量集和所述映射向量集进行触发词筛选,获得触发词向量集;

S3:通过第二分类器及权值学习模型,根据所得触发词向量集和其对应的句向量进行事件分类;

S4:根据步骤S0‑S3对已知事件类型的事件信息进行分解,将其获得的触发词向量集、句向量集与已知的事件类型输入模型中进行训练,训练完成后获得抽取模型;

S5:通过所述抽取模型对待解读事件信息进行抽取和分类;

其中,S1具体包括:

S10:对工业异常日志的每个句子进行指代消歧,得到消歧后的句子;

S11:对消歧后的句子进行词形还原;

S12:对完成词形还原后的每个句子通过GloVe模型进行词的向量化,使每个句子转化为词向量h1,h2,....,hn,其中n表示单个句子中单词的数量;

S13:对完成词向量嵌入的句子通过第一Transformer编码器,获得可靠词向量全部句子的可靠词向量即组成所述候选词向量集;

S14:通过NLP工具对完成所述词形还原后的每个句子进行角色抽取,获得包括候选词及其对应角色的候选词‑角色映射集rj如下,rj={Entity[a,b...];Verb[c,d...];Time[e,f...];Place[g,...];Org[l,...]};

其中,Entity、Verb、Time、Place、Org分别表示角色实体、动词、时间、地点和组织,a、b、c……l分别表示各个角色在句子中对应的单词;

对所述候选词‑角色映射集通过GloVe模型进行词的向量化,将其转换为映射向量集Rj,如下:Rj={[Ri][hi,...];[Rj][hj,...];[Rk][hk,...];[Rl][hl,...];[Rm][hm,...]};

其中,[Ri]、[Rj]、[Rk]、[Rl]和[Rm]分别表示角色Entity、Verb、Time、Place和Org的词向量;[hi,...]、[hj,...]、[hk,...]、[hl,...]和[hm,...]分别表示其对应的单词集[a,b...]、[c,d...]、[e,f...]、[g,...]和[l,...]的词向量;

对日志中按句子顺序编码排列的全部句子按上述过程进行处理,获得日志的全部映射向量集{R1,R2,...,Rj...,Rm},其中m表示句子数量;

S2具体包括:

S20:对按句子顺序编码排列的候选词向量集 通过神经网络的池化层进行最大池化处理,使其转换为句向量集{S1,S2,...Sj..,Sm},其中,j=1,...,m,m表示句子数量;

S21:将句向量集{S1,S2,...Sj..,Sm}和映射向量集{R1,R2,...,Rj...,Rm}输入第二Transformer编码器中,得到编码后的映射向量集 及融合了映射向量集信息编码的句向量集

S22:将第一个句子的编码后句向量 输入第一分类器中,按每个句向量中候选词向量对应的角色向量的不同,分别计算出每个角色向量下,所含有的候选词向量为触发词的概率,具体的,每个超过一定的第一阈值的候选词向量标注为触发词t;若一句话中没有候选词向量超过第一阈值,则认为此句话中没有事件触发词,跳过此句话;

S23:依次将全部句向量进行S22的操作,得到触发词向量集T={t11,t12,.....t1q,t21,.....t2q,tj1.....tjq,tm1.....,tmq};其中,j表示句子编号,q表示该句中事件触发词的编号,m表示句子数量;

S3具体包括:

S31:将编码后的句向量 至 依次和触发词向量t11分别输入第二分类器中,获得任一编码后句向量 对应的类型概率,及触发词向量t11对应的类型概率;

S32:通过Attention模型对任一编码后句向量 的权值α及触发词t11的权值β进行自学习;

S33:将任一编码后句向量 对应的类型概率和触发词向量t11对应的类型概率分别与它们的权值相乘后加和,得到触发词向量t11在编码后句向量 下的事件类型概率;

S34:选择t11在 下的事件类型概率中超过第二阈值的最大值,将该最大值对应的事件类型作为触发词向量t11的事件类型;

S35:将编码后句向量 至 和触发词向量t12进行与步骤S31‑S34相同的操作,得到触发词向量t12的事件类型;

S35:将编码后句向量 至 和任一触发词向量tjq进行与步骤S31‑S34相同的操作,得到任一触发词向量tjq的事件类型;

S4具体包括:

使用已知事件类型的信息通过步骤S0‑S3进行模型训练,再通过训练完成后的模型进行事件分类和事件元素抽取,其中,事件元素抽取为:在完成任一触发词向量tjq的事件分类后,填入该触发词向量对应的前后关联词及其角色,即获得完整的事件元素抽取。

2.根据权利要求1所述的事件抽取方法,其特征在于:所述第一分类器使用Softmax交叉熵损失函数,设置为二分类问题,所述第一阈值概率为70%。

3.根据权利要求1所述的事件抽取方法,其特征在于:所述第二分类器使用Softmax交叉熵损失函数,设置为多分类问题。

4.根据权利要求1所述的事件抽取方法,其特征在于:所述第二阈值为60%。

5.根据权利要求1所述的事件抽取方法,其特征在于:所述指代消歧通过stanford corenlp实现。

6.根据权利要求1所述的事件抽取方法,其特征在于:所述词形还原通过stanford corenlp实现。

7.根据权利要求1所述的事件抽取方法,其特征在于:所述事件元素抽取通过Pyltp或Stanford Parser的句法分析实现。

8.根据权利要求1所述的事件抽取方法,其特征在于:所述事件类型包括计划异常、物料异常、设备异常、制程品质异常、设计工艺异常和水电异常。