利索能及
我要发布
收藏
专利号: 2023105945980
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,包括以下步骤:S1、获取第一句子向量,将第一句子向量依次输入双向长短记忆网络层和注意力层,得到第一特征向量;

S2、获取第二句子向量,将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层,得到第二特征向量;

S3、将第一特征向量和第二特征向量均输入门控特征融合层,得到融合结果;

S4、将融合结果输入Softmax层,得到关系预测结果,完成关系抽取;

所述S1中,第一句子向量包括若干个字符嵌入,每个字符嵌入均由字符向量和位置向量组成;

其中,字符向量从文旅领域语料下训练好的FastText获得,位置向量用于表示字符和两个实体间相对距离;

所述S1中,第一特征向量用于表示字符特征,得到第一特征向量的方法具体为:通过双向长短记忆网络层和注意力层计算第一句子向量中的每个字符嵌入,根据字符嵌入的计算结果生成第一特征向量,其中,第i个字符嵌入的计算结果yi的表达式具体为:T

ρi=softmax(Wtanh(blsi))bls T

式中,W 为线性映射矩阵,w为随机向量W的转置,blsi为lstm的单元数,ρi为blsi的注意力概率值, 为ρi的转置,softmax(·)为归一化指数函数,tanh(·)为双曲正切函数,vi为第i个字符嵌入,且i=1,...,l,l为句子的长度, 为lstm的前向传播方法, 为lstm的反向传播方法, 为前向传播方法下的前一个隐藏状态向量, 为lstm的反向传播方法下的前一个隐藏状态向量, 为拼接操作;

所述S2包括以下分步骤:

S21、获取第二句子向量,所述第二句子向量由文旅领域语料下训练好的Glove和FastText获得;

S22、将第二句子向量输入至多窗口卷积层,得到词向量序列;

S23、将词向量序列转换为输入序列,并将其输入至多头自注意力层,得到句子向量空间表示;

S24、将句子向量空间表示输入至最大池化层,得到第二特征向量;

所述S3包括以下分步骤:

S31、将第一特征向量和第二特征向量均输入门控特征融合层,得到门控张量;

S32、将门控张量与第一特征向量和第二特征向量相乘,得到融合结果。

2.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S22中,多窗口卷积层包括t个不同大小的卷积核,所述词向量序列其中, 为第ti个卷积核生成的词向量,其表达式具体为:式中,Sm:n为第二句子向量中m到n的向量序列,第ti个卷积核的大小为n‑m+1, 为第ti个卷积核的参数矩阵, 为第ti个卷积核的偏置项,p为卷积核的padding值,fG为Glove对应的激活函数,fF为FastText对应的激活函数。

3.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S23中,得到句子向量空间表示A的表达式具体为:式中,X为输入序列, 和 均为线性变换矩阵, 为查询矩阵, 为值矩l×(2t/h)

阵, 为键矩阵, 和 的维度均为R ,R为维度空间,t为滤波器数量,ih为head的序数,d为键矩阵 的维度,l为固定语句序列长度。

4.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S24具体为:将句子向量空间表示输入至最大池化层,通过最大池化层选择最显著的特征组成特征表示,得到第二特征向量,所述第二特征向量用于表示词组特征。

5.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法,其特征在于,所述S31中,门控张量Ogate的表达式具体为:Ogate=σ(wgate[Y;U]+bgate)式中,Wgate为学习参数,bgate为可学习张量,Y为第一特征向量,U为第二特征向量;

所述S32中,融合结果O的表达式具体为:

O=Ogate⊙Y+(1‑Ogate)⊙U

式中,⊙为逐元素乘法符号。