利索能及
我要发布
收藏
专利号: 2020102842029
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种聚焦属性相关文本的属性级情感分类方法,其特征在于,包括:步骤1,对数据进行预处理使得数据中的每个样本包含属性Xa和上下文Xc,通过Bert预训练模型来获得属性和上下文的文本表征序列 和 其中,M和N分别代表输入样本中属性的个数和上下文的长度;

步骤2,将上下文的文本表征序列Ec复制一份,将第一份上下文的文本表征序列Ec与属性的文本表征序列Ea进行拼接,得到全局上下文的文本表征序列Eac,再对全局上下文的文本表征序列Eac使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到全局上下文隐藏状态序列 对第二份上下文的文本表征序列Ec直接使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到上下文隐藏状态序列步骤3,使用掩盖方法对上下文隐藏状态序列 进行操作,得到属性相关文本的隐藏序列Hf,将隐藏序列Hf与属性的文本表征序列Ea进行拼接,得到属性上下文序列Eaf,对属性上下文序列Eaf使用长短时记忆网络与多头自注意力机制进行特征提取,得到隐藏状态序列步骤4,将得到的隐藏状态序列 与 进行拼接,得到序列向量 对序列向量执行最大池化操作,再使用多头自注意力机制进行特征提取,得到隐藏状态序列步骤5,将得到的隐藏状态序列 输入到采取Sigmoid激活函数的全连接层中,得到模型预测结果步骤6,定义模型的损失 进行模型评估与优化。

2.根据权利要求1所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤1具体包括:通过Bert预训练模型得到的文本表征序列,动态的表征文本中每个词的词向量,获取文本表征向量的公式如下所示:Ea=Berta(Xa)          (1)Ec=Bertc(Xc)         (2)其中,Ea和Ec分别是属性和上下文的文本表征序列,Berta和Bertc分别是属性和上下本的相应Bert预训练模型。

3.根据权利要求2所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2具体包括:Ea和Ec拼接过程可以用如下公式表示:

其中,Eac是全局上下文的文本表征序列;

Bi‑LSTM的特征抽取过程可以使用如下公式表示:其中, 为上下文隐藏状态序列, 为全局上下文隐藏状态序列。

4.根据权利要求3所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2还包括:利用Bi‑LSTM对Ec进行特征提取的过程如下:其中, 表示的是向前的LSTM输出的隐藏状态表示, 表示的是向后的LSTM输出的隐藏状态表示,将 和 进行拼接得到了该文本序列的隐藏状态表示

5.根据权利要求4所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2还包括:MH Self‑Attention的特征抽取过程可以用如下公式表示:其中, 为上下文隐藏状态序列, 为全局上下文隐藏状态序列,MHSA代表特征抽取器多头自注意力机制;

利用MHSA对 进行特征提取的过程如下:

其中,Q、K、V这三个参数是通过将上一层隐藏状态的输出表示乘以它们各自的权重矩阵 得到的,这些权重矩阵需要在训练过程中进行学习,维度dh,dk,dv等于dh÷h,dh是隐藏层的维度,h表示注意力头的个数,每个注意力头学习到的注意力表示需要乘以向量 进行连接和变换,式中的“;”表示向量级联。

6.根据权利要求5所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤3具体包括:属性相关文本的特征抽取过程可以用如下公式表示:

其中,Hf代表属性相关文本的隐藏状态序列,FRAC代表属性相关文本提取器。

7.根据权利要求6所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤3还包括:FRAC用以下公式详细表示:

Wv={v0,v1,...,vn}     (17)Hf=Wv·Eaf        (18)

其中,vi为掩码向量,α代表文本中每个词距离当前属性词的距离,k是一个自定义超参数,k决定属性词周围的哪些词不被屏蔽,Wv代表掩盖矩阵。

8.根据权利要求7所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤4具体包括:获取属性上下文与全局上下文的交互信息,特征交互过程可以用如下公式表示:其中, 和 分别代表最大池化操作和多头自注意力机制提取出的隐藏状态序列,MaxPooling代表最大池化操作,用于提取交互序列中的重要特征。

9.根据权利要求8所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤5具体包括:模型的输出可以由下面的公式表示:

其中,Ws和bs分别表示输出层的权重和偏置,o表示输出层的输出, 代表模型的预测结果,Sigmoid为激活函数。

10.根据权利要求9所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤6具体包括:损失函数定义如下:

其中,C代表类别数, 代表样本预测标签,yi代表样本真实标签,λ是L2正则化参数,Θ是模型的参数集,由式(27)计算模型的损失,根据损失对模型进行评估和优化,将优化好的模型作为最终使用的模型。