利索能及
我要发布
收藏
专利号: 202111471099X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于关键词加权信息的情感分析方法,其特征在于,包括如下步骤:S1:对文本数据进行清理,并对文本数据进行词向量训练,得到词向量文件作为模型的输入;所述S1步骤具体包括以下步骤:S11:利用Jieba组件将每段文本分割成许多单个词语来完成分词操作;

S12:在模型训练前去除掉语料中的停用词,得到文本数据;

S13:通过开源工具Glove对文本数据进行词向量训练,得到词向量文件作为模型的输d入,令第t个句子为xt,句子中第i个词的词向量wi∈R,句子的长度为s,一个句子的表示为:xt=[w1;w2;w3...ws]

令数据集D中第k个句子表示为xk,语料的长度为n,经过对文本的数据处理后,模型的数据输入表示为:it=[x1;x2;x3...xn];

S2:将词向量文件输入双向长短时记忆网络,捕获每个单词的上下文信息;所述S2步骤具体为:对数据集D,利用LSTM得到文档的上下文向量,并通过计算将正向序列和反向序列组合以获得BI‑LSTM层的输出: 所述S2步骤中LSTM的具体计算方法如下:it=σ(Wi[ht‑1,vt]+bi)

ot=σ(Wo[ht‑1,vt]+bo)

ft=σ(Wf[ht‑1,vt]+bf)

ht=ot⊙tanh(ct)

其中,ht‑1表示上一次的输出,vt表示本次的输入,it为输入门,ot为输出门,ft为遗忘门,ct为当前时刻的单元状态, 为当前输入的单元状态,ht为当前输出值,Wi,Wo,Wf,为不同门的权值矩阵,bi,bi,bi, 为偏置向量,d1+d2和dh分别表示LSTM的输入向量维数和隐藏状态,⊙表示元素乘法,σ表示sigmoid函数;

S3:将每段文本中的关键词利用TF‑IDF方法提取出来并加上更大的权重来影响整个句子的极性判断,同时将提取出的关键词矩阵与双向长短时记忆网络的输出进行拼接,使关键词位置的特征信息更加明显,将拼接好的矩阵作为输入给下一层;

S4:利用CRF层对上层的输出进行修正,得到具有最大概率的合理序列;所述S4步骤具体包括:S41:利用CRF对句子序列进行建模,z′代表真实标记,给定句子x的情况下标签序列z的条件概率的计算公式如下:其中score(z,x)是Bi‑LSTM过渡分数和发射分数之和;

S42:为每个单词引入一个潜在的二进制变量z∈{0,1},利用前向和后向算法计算文本的边缘分布,得到句子表示s如下:S43:通过连接所有CRF的句子表示,其中n为CRF的数量,得到分类的最终表示q如下所示:q=[s1;s2...;sn];

S5:使用分类器判别文本的类别输出与实际类别相比较来训练网络;

S6:利用训练好的模型预测待预测文本的情感极性,取概率最大的类别作为预测的类别输出。

2.根据权利要求1所述的一种基于关键词加权信息的情感分析方法,其特征在于,所述S1步骤中,对文本进行清理具体为对文本进行分词和去除停用词,所述停用词为对分类结果无影响的词语,所述词向量训练采用开源工具Glove进行。

3.根据权利要求2所述的一种基于关键词加权信息的情感分析方法,其特征在于,所述S3步骤具体为:S31:令第t个句子为xt,句子xt的关键词表示为keyt,提取的关键词数量为n,利用TF‑IDF提取每个文本中的关键词信息,计算公式如下:TF‑IDF=TF*IDF

keyt=[keyword1,keyword2...keywordn]S32:将提取出的关键词矩阵与双向长短时记忆网络的输出进行拼接,计算公式如下:ot=keyt⊙ht

其中,⊙表示元素乘法。

4.根据权利要求3所述的一种基于关键词加权信息的情感分析方法,其特征在于,所述S5步骤具体为:通过Softmax分类器获得分类结果,即在各分类标签上的概率分布,Softmax分类器将x分类为类别j的概率如式所示:其中,θ表示训练过程中的所有参数,k表示类别数。