买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于关键词加权信息的情感分析方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于关键词加权信息的情感分析方法

￥17400

专利号： 202111471099X

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于关键词加权信息的情感分析方法，其特征在于，包括如下步骤：S1：对文本数据进行清理，并对文本数据进行词向量训练，得到词向量文件作为模型的输入；所述S1步骤具体包括以下步骤：S11：利用Jieba组件将每段文本分割成许多单个词语来完成分词操作；

S12：在模型训练前去除掉语料中的停用词，得到文本数据；

S13：通过开源工具Glove对文本数据进行词向量训练，得到词向量文件作为模型的输d入，令第t个句子为xt，句子中第i个词的词向量wi∈R，句子的长度为s，一个句子的表示为：xt＝[w1；w2；w3...ws]

令数据集D中第k个句子表示为xk，语料的长度为n，经过对文本的数据处理后，模型的数据输入表示为：it＝[x1；x2；x3...xn]；

S2：将词向量文件输入双向长短时记忆网络，捕获每个单词的上下文信息；所述S2步骤具体为：对数据集D，利用LSTM得到文档的上下文向量，并通过计算将正向序列和反向序列组合以获得BI‑LSTM层的输出：所述S2步骤中LSTM的具体计算方法如下：it＝σ(Wi[ht‑1，vt]+bi)

ot＝σ(Wo[ht‑1，vt]+bo)

ft＝σ(Wf[ht‑1，vt]+bf)

ht＝ot⊙tanh(ct)

其中，ht‑1表示上一次的输出，vt表示本次的输入，it为输入门，ot为输出门，ft为遗忘门，ct为当前时刻的单元状态，为当前输入的单元状态，ht为当前输出值，Wi，Wo，Wf，为不同门的权值矩阵，bi，bi，bi，为偏置向量，d1+d2和dh分别表示LSTM的输入向量维数和隐藏状态，⊙表示元素乘法，σ表示sigmoid函数；

S3：将每段文本中的关键词利用TF‑IDF方法提取出来并加上更大的权重来影响整个句子的极性判断，同时将提取出的关键词矩阵与双向长短时记忆网络的输出进行拼接，使关键词位置的特征信息更加明显，将拼接好的矩阵作为输入给下一层；

S4：利用CRF层对上层的输出进行修正，得到具有最大概率的合理序列；所述S4步骤具体包括：S41：利用CRF对句子序列进行建模，z′代表真实标记，给定句子x的情况下标签序列z的条件概率的计算公式如下：其中score(z，x)是Bi‑LSTM过渡分数和发射分数之和；

S42：为每个单词引入一个潜在的二进制变量z∈{0，1}，利用前向和后向算法计算文本的边缘分布，得到句子表示s如下：S43：通过连接所有CRF的句子表示，其中n为CRF的数量，得到分类的最终表示q如下所示：q＝[s1；s2...；sn]；

S5：使用分类器判别文本的类别输出与实际类别相比较来训练网络；

S6：利用训练好的模型预测待预测文本的情感极性，取概率最大的类别作为预测的类别输出。

2.根据权利要求1所述的一种基于关键词加权信息的情感分析方法，其特征在于，所述S1步骤中，对文本进行清理具体为对文本进行分词和去除停用词，所述停用词为对分类结果无影响的词语，所述词向量训练采用开源工具Glove进行。

3.根据权利要求2所述的一种基于关键词加权信息的情感分析方法，其特征在于，所述S3步骤具体为：S31：令第t个句子为xt，句子xt的关键词表示为keyt，提取的关键词数量为n，利用TF‑IDF提取每个文本中的关键词信息，计算公式如下：TF‑IDF＝TF*IDF

keyt＝[keyword1，keyword2...keywordn]S32：将提取出的关键词矩阵与双向长短时记忆网络的输出进行拼接，计算公式如下：ot＝keyt⊙ht

其中，⊙表示元素乘法。

4.根据权利要求3所述的一种基于关键词加权信息的情感分析方法，其特征在于，所述S5步骤具体为：通过Softmax分类器获得分类结果，即在各分类标签上的概率分布，Softmax分类器将x分类为类别j的概率如式所示：其中，θ表示训练过程中的所有参数，k表示类别数。

推荐专利

基于分层动态恒权码的关键词私有信息检索方法及装置

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们