买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多模态特征和语义规则的文本抑郁倾向检测系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多模态特征和语义规则的文本抑郁倾向检测系统

￥10800

专利号： 2021105841200

申请人：山东师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：包括：数据获取模块，被配置为：获取待处理的文本数据，对获取的文本数据进行预处理，获取文本数据具体为：数据收集方式是根据JT Wolohan的数据收集方式进行收集的，使用Python Reddit API包装器，从Reddit社交媒体平台的两个子文件中爬取了数据：/r/depression和/r/AskReddit；其中，从/r/depression中爬取的文本数据的标签标记为抑郁，从/r/AskReddit中爬取的文本数据标签标记为非抑郁；

词嵌入模块，被配置为：根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；

情感值特征向量获取模块，被配置为：根据预处理后的文本数据、预设情感词典和预设语义规则，得到文本的情感值特征向量；

单词级特征向量获取模块，被配置为：提取文本数据中的词性特征向量，与词嵌入向量拼接后，得到单词级别的特征向量表示；

句子级特征向量获取模块，被配置为：提取文本数据中的词频特征向量，与情感值特征向量拼接后，得到句子级别的特征向量表示；

分类模块，被配置为：根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型，得到最终的分类结果；

所述预设CNN‑BiLSTM网络模型具体为：将由Word2vec模型得到的每个单词300维词嵌入矩阵后，将其与1维的词性特征向量表示进行拼接得到301维的特征表示，作为CNN网络的输入向量，输入向量vi表示为：vi＝vw2v：vpos

其中，vw2v表示采用Word2vec模型生成的嵌入向量，vpos表示采用单词的词性特征向量；

将由TF‑IDF词频特征和文本情感值特征拼接得到的1001维特征表示作为CNN模型的输入，输入向量ti表示为：ti＝vtfidf：vrule

其中，vtfidf表示TF‑IDF词频特征，vrule表示文本情感值特征；

将CNN模型应用于301维的特征表示向量vi和1001维的特征表示向量ti，二者分别经过CNN模型后，得到：Vi＝CNN(vi)

Ti＝CNN(ti)

其中，Vi，Ti分别表示经过CNN模型后生成的高层特征；

将得到的Vi，Ti特征向量进行融合，作为Bi‑LSTM模型的输入；

MixedFeature＝concatenate(Vi，Ti)Fea＝BiLSTM(MixedFeature)其中，MixedFeature表示融合后的特征向量，Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量；

将高层特征Fea输入到Sigmoid层进行分类，得到最终的预测结果Result：Result＝Sigmoid(Fea)。

2.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：分类模块中，将单词级别的特征向量表示和句子级别的特征向量表示，分别输入到预设卷积神经网络中，将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi‑LSTM网络模型中，得到分类结果。

3.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：对获取的文本数据进行预处理，包括：

从文本数据中提取标题、内容和标签，去除由于已删除内容而缺少的数据以及不相关数据，将文本数据转换为小写字母。

4.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：采用Word2vec词嵌入模型生成嵌入向量。

5.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：利用扩充后的SenticNet4情感词典，根据情感词典中每个单词的情感极性值和预设语义规则，进行句子情感值计算，得到文本的情感值特征向量。

6.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，包括：

若文本数据中出现感叹号或者问号，文本或句子的情感极性增强。

7.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，包括：

若句子同时含有大小写，全部大写的单词情感强度增强。

8.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，包括：

若句子中的情感词前面存在程度副词，文本或句子的情感极性增强。

9.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，还包括：

如果句子中存在转折连词，只考虑转折连词后面的句子情感极性。

10.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，还包括：

如果句子中存在否定词，考虑否定词相关联的词的相反情感极性。

11.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，还包括：

如果句子为反问句，将句中情感词乘以相应的权值。

12.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统，其特征在于：语义规则，还包括：

如果句子中包含表情符号，根据表情符号所代表的含义判断句子或文本的情感极性。

13.一种基于多模态特征和语义规则的文本抑郁倾向检测方法，其特征在于：包括以下过程：获取待处理的文本数据，对获取的文本数据进行预处理；获取文本数据具体为：数据收集方式是根据JT Wolohan的数据收集方式进行收集的，使用Python Reddit API包装器从Reddit社交媒体平台的两个子文件中爬取了数据：/r/depression和/r/AskReddit；其中，从/r/depression中爬取的文本数据的标签标记为抑郁，从/r/AskReddit中爬取的文本数据标签标记为非抑郁；

根据预处理后的文本数据和预设词嵌入模型，得到词嵌入向量；

根据预处理后的文本数据、预设情感词典和预设语义规则，得到文本的情感值特征向量；

提取文本数据中的词性特征向量，与词嵌入向量拼接后，得到单词级别的特征向量表示；

提取文本数据中的词频特征向量，与情感值特征向量拼接后，得到句子级别的特征向量表示；