欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2021105841200
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:包括:数据获取模块,被配置为:获取待处理的文本数据,对获取的文本数据进行预处理,获取文本数据具体为:数据收集方式是根据JT Wolohan的数据收集方式进行收集的,使用Python Reddit API包装器,从Reddit社交媒体平台的两个子文件中爬取了数据:/r/depression和/r/AskReddit;其中,从/r/depression中爬取的文本数据的标签标记为抑郁,从/r/AskReddit中爬取的文本数据标签标记为非抑郁;

词嵌入模块,被配置为:根据预处理后的文本数据和预设词嵌入模型,得到词嵌入向量;

情感值特征向量获取模块,被配置为:根据预处理后的文本数据、预设情感词典和预设语义规则,得到文本的情感值特征向量;

单词级特征向量获取模块,被配置为:提取文本数据中的词性特征向量,与词嵌入向量拼接后,得到单词级别的特征向量表示;

句子级特征向量获取模块,被配置为:提取文本数据中的词频特征向量,与情感值特征向量拼接后,得到句子级别的特征向量表示;

分类模块,被配置为:根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型,得到最终的分类结果;

所述预设CNN‑BiLSTM网络模型具体为:将由Word2vec模型得到的每个单词300维词嵌入矩阵后,将其与1维的词性特征向量表示进行拼接得到301维的特征表示,作为CNN网络的输入向量,输入向量vi表示为:vi=vw2v:vpos

其中,vw2v表示采用Word2vec模型生成的嵌入向量,vpos表示采用单词的词性特征向量;

将由TF‑IDF词频特征和文本情感值特征拼接得到的1001维特征表示作为CNN模型的输入,输入向量ti表示为:ti=vtfidf:vrule

其中,vtfidf表示TF‑IDF词频特征,vrule表示文本情感值特征;

将CNN模型应用于301维的特征表示向量vi和1001维的特征表示向量ti,二者分别经过CNN模型后,得到:Vi=CNN(vi)

Ti=CNN(ti)

其中,Vi,Ti分别表示经过CNN模型后生成的高层特征;

将得到的Vi,Ti特征向量进行融合,作为Bi‑LSTM模型的输入;

MixedFeature=concatenate(Vi,Ti)Fea=BiLSTM(MixedFeature)其中,MixedFeature表示融合后的特征向量,Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量;

将高层特征Fea输入到Sigmoid层进行分类,得到最终的预测结果Result:Result=Sigmoid(Fea)。

2.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:分类模块中,将单词级别的特征向量表示和句子级别的特征向量表示,分别输入到预设卷积神经网络中,将两个卷积神经网络输出的高层特征进行融合后输入到预设Bi‑LSTM网络模型中,得到分类结果。

3.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:对获取的文本数据进行预处理,包括:

从文本数据中提取标题、内容和标签,去除由于已删除内容而缺少的数据以及不相关数据,将文本数据转换为小写字母。

4.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:采用Word2vec词嵌入模型生成嵌入向量。

5.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:利用扩充后的SenticNet4情感词典,根据情感词典中每个单词的情感极性值和预设语义规则,进行句子情感值计算,得到文本的情感值特征向量。

6.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,包括:

若文本数据中出现感叹号或者问号,文本或句子的情感极性增强。

7.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,包括:

若句子同时含有大小写,全部大写的单词情感强度增强。

8.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,包括:

若句子中的情感词前面存在程度副词,文本或句子的情感极性增强。

9.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,还包括:

如果句子中存在转折连词,只考虑转折连词后面的句子情感极性。

10.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,还包括:

如果句子中存在否定词,考虑否定词相关联的词的相反情感极性。

11.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,还包括:

如果句子为反问句,将句中情感词乘以相应的权值。

12.如权利要求1所述的基于多模态特征和语义规则的文本抑郁倾向检测系统,其特征在于:语义规则,还包括:

如果句子中包含表情符号,根据表情符号所代表的含义判断句子或文本的情感极性。

13.一种基于多模态特征和语义规则的文本抑郁倾向检测方法,其特征在于:包括以下过程:获取待处理的文本数据,对获取的文本数据进行预处理;获取文本数据具体为:数据收集方式是根据JT Wolohan的数据收集方式进行收集的,使用Python Reddit API包装器从Reddit社交媒体平台的两个子文件中爬取了数据:/r/depression和/r/AskReddit;其中,从/r/depression中爬取的文本数据的标签标记为抑郁,从/r/AskReddit中爬取的文本数据标签标记为非抑郁;

根据预处理后的文本数据和预设词嵌入模型,得到词嵌入向量;

根据预处理后的文本数据、预设情感词典和预设语义规则,得到文本的情感值特征向量;

提取文本数据中的词性特征向量,与词嵌入向量拼接后,得到单词级别的特征向量表示;

提取文本数据中的词频特征向量,与情感值特征向量拼接后,得到句子级别的特征向量表示;

根据单词级别的特征向量表示、句子级别的特征向量表示以及预设CNN‑BiLSTM网络模型,得到最终的分类结果;

所述预设CNN‑BiLSTM网络模型具体为:将由Word2vec模型得到的每个单词300维词嵌入矩阵后,将其与1维的词性特征向量表示进行拼接得到301维的特征表示,作为CNN网络的输入向量,输入向量vi表示为:vi=vw2v:vpos

其中,vw2v表示采用Word2vec模型生成的嵌入向量,vpos表示采用单词的词性特征向量;

将由TF‑IDF词频特征和文本情感值特征拼接得到的1001维特征表示作为CNN模型的输入,输入向量ti表示为:ti=vtfidf:vrule

其中,vtfidf表示TF‑IDF词频特征,vrule表示文本情感值特征;

将CNN模型应用于301维的特征表示向量vi和1001维的特征表示向量ti,二者分别经过CNN模型后,得到:Vi=CNN(vi)

Ti=CNN(ti)

其中,Vi,Ti分别表示经过CNN模型后生成的高层特征;

将得到的Vi,Ti特征向量进行融合,作为Bi‑LSTM模型的输入;

MixedFeature=concatenate(Vi,Ti)Fea=BiLSTM(MixedFeature)其中,MixedFeature表示融合后的特征向量,Fea表示融合后的特征向量经过BiLSTM模型得到的输出向量;

将高层特征Fea输入到Sigmoid层进行分类,得到最终的预测结果Result:Result=Sigmoid(Fea)。

14.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求13所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。

15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求13所述的基于多模态特征和语义规则的文本抑郁倾向检测方法中的步骤。