利索能及
我要发布
收藏
专利号: 2020114182481
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种弹幕文本中情感词的分类方法,其特征在于,包括:

步骤S1、对Python爬取到的弹幕数据进行预处理,得到待分类弹幕数据;

步骤S2、判断待分类弹幕数据中是否包含情感词;

步骤S3、若步骤S2的判定结果为:不包含,则利用GRU分类器对待分类弹幕数据进行分类得到分类结果;

步骤S4、若步骤S2的判定结果为:包含,则利用构建的弹幕情感分类模型对待分类弹幕数据进行分类得到情感分类结果;

所述弹幕情感分类模型的构建和分类过程为:

步骤A、先构造弹幕文本领域的七维弹幕情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器计算弹幕数据中的情感词的情感总值;

步骤B、采用模型融合的集成学习策略构造弹幕情感分类模型,将文本情感计算分类器、朴素贝叶斯分类器和GRU分类器作为基分类器;

步骤C、将待分类弹幕数据分为训练集和验证集,并用训练集分别对各个基分类器进行训练,得到拟合好的各基分类器;

步骤D、将所述验证集输入到拟合好的各基分类器中,并调整相应参数,得到验证后的各基分类器,最终构造出弹幕情感分类模型;

步骤E、将待分类弹幕数据输入到验证后的弹幕情感分类模型中,根据各个基学习器得到的结果进行投票融合输出最终情感分类结果;

步骤A中根据所述构造的文本情感计算分类器计算弹幕数据情感词的情感总值的过程包括:步骤1、将弹幕数据中的情感词按照所述七维弹幕情感词典所在的对应维度进行分类,得到对应维度的弹幕文本;

步骤2、判断所述弹幕文本是否存在情感反转,计算所述弹幕文本对应维度的文本情感值;

步骤3、通过弹幕数据的其他数据维度计算弹幕文本的强度增益;

步骤4、将所述文本情感值和弹幕文本的强度增益进行累加得到对应维度下的弹幕文本的情感总值;

步骤5、重复步骤1‑步骤4计算出弹幕文本在七维情感下每个维度的情感总值,按照积极类别情感总值和消极类别情感总值之间的大小关系确定最终情感类别。

2.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,步骤S1中所述弹幕数据预处理具体包括:将弹幕数据维度分为八个维度,包括弹幕距视频开始后出现时间、弹幕种类、弹幕字体大小、弹幕字体颜色、弹幕发送时间戳、弹幕池类型、发送者加密后id、弹幕id;

利用先验知识对采集到的弹幕数据进行打标,将弹幕数据分为积极类别和消极类别,并且将数据中的异常值、空值进行删除,得到带有情感词标注的正向情感和负向情感弹幕文本数据作为待分类弹幕数据。

3.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,步骤A中所述七维弹幕情感词典的构造具体包括:步骤A1、将大连理工大学所提出的中文情感词汇本体库作为所述七维弹幕情感词典的核心,从七个情感维度来描述情感,包括乐、好、怒、哀、惧、恶和惊,乐和好属于正向情感,而其他五个则属于负向情感,每种情感的强度都分为1、3、4、7、9五档,1代表强度最小,而9代表强度最大;

步骤A2、对弹幕数据进行分析,得到弹幕流行词词典,同时,从弹幕文本以及互联网常用颜符号中收集231个符号作为颜符号词典;

步骤A3、根据大连理工大学情感词库的等级评判标准,对流行情感词和颜符号进行权重打分,将中文情感词汇本体库、弹幕流行词词典和颜符号词典汇总到一起,得到所述七维弹幕情感词典。

4.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,所述得到对应维度的弹幕情感词文本的过程具体包括:分别对爬取到的每条弹幕数据进行分词处理,去除无用停用词,得到每条弹幕数据的词语集合W{w1,w2,w3,…,wn},W表示该条弹幕数据的词语集合,wi表示该条弹幕数据中第i个词语;

用所述七维弹幕情感词典对所述每条弹幕数据的词语集合进行词语匹配,得到Sc是W的子集,表示W中所属情感维度c的情感词集合,其中c∈{乐,好,怒,哀,惧,恶,惊}共七维情感,而 表示所属情感维度c的第i个情感词。

5.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,所述计算文本情感值的具体过程为:固定情感维度c,根据情感词权重、程度副词个数及其对应权重、弹幕文本是否存在情感反转计算文本情感值,具体计算公式如下:其中, 表示计算情感维度c时,弹幕文本中的词w是否存在情感反转,negw表示情感词w前面的否定词个数,μw表示该情感词本身的情感值大小,Pw表示情感词w后面紧跟的情感标点集合,αp对应着情感标点的情感值,Dw表示情感词w前面的程度副词集合,βd对应着程度副词的强度,Wc表示该条弹幕文本中属于c维度的情感词的集合,textValue(d,c)表示弹幕文本d在情感维度c下的文本情感值。

6.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,对所述弹幕文本的强度增益计算步骤包括:固定情感维度c,若该条弹幕数据在情感维度c下的文本情感值为0,则无需计算弹幕文本的强度增益,若文本情感值大于0,则继续判断该条弹幕文本的颜色类别θd,具体表示如下:再判断该条弹幕文本的弹幕类型ηd,具体表示如下:

利用弹幕文本的颜色类别θd和弹幕类型ηd辅助,最终得到该弹幕文本的强度增益ξ(d,c),具体计算公式如下:其中,Wc表示该条弹幕文本中属于c维度的情感词的集合,fontSized表示弹幕文本的字号,textValue(d,c)表示弹幕文本d在情感维度c下的文本情感值。

7.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,所述情感总值的具体计算过程为:sentiValue(d,c)=ξ(d,c)+textValue(d,c)其中,sentiValue(d,c)表示弹幕文本d在情感维度c下的情感总值,ξ(d,c)表示弹幕文本本身的强度增益,textValue(d,c)表示弹幕文本d在情感维度c下的文本情感值。

8.一种弹幕文本中情感词的分类装置,其特征在于,所述装置支持权利要求1‑7任一所述的一种弹幕文本中情感词的分类方法,该装置包括:数据预处理模块:用于将python程序爬取到的弹幕数据进行文本清洗、分词、打标;

弹幕情感计算模块:通过对弹幕文本的分析提出弹幕领域情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器;

情感分类模型集成模块:采用模型融合的思想作为集成学习的分类策略,构造情感分类模型;

情感判别模块:将待分类弹幕输入弹幕情感分类模型中,得到该条弹幕的情感分类结果。

9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1‑7任一项所述的方法。