1.一种弹幕文本价值评价方法,其特征在于,包括:获取针对特定直播间的待评价弹幕文本;
确定所述待评价弹幕文本的文明指数;
确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;
基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价;
所述确定所述待评价弹幕文本的文明指数,包括:对所述待评价弹幕文本进行分词处理;
基于各分词计算所述待评价弹幕文本的平均拟基尼指数;
将所述平均拟基尼指数确定为所述待评价弹幕文本的文明指数;
按照如下公式计算所述待评价弹幕文本的平均拟基尼指数:其中, 表示所述待评价弹幕文本中第i个词wi在语料中出现的概率,Ni表示所述待评价弹幕文本中第i个词wi在语料中出现的次数,N表示语料中所有词出现次数的总和,n表示所述待评价弹幕文本中词的个数,η是设定常数,所述语料包括设定时间段内直播平台上出现的所有弹幕文本和帖子文本。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度之前,所述方法还包括:按照如下公式确定所述特定直播间的归属主题:
其中,p(T|r)表示直播间r的归属主题为T的概率,d(r)表示直播间r包含的所有弹幕文本集合,d为集合d(r)中的一个弹幕文本元素,cr(d)表示弹幕文本d在直播间r出现的次数,p(T|d)表示弹幕文本d的归属主题为T的概率,m表示直播间r归属主题的个数,m为大于1的自然数。
3.根据权利要求2所述的方法,其特征在于,所述归属主题Tm、弹幕文本d的归属主题为T的概率p(T|d)通过下述方式获得:将直播间r包含的所有弹幕文本作为训练样本;
通过文档主题生成模型LDA对所述训练样本进行处理,得到直播间r的多个不同的归属主题Tm以及每个训练样本分别属于每个归属主题的概率p(T|d)。
4.根据权利要求2所述的方法,其特征在于,所述确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度,包括:按照如下公式确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度:其中,rel表示所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度,p(T|r)表示直播间r的归属主题为T的概率,p(T|d)表示弹幕文本d的归属主题为T的概率。
5.根据权利要求4所述的方法,其特征在于,所述基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价,包括:按照如下公式计算所述待评价弹幕文本的价值评分:0
score=α*gini+β*rel
0
其中,score表示价值评分,α和β为权重系数,gini为归一化之后的所述待评价弹幕文本的平均拟基尼指数,rel表示所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度。
6.一种弹幕文本价值评价装置,其特征在于,所述装置包括:获取模块,用于获取针对特定直播间的待评价弹幕文本;
文明指数确定模块,用于确定所述待评价弹幕文本的文明指数;
相关程度确定模块,用于确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;
评价模块,用于基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价;
所述文明指数确定模块,包括:
分词单元,用于对所述待评价弹幕文本进行分词处理;
计算单元,用于基于各分词计算所述待评价弹幕文本的平均拟基尼指数;
确定单元,用于将所述平均拟基尼指数确定为所述待评价弹幕文本的文明指数;
所述计算单元具体用于:
按照如下公式计算所述待评价弹幕文本的平均拟基尼指数:其中, 表示所述待评价弹幕文本中第i个词wi在语料中出现的概率,Ni表示所述待评价弹幕文本中第i个词wi在语料中出现的次数,N表示语料中所有词出现次数的总和,n表示所述待评价弹幕文本中词的个数,η是设定常数,所述语料包括设定时间段内直播平台上出现的所有弹幕文本和帖子文本。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑5中任一项所述的弹幕文本价值评价方法。
8.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1‑5中任一项所述的弹幕文本价值评价方法。