1.一种弹幕类别确定方法,其特征在于,包括:
获取待处理弹幕,并基于N-gram模型确定所述待处理弹幕的有效分词;
获取所述有效分词所对应的不同弹幕类别的分词概率,其中,所述分词概率为有效分词在样本集中的出现概率;
获取每个所述有效分词的TF-IDF值,以及求取每个有效分词的TF-IDF值与分词概率的乘积以更新所述分词概率;
基于N-gram模型和更新后的所述分词概率,求取所述待处理弹幕的弹幕类别概率,并将最大的弹幕类别概率所对应的弹幕类别作为所述待处理弹幕的弹幕类别,其中,弹幕类别包括正常弹幕和喷子弹幕。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理弹幕,并基于N-gram模型确定所述待处理弹幕的有效分词,包括:获取待处理弹幕的有效文本;
确定N-gram模型的N值和概率方式,其中,N为自然数;
基于所述N-gram模型的N值对所述待处理弹幕的有效文本进行分词,去掉所有分词中的停用词,并将剩余分词作为有效分词。
3.根据权利要求2所述的方法,其特征在于,所述获取待处理弹幕的有效文本,包括:获取待处理弹幕,并过滤所述待处理弹幕的无用字符以得到第一文本,所述第一文本仅包括unicode编码中的中文部分、标点符号部分和emoji表情部分;
对所述第一文本的符号文本进行替换以生成第二文本,且替换内容包括emoji表情和文字表情;
对所述第二文本的形变关键词进行替换以生成第三文本;
通过拼音的模糊性对所述第三文本的谐音关键词进行替换以生成有效文本。
4.根据权利要求1所述的方法,其特征在于,所述获取所述有效分词所对应的不同弹幕类别的分词概率,包括:从概率查询表中读取所述有效分词所对应的不同弹幕类别的分词概率,其中,所述概率查询表记载有有效分词的分词概率,且所述分词概率为有效分词基于预设排序的后验概率。
5.根据权利要求1所述的方法,其特征在于,所述概率查询表的获取方法为:获取预设数量的训练弹幕的有效文本;
对所获取的训练弹幕进行分词,去掉所有分词中的停用词并将剩余分词作为有效分词;
将包括有效分词的训练弹幕作为样本集;
获取每个有效分词在样本集中以不同弹幕类别形式出现的概率,将该概率作为分词概率,并将所有有效分词的分词概率汇总成概率查询表。
6.根据权利要求1所述的方法,其特征在于,所述获取每个所述有效分词的TF-IDF值,包括:获取每个有效分词在所述待处理弹幕的有效文本中的词频以作为TF值,具体为:其中ni,j表示有效分词i在待处理弹幕j的有效文本中出现的次数,∑knk,j表示待处理弹幕j的有效文本中的有效分词数量;
获取每个有效分词的逆文本频率指数,即IDF值,具体为: 其中,|D|表示样本集的弹幕总条数,|{j:ti∈dj}|表示样本集中包含有效分词i的弹幕条数;
求取所述TF值与所述IDF值的乘积以作为TF-IDF值,具体为:TF-IDFi,j=tfi,j*idfi。
7.根据权利要求1-6任一所述的方法,其特征在于,所述分词概率和所述弹幕类别概率均为对数概率。
8.一种弹幕类别确定装置,其特征在于,包括:
有效分词确定模块,用于获取待处理弹幕,并基于N-gram模型确定所述待处理弹幕的有效分词;
概率获取模块,用于获取所述有效分词所对应的不同弹幕类别的分词概率,其中,所述分词概率为有效分词在样本集中的出现概率;
概率更新模块,用于获取每个所述有效分词的TF-IDF值,以及求取每个有效分词的TF-IDF值与分词概率的乘积,以更新所述分词概率;
弹幕类别确定模块,用于基于N-gram模型和更新后的所述分词概率,求取所述待处理弹幕的弹幕类别概率,并将最大的弹幕类别概率所对应的弹幕类别作为所述待处理弹幕的弹幕类别,其中,弹幕类别包括正常弹幕和喷子弹幕。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的弹幕类别确定方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的弹幕类别确定方法。