1.一种垃圾弹幕的识别方法,其特征在于,应用于直播平台中,所述方法包括:基于预设的弹幕信息特征构建规则,对所述弹幕信息进行特征提取,获取第一弹幕信息;
对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据;
根据所述直播平台自定义词库中的成词规则对预处理后的所述第一弹幕信息进行切词,构成词袋模型;
基于预设的映射规则,将所述词袋模型转换为词向量;
对所述词向量中的各词语进行词频-反文档频率TF-IDF加权,获取所述各词语的TF-IDF加权值;
建立所述朴素贝叶斯模型,基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所述词袋模型中所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1、及所述弹幕信息为正常弹幕的第二概率P2;
判断所述第一概率P1是否大于所述第二概率P2,若所述第一概率P1大于所述第二概率P2,则确定所述弹幕信息为垃圾弹幕。
2.如权利要求1所述的方法,其特征在于,对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据,包括:去除所述第一弹幕信息中弹幕内容为空的数据、所述弹幕内容中的标点符号及弹幕类型为空的数据。
3.如权利要求1所述的方法,其特征在于,所述根据所述直播平台自定义词库中的成词规则对所述第一弹幕信息进行切词,构成词袋模型,包括:根据所述成词规则对所述第一弹幕信息中的对所述朴素贝叶斯模型识别无影响的词语进行过滤,获取过滤后的词语;
将所述过滤后的词语按照预定的顺序进行组合,构成所述词袋模型。
4.如权利要求1所述的方法,其特征在于,所述基于预设的映射规则,将所述词袋模型转换为词向量,包括:基于预设的词向量纬度,将所述词袋模型的各词语映射至所述词向量的相应纬度上,将所述词袋模型转换为所述词向量。
5.如权利要求1所述的方法,其特征在于,所述对所述词向量中的各词语进行TF-IDF加权,获取所述各词语的TF-IDF加权值,包括:计算所述各词语在所述弹幕信息中出现的频率TF;
基于公式IDF=log2M计算所述各词语的反文档频率加权值IDF,所述M为总弹幕信息的数目分别与包含各词语的弹幕信息数目的商值;
根据公式TF-IDF=TF*IDF计算所述各词语的TF-IDF加权值。
6.如权利要求1所述的方法,其特征在于,所述基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1,包括:利用公式P1=P(“垃圾弹幕”|a1,a2,a3,a4,a5,a6,…,ai,…,an)=(p(“垃圾弹幕”|a1)*TF-IDF(a1))*(p(“垃圾弹幕”|a2)*TF-IDF(a2))*(p(“垃圾弹幕”|a3)*TF-IDF(a3))*…*(p(“垃圾弹幕”|ai)*TF-IDF(ai))*…*(p(“垃圾弹幕”|an)*TF-IDF(an))计算所述弹幕信息为垃圾弹幕的第一概率P1;其中,所述ai为所述各词语中的任一词语,所述n为所述弹幕信息中词语的个数;所述TF-IDF(ai)为所述任一词语的TF-IDF加权值。
7.如权利要求1所述的方法,其特征在于,所述基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所有词语出现的情况下,所述弹幕信息为正常弹幕的第二概率P2,包括:利用公式P2=P(“正常弹幕”|a1,a2,a3,a4,a5,a6,…,an)=(p(“正常弹幕”|a1)*TF-IDF(a1))*(p(“正常弹幕”|a2)*TF-IDF(a2))*(p(“正常弹幕”|a3)*TF-IDF(a3))*…*(p(“正常弹幕”|a3)*TF-IDF(ai))*…*(p(“正常弹幕”|an)*TF-IDF(an));其中,所述ai为所述各词语中的任一词语,所述n为所述弹幕信息中词语的个数;所述TF-IDF(ai)为所述任一词语的TF-IDF加权值。
8.一种垃圾弹幕的识别装置,其特征在于,应用于直播平台中,所述装置包括:提取单元,用于基于预设的弹幕信息特征构建规则,对所述弹幕信息进行特征提取,获取第一弹幕信息;
预处理单元,用于对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据;
切词单元,用于根据所述直播平台自定义词库中的成词规则对预处理后的所述第一弹幕信息进行切词,构成词袋模型;
转换单元,用于基于预设的映射规则,将所述词袋模型转换为词向量;
加权单元,用于对所述词向量中的各词语进行词频-反文档频率TF-IDF加权,获取所述各词语的TF-IDF加权值;
建立单元,用于建立所述朴素贝叶斯模型,基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所述词袋模型中所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1、及所述弹幕信息为正常弹幕的第二概率P2;
判断单元,用于判断所述第一概率P1是否大于所述第二概率P2,若所述第一概率P1大于所述第二概率P2,则确定所述弹幕信息为垃圾弹幕。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:基于预设的弹幕信息特征构建规则,对所述弹幕信息进行特征提取,获取第一弹幕信息;
对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据;
根据直播平台自定义词库中的成词规则对预处理后的所述第一弹幕信息进行切词,构成词袋模型;
基于预设的映射规则,将所述词袋模型转换为词向量;
对所述词向量中的各词语进行词频-反文档频率TF-IDF加权,获取所述各词语的TF-IDF加权值;
建立所述朴素贝叶斯模型,基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所述词袋模型中所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1、及所述弹幕信息为正常弹幕的第二概率P2;
判断所述第一概率P1是否大于所述第二概率P2,若所述第一概率P1大于所述第二概率P2,则确定所述弹幕信息为垃圾弹幕。
10.一种用于垃圾弹幕识别的计算机设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中,
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。