利索能及
我要发布
收藏
专利号: 2018108960197
申请人: 武汉斗鱼网络科技有限公司
专利类型:发明专利
专利状态:无效专利
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种机器弹幕用户的识别方法,其特征在于,包括:

获取各弹幕用户对应的弹幕特征信息和观看信息;

基于获取的第一预设数量的重要弹幕特征种类,从所述各弹幕用户对应的弹幕特征信息中确定各所述弹幕用户对应的重要弹幕特征信息;

将所述各弹幕用户进行两两组合,并根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离;

根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集;

根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中所述用户标识包括可疑标识和真实标识。

2.根据权利要求1所述的方法,其特征在于,获取第一预设数量的重要弹幕特征种类,包括:将各弹幕用户对应的弹幕特征信息以及对各所述弹幕用户标记的用户标识确定为训练样本集,根据所述训练样本集对随机森林模型进行训练;

于训练所述随机森林模型时,计算所述弹幕特征信息中各弹幕特征种类的基尼指数重要性评分;

将各所述弹幕特征种类的基尼指数重要性评分进行降序排列,并将排列后的前第一预设数量的弹幕特征种类确定为第一预设数量的重要弹幕特征种类。

3.根据权利要求1所述的方法,其特征在于,各所述弹幕用户对应的观看信息包括:所述弹幕用户在预设时间内的观看IP地址集合、观看设备标识集合、所述观看IP地址集合中各观看IP地址对应的第一观看次数、所述观看设备标识集合中各观看设备标识对应的第二观看次数、以及在所述预设时间内的观看总次数;

相应的,根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离,包括:将各所述弹幕用户对应的重要弹幕特征信息进行标准化和归一化,确定各所述弹幕用户对应的重要弹幕特征数值;

根据各组合中两个弹幕用户分别对应的观看IP地址集合和观看设备标识集合,确定所述两个弹幕用户的各相同观看IP地址和各相同观看设备标识;

根据所述两个弹幕用户分别对应的各所述相同观看IP地址对应的第一观看次数、各所述相同观看设备标识对应的第二观看次数、观看总次数、以及所述重要弹幕特征数值,确定所述两个弹幕用户之间的用户相似度;

根据所述用户相似度确定所述两个弹幕用户之间的用户距离。

4.根据权利要求3所述的方法,其特征在于,根据如下公式确定所述两个弹幕用户之间的用户相似度;

其中,wuv是弹幕用户u和弹幕用户v之间的用户相似度;Iuv是弹幕用户u与弹幕用户v的各相同观看IP地址组成的相同观看IP地址集合;Duv是弹幕用户u与弹幕用户v的各相同观看设备标识组成的相同观看设备标识集合;pi是所述相同观看IP地址集合Iuv中第i个相同观看IP地址;di是所述相同观看设备标识集合Duv中第i个相同观看IP地址;np是所述相同观看IP地址的总数量;nd是所述相同观看设备标识的总数量; 是弹幕用户u使用相同观看IP地址pi的第一观看比值; 是弹幕用户v使用相同观看IP地址pi的第一观看比值; 是弹幕用户u使用相同观看设备标识di的第二观看比值; 是弹幕用户v使用相同观看设备标识di的第二观看比值;yuj是弹幕用户u对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;yvj是弹幕用户v对应的第j个重要弹幕特征种类对应的重要弹幕特征数值;m是所述第一预设数量;w1和w2均是权重系数,且w1+w2=1; 是弹幕用户u在预设时间内使用相同观看IP地址pi的第一观看次数; 是弹幕用户v在预设时间内使用相同观看IP地址pi的第一观看次数; 是弹幕用户u在预设时间内使用相同观看设备标识di的第二观看次数; 是弹幕用户v在预设时间内使用相同观看设备标识di的第二观看次数;Su是弹幕用户u在所述预设时间内的观看总次数;Sv是弹幕用户v在所述预设时间内的观看总次数。

5.根据权利要求1所述的方法,其特征在于,所述预设聚类算法包括Cannopy聚类算法;

相应的,根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集,包括:于所述各弹幕用户组成的弹幕用户集合中随机选取一个目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集;

将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集,并将添加后的待聚类用户集确定为一个聚类用户集;

将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第二预设距离的弹幕用户进行删除,以更新当前弹幕用户集合,其中,所述第二预设距离小于所述第一预设距离;

于更新后的弹幕用户集合中随机选取一个目标弹幕用户,作为当前目标弹幕用户,并将当前目标弹幕用户确定为当前待聚类用户集,返回执行将当前弹幕用户集合中与当前目标弹幕用户之间的用户距离小于第一预设距离的弹幕用户,添加至当前待聚类用户集的操作,直至当前弹幕用户集合为空集合。

6.根据权利要求1所述的方法,其特征在于,根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,包括:根据各所述聚类用户集中对各聚类用户标记的用户标识,确定各所述聚类用户集中的可疑用户数量;

根据各所述聚类用户集的用户总数和各所述可疑用户数量,确定各所述聚类用户集对应的可疑用户占比值;

根据各所述可疑用户占比值和预设可疑阈值,于所述各弹幕用户中确定机器弹幕用户。

7.根据权利要求6所述的方法,其特征在于,根据各所述可疑用户占比值和预设可疑阈值,于所述各弹幕用户中确定机器弹幕用户,包括:将所述各弹幕用户逐个确定为目标弹幕用户,并确定包括所述目标弹幕用户的各目标聚类用户集;

根据各所述目标聚类用户集对应的可疑用户占比值和目标聚类用户集总数,确定所述目标弹幕用户的目标可疑程度;

若所述目标可疑程度大于预设可疑阈值,则将所述目标弹幕用户确定为机器弹幕用户。

8.一种机器弹幕用户的识别装置,其特征在于,包括:

用户信息获取模块,用于获取各弹幕用户对应的弹幕特征信息和观看信息;

重要弹幕特征信息确定模块,用于基于获取的第一预设数量的重要弹幕特征种类,从所述各弹幕用户对应的弹幕特征信息中确定各所述弹幕用户对应的重要弹幕特征信息;

用户距离确定模块,用于将所述各弹幕用户进行两两组合,并根据各所述重要弹幕特征信息和各所述观看信息,确定各组合中两个弹幕用户之间的用户距离;

聚类用户集确定模块,用于根据预设聚类算法和各所述用户距离,对所述各弹幕用户进行聚类,确定多个聚类用户集;

机器弹幕用户确定模块,用于根据各所述聚类用户集的用户总数、对各聚类用户标记的用户标识、以及预设可疑阈值,确定机器弹幕用户,其中所述用户标识包括可疑标识和真实标识。

9.一种服务器,其特征在于,所述服务器包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的机器弹幕用户的识别方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的机器弹幕用户的识别方法。