1.一种基于大数据的微博异常用户检测方法,其特征在于,包括:获取微博用户数据并将其输入到训练好的异常用户检测模型中进行处理,得到微博异常用户检测结果;
异常用户检测模型的训练过程包括:
S1:获取带标签的微博用户数据;
S2:从微博用户数据中提取用户行为特征和用户文本特征,将用户行为特征和用户文本特征映射到高维空间,得到用户行为特征高维表征和用户文本特征高维表征;提取用户行为特征和用户文本特征的过程包括:S21:将用户发布的消息按照时间升序进行排序,采用滑动窗口对消息进行滑窗,计算每个窗口内信息发布时间间隔的平均值;选择平均值最小的窗口作为特征窗口;
S22:统计特征窗口内每条信息所在当天的多个用户行为参数;根据每个用户行为参数构建二维用户行为特征表,得到用户行为特征;用户行为参数包括发文量、点赞量、转发量、评论量,发文的平均间隔时间、点赞的平均间隔时间、转发的平均间隔时间和评论的平均间隔时间;
S23:统计特征窗口内每条信息所在当天的多个用户文本参数;根据每个用户文本参数构建二维用户文本特征表,得到用户文本特征;用户文本参数包括发文的平均字符数、发文的平均英文字符数、发文的平均标点符号数、发文的平均URL数、发文的平均“@”数、发文的平均“#”数、发文的平均配图数、发文的平均话题数和发文的平均词组个数;
S3:从微博用户数据中提取用户基本特征,将用户基本特征映射到高维空间,得到用户基本特征高维表征;用户基本特征包括用户性别、用户昵称文本长度、用户昵称包含的非文字数、个人简介长度、个人简介包含的URL数、用户粉丝数、关注数、评论数、点赞数、以及用户注册时间与特征窗口起始时间间隔值;
S4:对用户行为特征高维表征、用户文本特征高维表征和用户基本特征高维表征进行两两交互,得到基本‑行为特征表、基本‑文本特征表和行为‑文本特征表;表征进行两两交互的公式为:其中,feature_table表示交互特征表,Q表示第一高维表征,K表示第二高维表征,mask表示掩码矩阵,maskb表示第b个掩码矩阵,sum()表示求和函数,min()表示求最小值函数,softmax()表示softmax激活函数;
S5:对基本‑行为特征表、基本‑文本特征表和行为‑文本特征表进行处理,得到用户交叉高维特征;
S6:将用户交叉高维特征输入到全连接神经网络中进行处理,得到异常用户检测结果;
S7:计算全连接分类损失并根据全连接分类损失调整模型参数,得到训练好的异常用户检测模型。
2.根据权利要求1所述的一种基于大数据的微博异常用户检测方法,其特征在于,用户交叉高维特征的过程包括:对基本‑行为特征表、基本‑文本特征表和行为‑文本特征表均扩展一个维度并在扩展的维度上进行拼接;将拼接后的特征输入到多维卷积神经网络,得到用户交叉高维特征。
3.根据权利要求1所述的一种基于大数据的微博异常用户检测方法,其特征在于,计算全连接分类损失的公式为:其中,loss表示全连接分类损失,n表示用户数量,yi表示第i个用户是否为异常用户的真实标签, 表示模型对于第i个用户是否为异常用户的概率预测值,δ表示随机参数,μ表示超参数。