1.一种网络欺凌检测方法,其特征在于,包括如下步骤:
1)根据社交网络G(U,R)表示用户Up的社交信息;
2)准确表示Wh中的每一个单词,特别是稀疏词汇;
3)融合步骤1)和步骤2)中得到的社交信息表示和文本信息表示,并且基于此赋予Sh正确的文本标签;
其中,将社交网络表示为G(U,R),节点集合U表示用户集合,边集合R表示用户之间的关注关系集合,将G中所有用户发布的未标记短文本的集合表示为S,令 表示标签类别集合,其中k为标签类别个数,S中的每一条文本都能且仅能赋予一个类别标签,令 表示用户Up发布的文本Sh∈S中的单词集合,其中l为短文本Sh的长度,S中的每一条短文本都仅属于一名用户。
2.根据权利要求1所述的网络欺凌检测方法,其特征在于:步骤1)中,
根据社交网络G,通过随机游走获得一组节点序列,该序列包含了用户的社交信息,在随机游走过程中,先随机采样一个节点Ui并将其作为根节点,之后随机采样一个Ui的邻居节点Uj,接下来将Uj作为根节点,重复此过程,直到达到预先设定的采样次数阈值;
在完成随机游走过程之后,使用Skip-Gram算法来学习每个用户节点的社交信息表示。
3.根据权利要求1所述的网络欺凌检测方法,其特征在于:步骤2)中,
对于给定的语料库,基于词共现向量相似度的词嵌入方法依次生成:(1)一个共现矩阵其中d是语料库的大小;(2)语料库中的稀疏词汇列表 将词频低于预定义阈值b的词看做稀疏词汇;(3)针对每一个稀疏单词的二阶邻域列表 其中 是稀疏词Oi的二阶邻域列表长度,之后,根据共现矩阵C得到一个相似度矩阵 计算公式如公式(1)所示;
其中,表示标准欧式距离;f=max fri;
基于词共现向量相似度的词嵌入方法基于自编码器模型,自编码器包含一个编码器和一个解码器,基于词共现向量相似度的词嵌入方法采用两层全连接神经网络作为编码器,其输入为共现矩阵C,输出为文本表示矩阵L,基于词共现向量相似度的词嵌入方法的解码器需重构共现矩阵C及相似度矩阵S,基于词共现向量相似度的词嵌入方法使用另一个两层全连接神经网络作为其解码器,该解码器需要生成一个重构共现矩阵 并根据公式(2)生成一个重构相似度矩阵基于词共现向量相似度的词嵌入方法的训练过程表述为:
4.根据权利要求1所述的网络欺凌检测方法,其特征在于:步骤3)中,
对步骤1)和步骤2)学习到的社交信息表示和文本信息表示进行融合,通过拼接的方式生成融合向量,其维度为最大文本长度加一(代表用户Up),融合向量的第一行是发布该短文本的用户的社交信息表示,随后的每一行是句子中对应顺序的单词表示,如果句子的长度小于最大句子长度,则在融合向量末尾拼接零向量;
将融合向量输入到欺凌文本分类器中,以识别该短文本是否为欺凌文本。
5.根据权利要求4所述的网络欺凌检测方法,其特征在于:欺凌文本分类器基于神经网络结构,采用双向长短期记忆网络作为检测器,在分类器中,Input Layer的大小为max l+
1;Output Layer具有k个神经元,代表k个文本类别,使用Softmax函数作为激活函数,Dropout Layer 1和Dropout Layer 2的dropout rate分别设置为0.25和0.5。