1.一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,所述方法包括:S1、获取特定网络中用户产生的情景数据以及不同用户间的边关系;
S2、对用户情景数据进行预处理,用户情景数据包括用户发送的文本、图像及视频信息,提取用户发送图像中的文字信息,并将其加入用户文本信息中,同时利用word2vec将边关系转换为向量;
S3、调用已有的实体链接工具包提取预处理后的文本数据实体集合及其向量;
S4、将实体链接得到的实体向量加入到对应用户的文本数据中,作为新的文本数据集;
S5、将文本数据集转化为句子矩阵;
S6、利用卷积神经网络对句子矩阵进行卷积、池化、激活操作;
S7、对激活层输出的向量加入选择注意机制select attention,求出不同边关系情况下的节点量化结果;
S8、将不同边关系情况下的节点量化结果输出到全连接层,更新得到用户节点向量表示;
S9、将用户节点向量表示作为softmax层的输入,并最大化softmax函数;
S10、获得网络中节点的向量结果后,求算每两个节点间的余弦距离,以此来作为用户关系的强弱表示。
2.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,所述句子矩阵的列对应句子中的每个单词、行对应每个单词的向量表示;单词的向量表示为随机初始的值或者为使用预先训练好的词向量且没有在预训练集合中的单词可被随机量化;通过填充padding操作将输入长短不一的句子长度进行统一;若一个文本中句子的长度为n,si表示长度为n的句子中第i个单词的向量表示,si=(e1,e2,...,er),er表示构成si中的第r个元素;那么最终神经网络的输入矩阵表示为:S=(s1,s2,s3,...sn)。
3.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,利用卷积神经网络对句子矩阵进行卷积包括利用卷积操作获取句子矩阵的局部特征,主要是通过一个h×k的卷积核ω在输入层从上到下进行滑动进行卷积操作,通过该卷积操作得到一个特征图像feature map,feature map的列为1,行为n-h+1,其中单词序列Si:i+h-1经过卷积窗口得到生成的局部特征xi表示为:xi=f(ω×si:i+h-1+b);
其中,xi表示经过卷积窗口所产生的局部特征,b是一个偏置项,f为一个非线性函数,si:i+h-1表示卷积操作中的一个单词序列,k是词向量的维度数,h表示卷积核的大小,n为句子矩阵的长度。
4.根据权利要求3所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,经过卷积运算得到n个feature map,将这n个feature map进行最大池化操作,并在池化操作之后经过修正线性单元分别输出用户μ和用户ν的值。
5.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,所述select attention为根据用户间不同的边关系来对用户关系网络赋予权重,对于给定的两个用户μ和ν及其边关系向量r,权重α的计算具体表示为:其中, 分别为修正线性单元的输出的用户μ、用户ν的值,A为权重对角矩阵,r是两个节点边关系的向量,k是边关系总数,Qi表示不同的边关系对有连边用户的影响值。
6.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,步骤S8中所述的用户节点向量表示表示为:其中, 分别为用户μ、用户ν的用户节点向量表示; 分别为修正线性单元的输出的用户μ、用户ν的值;M是由整个网络所有边关系的向量构成的矩阵, 是一个偏置向量。
7.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,最大化softmax函数中的条件概率其中, 分别为用户μ、用户ν的用户节点新的向量表示,r为边关系向量,Q表示模型的所有参数。
8.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,利用交叉熵损失来优化卷积神经网络的网络参数,表示为:其中,J(Q)表示交叉熵, 分别为用户μ、用户ν的用户节点新的向量表示,r为边关系向量,Q表示模型的所有参数。
9.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法,其特征在于,两个节点间的余弦距离表示为:其中,cosθ为两个用户之间的余弦距离; 分别为用户μ、用户ν的用户节点新的向量表示;||·||表示求范数。