1.一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,包括以下步骤:获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
将预处理后的内容数据输入到word2vec模型中,得到每一个句子中每个词的词向量表示,一个句子中每个词的词向量表示为:其中,wordi表示第i个词, 表示第i个词的向量表示,n表示一个句子共有n个词;
取每个词在word2vec模型中对应的词向量进行拼接,获得一个句子的词向量特征矩阵,词向量特征矩阵表示如下:其中,Sw表示词向量特征矩阵,en表示第n个词的向量表示,n表示Sw一共划分出n个词;
获取用户的个人属性特征向量info,将词向量特征与用户的个人属性特征向量info相拼接,构成输入矩阵;
将输入矩阵输入CNN模型,在CNN模型中通过卷积、池化、全连接层的计算,最终输出用户的代表性标签,即用户的话题标签;
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组,对用户进行话题标签推荐和群组推荐。
2.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中删去停止词以及无意义的词组,保留有意义的词组,得到预处理后的内容数据,预处理后的内容数据表示为:Sw=[w1,w2,...,wn],其中,Sw表示原始内容数据中的任意一条内容数据,wn表示划分后的第n个词组,n表示一条内容数据共划分n个词。
3.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:age=(a1,a2,...,ax),x∈用户的年龄取值总数education=(edu1,edu2,...,eduy),y∈用户的教育程度取值总数place=(p1,p2,...,pz),z∈用户的所在地取值总数其中,ax表示第x个年龄表示,x表示一共有x种年龄的取值,eduy表示第y种教育程度表示,y表示一共有y种教育程度的取值,pz表示第z种用户所在地,z表示一共有z种用户所在地。
4.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述输入矩阵为: 其中,Sw表示词向量特征矩阵,info表示用户的个人属性特征向量。
5.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,通过聚类算法构建社交网络图具体包括:首先根据用户的代表性标签计算两两用户之间的相似度;
再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
6.根据权利要求5所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,采用余弦相似度来计算两两用户之间的相似度包括:其中,sim_tw(i,j)指用户i与用户j之间的相似度, 表示用户i与用户j具有相同N个标签值的乘积总和, 表示用户i具有的X个标签值和用户j具有的Y个标签值的所有标签值的乘积。
7.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层;数据在CNN模型中处理的具体过程包括:S31、首先通过卷积层提取主要的特征,将每个卷积核的最大值作为主要特征:其中, 表示最终提取的特征, 表示第2个卷积核提取的特征,n表示一共有n个卷积核;
S32、将从多个卷积核中提取的特征组合为一个新特征向量V:其中, 表示第n个卷积核大小提取的特征;
S33、利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理;
S34、通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数;
S35、最后将V1通过SoftMax层,最终输出一个最具有代表性的标签O,输出表示如下:O=f2(V1*W2+b2);
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。