1.一种网络用户身份识别方法,其特征在于,包括以下步骤:
1)、首先,获取网络用户在现实中的真实身份数据,以及获取网络中指定用户的信息;
2)、其次,对获取的用户网络身份数据进行格式化处理,提取其中所需的基本身份属性以及发布的文字内容信息;
3)、然后,利用用户在网络中的基本身份信息和待识别的真实身份数据的基本身份信息,挖掘分析虚拟身份与真实身份之间的关联性,进行基本身份信息的相似性分析,即计算网络身份和真实身份的部分基本属性的相似度;
4)、接着,通过用户在网络上发布的内容信息,挖掘分析用户的虚拟身份描述信息,并结合知识库,建立虚拟身份描述信息与现实身份描述信息的关联关系,进行身份描述信息的相关性分析;
5)、最后,通过设定基本身份信息相似性和身份描述信息相关性的权重值,融合步骤3)基本身份信息相似性和步骤4)身份描述信息相关性的计算结果,对虚拟身份与真实身份之间的关系做出推断;
所述步骤4)身份描述信息相关性分析通过知识库找出真实身份描述信息与虚拟身份描述信息的相关性,具体步骤为:首先,通过TF‑IDF算法提取用户在网络中发布内容的特征作为网络身份的身份描述信息;然后,逐对计算网络身份与真实身份之间的身份描述特征词的相关度;再然后依据相关度,去除描述信息中的无效特征词;最后,确定网络上身份与真实身份之间的相关度;
两个特征词的相关度计算方式为:
其中,Ri(a,b)表示两个特征词语a、b在第i篇文档中的相关度,na、nb分别表示a、b在文档中出现的频数;
在计算了知识库中所有文档中的特征词相关度之后,去除其中计算值过低的无效相关度,计算平均相关度作为两个特征词的综合相关度,计算公式如下:其中I={i|Ri≥β},β为最低有效相关度,i为知识库中文档的编号,最低有效相关度限定了一篇文档中特征词之间的相关度结果必须超过的数,如果计算结果小于最低有效相关度,则该文档的对应结果无效;
对存在相关性关系的虚实身份特征词计算其总体的加权平均数作为身份描述信息的相关性结果;
其中 w为权重,以真实身份描述信息为基准,每个真实身份描
述词关联的虚拟身份描述特征词的数量,作为该描述词的权重。
2.根据权利要求1所述的一种网络用户身份识别方法,其特征在于,
所述步骤1)中,一个人的身份信息包含有两类信息:一是基本身份信息,另一个是身份描述信息,基本身份信息包含性别,出生日期,籍贯,工作地,感情状况,教育背景,工作单位这七个属性信息;真实身份信息的身份描述信息包括知识背景、兴趣、技能在内的与个人身份相关的信息,依此进行相关真实身份信息的收集;
用户身份分为真实身份T与虚拟身份V,对于这两种身份,都由基本身份信息和身份描述信息组成,用一个二元组<B,D>来描述,B表示基本身份信息集合,包含性别,出生日期,籍贯,工作地,感情状况,教育背景,工作单位这七个属性信息,D代表身份描述信息的集合,为了方便分析,将真实身份信息表示为T=<Bt,Dt>,虚拟身份信息表示为V=<Bv,Dv>。
3.根据权利要求1所述的一种网络用户身份识别方法,其特征在于,
所述步骤1)获取网络中指定用户的信息,具体包括:从网络中按照基本身份信息类别提取个人信息,同时,提取用户在网络中发布的内容用于挖掘用户虚拟身份的身份描述信息。
4.根据权利要求1所述的一种网络用户身份识别方法,其特征在于,所述步骤2)对获取的用户网络身份数据进行格式化处理,具体包括:对收集到的网络用户的信息进行数据清洗,去除发布内容中长度过短或者仅有图片的信息。
5.根据权利要求1所述的一种网络用户身份识别方法,其特征在于,所述步骤3)基本身份属性的相似度分析是计算网络身份和真实身份的部分基本属性的相似度;具体步骤为:首先,获取用户在网络中登记的属性信息;然后,格式化信息,并记录未缺失信息;再然后,根据属性类别,确定网络身份与真实身份的各类对应属性间的相似度;最后,统合所有未缺失属性相似度,确定网络身份与真实身份之间的基本身份属性相似性。
6.根据权利要求5所述的一种网络用户身份识别方法,其特征在于,当网络中出现用户个人信息缺失的情况,仅计算虚拟身份与真实身份中未缺失的共同属性的相似度,并将其所占比重作为基本身份信息相似度的权重,身份共有属性相似度的计算公式为:其中Pv,Pt分别代表网络身份和真实身份中未缺失的基本身份信息集合
Sim(Pv,Pt)是共有属性的平均相似度。
7.根据权利要求5所述的一种网络用户身份识别方法,其特征在于,
所述步骤3)对于日期信息的相似度计算,出生日期是按年月日的格式记录的8位数字,采用编辑距离方法来计算相似度,取值范围为[0,1],数值大小直接反映了两个字符串的绝对差异;
对于籍贯、工作地的地址信息,采用“国家‑省份‑地市”三段数据结构来表示地址信息,将地址信息表示为三维向量,再通过余弦相似度来计算地址相似度;而对于其他字符串类型数据则将中文字符串转化为拼音序列后,采用最长公共子序列算法LCS进行相似度计算。
8.根据权利要求6所述的一种网络用户身份识别方法,其特征在于,
所述步骤5)具体包括:基本身份信息相似性分析覆盖个人信息健全的用户,身份描述信息相关性分析覆盖发布内容丰富的用户,通过对网络身份与真实身份之间的相似性和相关性分析结果,确定真实身份T与网络身份V之间的相似度Sim(T,V);
Sim(T,V)=αSim(Bt,Bv)+(1‑α)R(Dt,Dv)
其中,其中α为权重。