1.一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,所述方法以本体映射为理论基础,包括以下步骤:步骤一、分别对隐私数据的概念相似度simd、属性相似度simT和结构相似度sims进行度量计算;
步骤二、通过隐私数据的暴露向量进行其暴露代价度量计算;
步骤三、经过对所述的隐私数据的相似度和暴露代价的度量计算,获取隐私数据信息暴露链的特征属性;所述的隐私数据的暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;
步骤四、根据所述的暴露链的特征发现用户发布数据中的隐私暴露链,从而达到保护用户隐私数据信息发布过程的安全;
所述的以本体映射为理论基础,是指:对隐私数据相似性度量采用本体树的映射,假设用户隐私需求本体树和服务隐私描述本体树之间具有上下文层次语义关系的一致性;假若所述的需求本体树中的某个节点sq在描述本体树中的所对应的层次为i,则:其子类节点或者其属性必须在描述本体树中的第i+α层。
2.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤一中:所述的隐私数据的概念相似度是在分层的基础上定义:根据需求本体树和描述本体树两棵树中节点之间的关系,将所述的隐私数据的概念相似度分为三个层次,记为:其中,R表示需求本体树中的节点,D表示描述本体树中的节点,T表示两节点间的层次关系,即:T={e,su,p};由于所述的两棵树有相同的根节点Thing,故:①同层exact:所述的查询树中的R节点与描述树中的D节点具有相同的层次数,并且后代节点之间是一一对应的,即:
②上下层subsume:查询树中的R节点的层次数小于描述树中的D节点的层次数,并且查询树中的节点R的孩子与描述树节点D的后代节点对应,即:
③下上层plugin:查询树中的R节点的层次数大于描述树中的D节点的层次数,并且查询树中的节点R的孩子与描述树节点D的后代节点对应,即:
在基于语义词典Wordnet的计算方法中,每个节点s表示一个概念,Pantel和Lin等人根据Wordnet定义了两个概念的相似度:
其中,p(s)=count(s)/total表示在Wordnet中概念节点s及其子节点所包含的单词个数在整个词典中所占的比例,total是Wordnet的单词总数,概念节点s是概念节点s1和概念节点s2的公共祖先概念节点。
3.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤一中:所述的对属性相似度simT进行度量,是指:设在两颗树Tq、Td中,假如某节点为对象,两个对象分别为OA、OB;而OA、OB中的属性分为两类;其中,第一类是简单属性,如:整型或者是字符型,此类相似度可以直接根据概念相似度simd求得;第二类为关系类,即两个属性值可以通过某种关系函数计算得到其相似度;
其关系函数计为:fr=(IDA,IDB,PA,PB);
设两个对象:OA=
其中,simd是整型或字符型;fr=Υ(IDA,IDB,PA,PB)是关系型;fr是根据属性之间的特定的语义关系所确定的;如果所得到的属性值是一致的,则属性相似度为1,否则为0;那么,对象节点的属性相似度simT可以定义为:
4.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤一中:所述的对结构相似度sims进行度量,是指:设查询本体树Tq和描述本体树Td,由于每种树中均有三种节点,即:类、对象和属性;则应分以下三种节点情况对结构相似度sims进行度量:(1)假若此节点为属性,则可以直接用属性相似度与所属的对象的概念相似度进行计算,故,所述属性节点的结构相似度为:
(2)假若此节点为类,则可以根据超类和子类的相似度计算:超类的相似度为:simd(supc(sq),supc(sd))子类的相似度为: 因此,节点(类)的结构相似度为:
(3)假若此节点为对象,如果节点sq与sd有相似的祖先节点,并且这两个节点属性相似;此处,两个节点的属性可分以下三种情况:①对于两个节点sq,sd,有 并且simT(sq,sd)=1,则就有②对于两个节点sq,sd,有包含关系,即:
③对于两个节点sq,sd, 这三种关系称为属
性间的相容关系;
若 使得
并且,simT(sq,sd)>β;其中,α和β分别为概念相似和结构相似的阀值;
此时,节点的结构相似度为:
因此,两棵本体树之间对应节点的总相似度为:
其中,总相似度的阀值为γ。
5.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤三中,所述的对隐私数据的暴露代价的度量计算,包括以下过程:(1)对隐私敏感度进行度量:
所述的隐私敏感度是用户对个人隐私数据的敏感程度,设p=[p1,p2,…,pn]为用户的隐私数据链,隐私敏感度可以表示为:sv=[sv1,sv2,…,svn],其中svi表示数据pi的敏感度,
1≤i≤n;
将用户的隐私敏感度分为两类:第一类是用户有隐私需求,则根据用户的隐私需求,将用户的隐私信息的敏感程度定义为[0,1]区间上的任意实数,其中0表示敏感度最弱,1表示敏感度最强;第一类是用户无隐私需求,则将用户的隐私信息根据第一类用户对隐私数据的敏感程度,将其分为5个等级:A++非常敏感;A+比较敏感;A敏感;B+一般敏感;B不敏感;
(2)隐私数据暴露代价的度量:
隐私数据暴露向量是指用户对个人隐私数据集是否暴露给云服务提供者,所对应的真值向量,dv=[dv1,dv2,dv3,…dvn],其中dvi∈{0,1};如果dvi取值为1,表示暴露隐私数据对象pi;dvi取值为0,表示不暴露数据对象pi,1≤i≤n,pi∈p;
所述的隐私数据暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;隐私数据暴露代价是隐私数据敏感度与隐私数据暴露向量的函数,并且暴露代价分别与敏感度和暴露向量具有正比关系,即隐私数据敏感度越大,隐私数据暴露代价越大;隐私数据暴露得越多,隐私数据暴露代价越大;隐私数据暴露代价从量上可以利用敏感度向量矩阵与暴露向量矩阵计算得到,具体可以表示为:Disp=[dv1,dv2,dv3,…dvn]×[sv1,sv2,…,svn]T,其中Disp∈R+,1≤i≤n。
6.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤四中,根据所述的暴露链的特征发现用户发布数据中的隐私暴露链,包括以下过程:将暴露代价大于1的隐私数据集,称为暴露链,即: 所述的隐私数据集包括两种类型:
第一种类型是服务要求用户暴露的最小隐私数据集,即:PESs={pds1,pds2,…pdsi……pdsk},其中pdsi为云服务提供商所要求用户暴露的隐私项,在集合上为服务输入和前置条件的子集,即: PES为服务的隐私项集,P和I分别表示服务的前置条件和输入;
第二种类型是当用户向云服务提供商发出服务请求时,用户隐私需求中愿意暴露的隐私集,即:PESu={pdu1,pdu2,…pdui……pduk},pdui为用户隐私需求中愿意暴露的隐私项;
因此:设用户隐私需求暴露链中隐私数据的个数为n,如果PESs中包含长度为n-1的隐私暴露链,则PESs就会暴露用户的敏感隐私数据;
通过对云服务提供者的隐私数据集PESs进行暴露链的构造,并与用户的敏感隐私数据进行匹配,从而确定服务提供者所要求用户提供的隐私数据集PESs是否安全。