1.一种多标签分类的手机应用推荐系统,其特征在于:包括数据获取模块、数据处理模块、数据存储模块、业务逻辑模块和显示模块;
所述数据获取模块,接收数据请求,获取用户手机上的应用信息并发送给所述数据处理模块;
所述数据处理模块,对所述数据获取模块传输来的用户手机上的应用信息进行归纳整理,再利用数据挖掘技术找到应用相对应的属性标签,得到每个用户的属性标签集,并用矩阵的形式表达,并发送到所述数据存储模块;
所述数据存储模块接收到所述数据处理模块发送来的属性标签集,分别存入用户应用数据库和应用属性数据库,并将所述用户应用数据库的数据发送到所述业务逻辑模块,将所述应用属性数据库的应用属性标签发送给所述显示模块;
所述业务逻辑模块先将获得的所述用户应用数据库中的数据进行用户属性分析,再根据随机游走算法对用户进行分类,学习用户初始化类别标签以及通过迭代推理获得用户稳定标签,利用手机应用间存在的关系网络信息把类别标签传播到其余未标签应用形成新标签或更新已有属性标签,最后发送给所述显示模块;
所述显示模块将所述业务逻辑模块发送的新标签或更新的已有属性标签与所述应用属性数据库发送的应用属性标签进行匹配,找到相对应的应用集合,最后对用户进行推荐。
2.根据权利要求1所述一种多标签分类的手机应用推荐系统,其特征在于:所述业务逻辑模块对所述用户应用数据库发送来的数据进行用户属性分析前,需判断用户是否为新用户并进行相应操作,具体步骤如下:S11:判断用户是否为新用户;
S12:若用户为新用户,则采取随机游走算法,对其进行属性概率分析,采取阈值法去除低概率属性;
S13:若用户为老用户,将根据用户的手机应用属性,在原有属性标签的基础上,采取随机游走算法,更新用户的属性标签。
3.根据权利要求1所述一种多标签分类的手机应用推荐系统,其特征在于:所述数据获取模块获取用户手机上的应用信息,是根据用户手机上下载的应用得到,实时更新用户的应用信息。
4.一种多标签分类的手机应用推荐方法,其特征在于,包括以下步骤:
S1:获取用户手机上的应用信息;
S2:先对S1得到的应用进行归纳整理,得到用户应用数据;再利用数据挖掘技术,找到应用相对应的属性标签,将得到的用户应用进行属性划分,得到每个用户的属性标签集,并用矩阵的形式表达;
S3:将得到的用户数据属性标签集存入到数据库中;每当用户新下载一个应用时,用户数据库中相应用户属性标签也会发生动态变化;
S4:分析用户的属性,根据随机游走算法对用户进行分类,学习用户初始化类别标签以及通过迭代推理获得用户稳定标签,利用手机应用间存在的关系网络信息把类别标签传播到其余未标签应用形成新标签或更新已有属性标签,S5:根据S4所得到的新标签或更新的已有属性标签,匹配数据库中的应用属性标签,找到相对应的应用集合,最后对用户进行推荐。
5.根据权利要求4所述的一种多标签分类的手机应用推荐方法,其特征在于,所述S4中对用户进行分类的具体步骤为:S41:构建一个加权无向图G(V,E,W,X,L,Y),其中节点集V={υ1,υ2,…,υm}对应为用户,E为边的集合,W为E对应的权重矩阵, 表示节点υi与υj之间边的权重值,W实质上对应为用户的关系网络特征矩阵,每一个节点υi∈V都分配一个对应的d维空间向量χi=(ti1,ti2,…,tid)∈Rd,Rd表示在实数域R上的d维输入数据空间,其中tik表示为节点υi在第k个属性上的取值,X=[χ1,χ2,…,χn]T表示节点的属性特征向量矩阵,L={l1,l2,…,lq}为类标签集合,矩阵Y=[y1,y2,…,yn]T则表示分配每一个标签给所有节点υi的概率集合;
S42:构造随机跳转到每个顶点的概率分布向量n,邻接矩阵P,初始概率分布向量s0,跳转发生概率α,发生跳转时跳转到图中每个顶点的概率分布向量n,每次游走过程后的输出概率分布向量记作s;
S43:对每个节点υi∈V,将其相关联的所有边{(υi,υj)|i≠j,(υi,υj)∈E},按照其权重ωij排序,保留其中权重最小的k条边,将其他边从图G中删,以完成对图的剪枝;
S44:对于未分类数据,计算该数据具有每个标签的概率,再与阈值向量PT比较以确定每个标签的有无,完成标签取舍。
6.根据权利要求5所述的一种多标签分类的手机应用推荐方法,其特征在于:步骤S41中的权重矩阵W为:ωij表示权重值,dis(vi,vj)表示对应节点在d维空间中的距离。
7.根据权利要求5所述的一种多标签分类的手机应用推荐方法,其特征在于:步骤S42所述邻接矩阵P的计算过程为:对任意节点υ,在υ的所有邻居节点中,如果一个节点距离υ越远,则游走到这个顶点的概率就越低,如下式所示:Mij表示节点υi到节点υj的概率,m表示训练数据的训练集合,然后对矩阵进行归一化处理:M′ij表示节点υi到节点υj的概率的归一化处理后的结果,Pij表示节点υi到节点υj经过随机游走算法得到的更新后的特征概率分布矩阵;
此时的概率分布矩阵P即为输入的邻接矩阵,根据邻接矩阵P,初始概率分布向量s0,跳转发生概率α,发生跳转时跳转到图中每一个顶点的概率分布向量n,每次游走过程后的输出概率分布记为s,则s的计算方法为s=(1-α)PTs0+αn,0<α<1,将向量s作为上式的输入s0,反复迭代上式直至收敛,将此时的概率分布向量记作π,满足π=(1-α)PTπ+αn,式中的向量π即为稳定的概率分布向量,PT为阈值向量;假设从某个顶点出发跳转到图中任意一个顶点的概率是相等的,得到随机跳转到每个顶点的概率分布向量:式中m表示训练数据的训练集合。