1.基于移动应用使用行为的用户分群聚类方法,其特征在于,包括以下步骤:S1:针对某一通信运行商,提取用户特征信息、用户应用使用行为信息和移动应用信息,构建移动手机用户应用使用行为分析体系;
S2:基于步骤S1所述移动手机用户应用使用行为分析体系,定义移动手机用户应用使用偏好;
S3:根据步骤S2所述移动手机用户应用使用偏好的定义,构建移动手机用户使用偏好矩阵P;
S4:将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集E输入至SOM-Keams聚类算法中;
S5:使用SOM算法进行粗聚类,得到初步划分的群数目n,并计算每个群的群数据的平均值m;
S6:将所述群数目n赋给Kmeans算法的初始值k,挑选与每个群的群数据平均值m接近的数据点作为中心点,使用Kmeans算法进行再次聚类,最终得到用户群的划分结果,并输出。
2.根据权利要求1中所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述用户特征信息包括脱敏后的用户编号,用户年龄,用户性别;所述用户应用使用行为信息包括应用使用次数,使用时间,使用流量;所述移动应用信息包括:应用名称和所属一级分类标签。
3.根据权利要求1中所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述步骤S2中定义移动手机用户应用使用偏好的步骤如下:令L为提取所有一级分类标签集合,L={l1,l2,l3,...,lt},其中li∈L;A为分类标签下所有应用的集合,则该标签i下的所有应用表示为li={ai1,ai2,ai3,...,ail};
S21:确定用户对于应用aij的使用次数偏好为:
其中Fij为用户使用标签i下的第j个应用的次数,Fjk为第j个应用所属标签下第k个应用的使用次数,t标签总数,l该标签下的所有应用数;
S22:确定用户对于应用aij的使用时间偏好为:
其中Tij为用户使用标签i下的第j个应用的使用时间,Tjk表示第j个应用所属标签下第k个应用的使用时间;
S23:确定用户对于应用aij的操作偏好为:
Taffij/Traffl i=1,2,...,t;j=1,2,...,l其中Taffij为用户使用标签i下的第j个应用的流量,Traffl为用户使用第i个标签下所有应用的总流量;
S24:根据步骤S21,S22,S23,则用户使用应用aij的使用偏好为pij,则
4.根据权利要求3中所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述步骤S3中移动手机用户使用偏好矩阵P为:P=(pij)t×l(i=1,2,...,t;j=1,2,...,l)其中pij为用户对标签i中的应用j的偏好。
5.根据权利要求1所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述步骤S5中SOM算法进行粗聚类的过程为:
S51:初始化每个节点的权值,令权值Wαβ为初始输入节点α和输出节点β之间的权值,并随机选择一个初始值赋给它,并且将循环次数设置t=1;
S52:设定网格的新的输入模式为Xk(k=1,2,...,p),Xk表示第k个输入节点的输入模式,p为输入节点的个数;
S53:求所有输出节点Ys(s=1,2,...,q)中与Xk之间的距离,将距离最小的节点,记为e,并将其设置为获胜的节点,即||Xk-We||=min(distsk);We最小节点的权值,distsk表示第k个输入节点和第s个输出节点之间的距离;
S54:更新节点e及其邻域节点之间的权值,即Wij(t+1)=Wij(t)+η(t)(Xi-Wij(t)),其中η(t)∈(0,1)为第t次的获得的学习率,随着迭代次数的增加而减少,Wij(t+1)为第(t+1)次学习时Wij节点的权值,Wij(t)为第t次学习时Wij节点的权值、Xi表示第i个输入节点的输入模式;
S55:跳转至步骤S52重复执行,直到该网络权值稳定,网络收敛,得到粗划分簇结果UE={ue1,ue2,...,uen}。
6.根据权利要求5所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述Kmeans算法进行再次聚类的步骤为:
S61:计算UE中非中心点uex的元素和中心点uec的距离distxc,令uex.cluster=uec.cluster,将非中心点uex的元素归到最近的那个中心点的簇里,cluster表示群组编号;
S62:非中心点初步划分簇后,划分出k个簇;
S63:计算S62中每一个簇的所有点的平均距离值avi,将avi的值设置成新的中心点,令该元素的中心点标示值设置为1,其余所有元素的中心点标示值全部设置为0;
S64:重复上述步骤,从而可以获得新的k个中心点集合;每个簇的平均值avi与中心点uec相等时结束。