1.一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,包括以下步骤:数据预处理步骤:将电影的评分数据集使用K‑fold交叉验证法划分为K组互不相交的训练集和测试集;
基于三支决策的用户聚类步骤:聚类流程分为用户划分、核心域聚类、边界域聚类;
搜索近邻的步骤:对目标用户所在的簇根据相似度从高到低选取K个邻居作为近邻;
评分聚合的步骤:对每个聚类簇计算一个预测评分值,聚合后得到最终预测值,根据预测值进行电影推荐。
2.根据权利要求1所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,所述数据预处理步骤具体包括:实验数据集应包含用户id、电影id以及用户对电影的评分信息,评分由离散数字表示,随后按照K‑fold交叉验证法将数据随机划分为K份,每次取和之前不同的K‑1份作为训练集,剩下的一份作为测试集,进而得到K组训练测试数据。
3.根据权利要求1所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特
1 2 m n
征在于,基于三支决策的用户聚类步骤中,聚类簇结构表示为C={C ,C ...,C ...,C},其m
中全体聚类簇的集合由C表示,并划分成为n个聚类簇;C表示该簇为C中的第m个簇,由核心m m m m m
域和边界域组成,即C={Co(C),Fr(C)};使用Co(C)表示C的核心域,核心域的对象完全m m m m
属于第m个簇C;使用Fr(C)表示C的边界域,边界域的对象部分属于第m个簇C。
4.根据权利要求3所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,基于三支决策的用户聚类步骤中,用户划分的步骤具体包括:1)将全体用户中评分数量低于某个阈值的用户划分到边界域fringes;2)对全体用户应用KNN‑DPC算法,计算每个用户的密度值和距离值,并寻找到潜在的密度峰值点center,根据以下规则进行划分:u∈cores, 其中u为待划分的用户,cores为核心用户,fringes为边界用户,ρu和δu为用户u的密度值和距离值。
5.根据权利要求3所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,所述核心域聚类步骤具体包括:对核心用户cores调用K‑Means算法,得到初始的聚m
类结果即为每个簇的核心域Co(C)。
6.根据权利要求5所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,所述边界域聚类具体包括:1)计算用户u的邻居分布在各个簇的比例,该值也用来度量用户对边界域的隶属度,计算公式为 其中m m
P(u|C)表示用户u的邻居中属于C的比例,Neighbor(u)为目标用户u的前λ个最近邻居,v表m m m
示目标用户u的邻居,C为三支用户聚类算法第二步核心域聚类后的第m个簇,Co(C)为C的m
核心域;2)根据P(u|C)的值和三支决策阈值α和β对用户进行划分,其中α和β满足1≥α>β≥m m m m
0,若P(u|C)>α,则将用户u划分到簇C的核心域Co(C);若β≤P(u|C)≤α则将用户u划分到m m
簇C的边界域Tr(C)。
7.根据权利要求6所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,所述搜索近邻的步骤具体包括:使用皮尔逊相关系数度量用户的相似度,计算公式为 i代表用户u和v都评论过的电影,ru,i表示用户u对电影i的评分, 表示用户u的平均评分,rv,i表示用户v对电影i的评分, 表示用户v的平均评分,同时考虑评分较少的用户所表达的意见准确性不如评分较多的用户,对评分数目低于阈值th的用户相似度进行惩罚,添加惩罚系数后的相似度计算方法如下其中Iuv为用户u和v共同评过的物品集合,PC(u,v)为按照上式计算到的用户u和v之间的皮尔逊相关系数,th一般由经验值确定,随后对目标用户所在的簇中根据相似度sim(u,v)从高到低选取K个邻居作为近邻。
8.根据权利要求7所述的一种基于三支决策用户聚类的协同过滤电影推荐方法,其特征在于,所述评分聚合的步骤具体包括:基于用户的协同过滤评分预测常用公式为其中pu,i代表用户u对物品i的预测评分, 是用户u的平均评分,v是用户u的近邻用户,sim(u,v)代表用户u和v之间的相似度,rv,i是用户v对物品i的评分, 是用户v的平均评分,一个用户可能分配到多个簇中,在每个簇中都可以产生一个预测评分,采取的方法是对每个聚类簇计算一个预测评分值,聚合后得到最终预测值,聚合公式为 其中Pu,i为最终预测评分,C(u)代表用户u所在的所有簇的集合, 为按照协同过滤评分预测常用公式计算m m
得到的用户u在簇C中的预测评分, 为用户u在簇C的隶属程度,若用户u在核心域则m
取值为1,否则使用2.3中的P(u|C)值。