1.一种贝叶斯协同过滤推荐方法,其特征在于,包括:
模型的输入为协同过滤推荐系统的评分矩阵 分解为两个潜在矩阵其中对于M×K的矩阵Uik表示用户i属于组k的概率,Uik∈(0,1);对于N×K的矩阵Vjk表示用户组k喜欢商品j的证据,即预测评分矩阵R'=UVT;由于数据集R比较稀疏,所以观察的条目可以用集合Ω={(i,j)|Rij is observed};对这个问题采取概率方法;
对观测数据表示一个似然函数,并将潜在矩阵作为随机变量来处理;当假设R的每个值来自U和V的乘积时,加上一些高斯噪声 即:R=UVT+E,
其中Ui,Vj表示U和V的第i行和第j行,Rij服从精度为τ的高斯分布;我们模型的参数集表示为θ={U,V,τ};
根据贝叶斯定理,将已观察到的数据集D={Rij}i,j∈Ω作为先验,然后找到关于参数θ的分布:P(θ|D)∝P(D|θ)P(θ),
通常不能精确地计算后验P(θ|D),但是可以通过选择适合的先验得到一个很好的逼近;为了使分解后的矩阵数值有可解释的意义,所以将U,V约束为非负;用户与用户、商品与商品之间相互独立,所以在U和V选择选择指数先验,这样U和V中的每个元素都被假定为独立的指数分布且速率参数 同时也能被约束为非负;即:对于精度τ采用ατ,βτ>0的伽马分布,即:
变分贝叶斯中用近似q(θ)去逼近后验P(θ|D);根据平均场理论,假设变分分布q(θ)完全成立,因此所有变量在后验中都是独立的,即: 利用贝叶斯定理得到以下分布:其中
近似函数q(θi)服从以下分布:
通过最小化KL散度,使近似函数q(θ)去近似后验P(θ|D):为了使KL散度最小,则只需要极大化证据下界L(q),这样就可以得到后验p(θ|D)的近似解;即可以找到第i个q*(θi)的最优分布,然后依次更新其他θi,最终相互迭代达到稳定,从而可以找到变分参数的最优更新,该算法保证了证据下界的最大化:添加自动相关性确定方法,不需要选择正确的k,而是给出一个上限,模型将自动确定要使用的因子数;将分解矩阵先验的各个参数替换为同一列中所有条目共享的一个,即为每个因子共享,并在λk上放置一个伽马先验;则先验分布变为:Uik~ε(Uik|λk)Vik~ε(Vjk|λk)朴素贝叶斯分类:
假设D是样本数据集,对于D中每个样本X的n个属性A1,A2,…An,用n维特征向量表示为X=[x1,x2,…,xn];假设样本有m个类别,每个类别分别用C1,C2,…Cm表示;
根据贝叶斯定理 对于待分类的样本X,可以得出在X出现的条件下,D中各个的类别Ci出现的概率;比较类别出现的后验概率,选择其中概率最大的类别;
由于p(X)对于所有类别都是常数,当且仅当先验概率p(X|Ci)p(Ci)为最大时,后验概率p(Ci|X)最大;为了降低开销,实现有效估算,假设各个类别、属性相互独立,即只需考虑:假设 表示训练集D中的Ci类样本的集合,可以得出类先验概率: 对离散属性而言,假设 表示 中Ak属性上取值为xk的样本组成的集合,则条件概率:对连续属性而言,可以考虑概率密度函数,把连续的属性离散化;
根据重要性对不同的用户、属性采用相应的影响因子,在加权朴素贝叶斯模型上进行了改进:其中ρi表示用户ui的权重,ωk表示属性Ak的权重;其权重值越大,即影响越大,利用信息熵计算该权值;
HBPM中的“隐”体现在从BNMF中的U矩阵获得的隐藏用户组K;由U矩阵V矩阵相乘得到一个预测评分矩阵,从中获得了一部分隐藏但可靠预测评分;最后结合属性利用改进的朴素贝叶斯进行修正,得到最终预测结果。
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
4.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。