利索能及
我要发布
收藏
专利号: 2021102657910
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于文本和图像的用户个性化偏好挖掘方法,其特征是按如下步骤进行:步骤1、构建用户集合U={1,2,...,u,...,|U|},其中,u表示第u个用户,|U|表示用户的数量;

步骤1.1、获取|U|个用户分别购买的产品图片和产品文本描述构成用户购买产品信息集合D,其中,产品文本描述集合表示为Dw,产品图片集合表示为Dv;

步骤1.2、去除所述产品文本描述集合Dw中所有标点符号、停用词、低频词,从而得到预处理后的产品文本描述集合 其中,Nu表示第u个用户购买记录中所有不重复的词汇数量,Wun表示第u个用户购买记录中的第n个词汇;n=1,2,…,Nu;

步骤1.3、对所述产品图片集合Dv中所有图片进行深度残差网络处理,得到预处理后的图片特征向量集合 其中,Mu表示第u个用户购买记录中所有不重复的图片数量,Vum表示第u个用户购买记录中的第m个产品图片特征向量;m=1,2,…,Nu;

步骤1.4、由所述预处理后的产品文本描述集合 和预处理后的图片特征向量集合 构成处理后的第u个用户购买产品信息Du′,从而构成处理后的|U|个用户购买产品信息集合D′;

步骤2、指定处理后的|U|个用户购买产品信息集合D′中的偏好数量为K;

步骤3、构建有参贝叶斯模型STILT,并通过分析处理后的|U|个用户购买产品信息集合D′中每个用户的产品描述文本信息和产品图片信息,挖掘用户个性化偏好;

步骤3.1、对于第k个偏好,按照式(1)分别抽取偏好‑词汇分布φk与偏好‑图像特征分布(μk,εk):

式(1)中,~表示服从,β是狄利克雷分布的超参数,且φk服从狄利克雷Dirichlet分布,(u0,c0)是vMF分布的超参数,(m,σ)是对数正态分布logNormal的超参数,且(μk,εk)服从vMF分布,并有:

φk=(φk1,φk2,…,φke,…,φkE)            (2)(μk,εk)={(μk1,εk1),(μk2,εk2),...(μkl,εkl),(μkL,εkL)}       (3)式(2)中,φke表示所述处理后的|U|个用户购买产品信息集合D′中第e个词汇在相应偏好下所有词所占权重,e=1,2,…,E,E表示所述处理后的|U|个用户购买产品信息集合D′中不重复的词汇数量;

式(3)中,(μkl,εkl)表示所述处理后的|U|个用户购买产品信息集合D′中第l个图像特征在相应偏好下所有词所占权重,l=1,2,…,L,L是预处理后的|U|个用户购买产品信息集合D'中所有不重复图像特征的总数;

步骤3.2、对于用户集合U中的用户,按照式(4)选择第u个用户在K个主题中感兴趣的偏好,并确定先验分布的参数 从而生成偏好兴趣分布式(4)中,bu,k是二元指示变量,服从伯努利分布,表示第k个偏好是否为第u个用户感兴趣的偏好并记为偏好选择器,当bu,k=1时,表示第k个偏好是第u个用户感兴趣的偏好,当bu,k=0时,表示第k个偏好不是第u个用户感兴趣的偏好;πu表示二元指示变量bu,k的期望,并服从参数为(γ0,γ1)的Beta分布; 表示第u个用户的偏好兴趣情况;πu与 构成Beta‑Multinomial共轭; 表示第u个用户的偏好兴趣分布,服从参数为 的狄利克雷分布,θu,k表示第u个用户在第k个偏好上的兴趣权重,所有用户的偏好兴趣分布记为向量 α0与α1为分布的超参数,α0≤α1,是与 维度相同且每个维度均为1的向量;

步骤3.3、对用户集合U中的每个用户:步骤3.3.1、根据第u个用户的偏好兴趣分布,利用式(5)生成第u个用户感兴趣的偏好:Zun~Mult(θu),Yum~Mult(θu)         (5)式(5)中,Zun,Yum均服参数为θu的多项式分布Mult,Zun表示第u个用户感兴趣的第n个词汇对应的偏好,Yum表示第u个用户感兴趣的第m个图像特征对应的偏好;

步骤3.3.2、根据第u个用户感兴趣的偏好,利用式(6)生成第u个用户选择的产品信息与用户感兴趣偏好之间的关系:

式(6)中,wun服从参数为 的多项式分布Mult,表示第u个用户感兴趣的第n个产品词汇;vum服从参数为 的vMF分布,表示第u个用户感兴趣的第m个图像特征;

步骤4、对用户偏好兴趣分布、图像特征偏好分布、词汇偏好分布进行参数推断:步骤4.0、基于所述用户集合U及处理后的|U|个用户购买产品信息集合D′,对所有参数进行初始化:利用均匀分布为每个用户的购买记录中出现的词汇和图像指定偏好,确定偏好是否是用户感兴趣的偏好;

步骤4.1、根据式(7)采样偏好选择器bu,k:式(7)中,∝表示正比于,I(·)为指标函数,Γ(·)表示gamma函数,Bu表示第u个用户感兴趣的偏好集合,且 表示第u个用户感兴趣的第k个偏好中的所有图片特征的数量,Au表示第u个用户的偏好兴趣情况 中所有偏好选择器bu,k=1的集合,|Au|为Au的数量, 表示偏好选择器bu,k作用于第u个用户的次数,P(|)表示条件概率;

步骤4.2、根据式(8)采样第u个用户购买记录中第n个词汇对应的偏好Zun:式(8)中, 表示除词汇Wun外的所有词汇, 表示除词汇Wun对应偏好外的所有偏好,Y表示分配到|U|个用户购买产品信息集合D′中所有图像特征的偏好,Cuk表示第u个用户感兴趣的词汇或图像特征中对应第k个偏好的次数, 表示词汇Wun分配到第k个偏好的次数,Ckw表示分配到第k个偏好的词汇数量, 除第u个用户感兴趣的第n个词汇外,第u个用户感兴趣的第k个偏好中分配的词汇数量;

步骤4.3、根据式(9)采样第u个用户购买记录中第m个图像特征对应的偏好Yum:式(10)中, 表示除图像特征Vum外的所有词汇, 表示除图像特征Vum对应偏好外的所有偏好,Z表示分配|U|个用户购买产品信息集合D′中所有词汇的偏好,TD(.)表示vMF分布,εk表示vMF分布的参数,由对数正态分布生成,||.||表示二范数,xj表示分配到第j个偏好中的图像特征的数量;j=1,2,…,K;i表示当前采样的第k个偏好对应的编号;

步骤4.4、重复执行步骤4.1‑步骤4.3,直至所有参数均收敛为止;

步骤5、根据步骤4迭代得到的收敛结果,利用式(11)、式(12)、式(13)得到第k个偏好中第e个词汇的词汇分布φke和第l个图像特征的图像特征分布φkl,以及第u个用户对第k个偏好的感兴趣程度θuk:

式(11)中,Ckv表示分配到第k个偏好的图像特征数量。