1.一种基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于,包括如下步骤:a)在含评论文本的用户-物品-评分数据集D中,将每一个用户u和每一个物品i转变为代表其自身的嵌入式向量Embu及Embi,Embu及Embi的长度为K,K为超参数,K=128;
b)将数据集D中评论文本信息进行清洗与格式处理,构建评论文本中每一个单词的上下文窗口,每一个构建所得的窗口作为一个方面级;
c)在经步骤b)处理后的数据集D中抽取由文本信息辅助表征每个用户u的辅助向量Vu和每一个物品i的辅助向量Vi,结合注意力机制,将辅助向量Vu和辅助向量Vi与嵌入式向量Embu及Embi相融合,得到融合特征向量Attweiahts;
d)将融合特征向量Attweiahts转化为输入向量后,输入用于评分预测的三层神经网络中,得到基于文本处理的方面级可解释深度网络评分预测推荐方法模型,模型的输入为嵌入式向量Embu、Embi以及辅助向量Vu、Vi,模型的输出为用户u对物品i的评分。
2.根据权利要求1所述的基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于:步骤a)中用户-物品-评分数据集D为Amazon Instant Video公开数据集或Home and Kitchen公开数据集或Tools and Home Improvement公开数据集。
3.根据权利要求1所述的基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于:步骤a)中通过pytorch深度学习框架中的nn.Embedding()功能将每一个用户u和每一个物品i转变为代表其自身的嵌入式向量Embu及Embi。
4.根据权利要求1所述的基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于,步骤b)包括如下步骤:b-1)将数据集D中所有的评论文本进行清洗操作,去除非英文字母内容、去除标点符合及特殊符号、将所有英文字母同意转变为小写形式、去除停止词、去除出现次数小于3次级出现次数大于3000次的词语;
b-2)读取预训练好的Word2Vector文件,将步骤a)中将数据集D中的用户id和物品id进行序号化操作;
b-3)按获取的序号化顺序,依次读取每个用户的评论文本,将读取的每个用户发表的所有评论内容整合成一整段文字,该整段文字处理成由N个英文单词组成,N=2×K;
b-4)按获取的序号化顺序,依次读取每个物品的评论文本,将读取的每个物品作出的所有评论内容整合成一整段文字,该整段文字处理成由N个英文单词组成,N=2×K;
b-5)利用预训练好的Word2Vector文件将b-3)中得到的每个用户的N个英文单词组成的文本片段中每一个英文单词转化为对应的特征文本向量,得到一个维度为(N,K)的特征矩阵,将该矩阵记为WU;
b-6)利用预训练好的Word2Vector文件将b-4)中得到的每个物品的N个英文单词组成的文本片段中每一个英文单词转化为对应的特征文本向量,得到一个维度为(N,K)的特征矩阵,将该矩阵记为WI;
b-7)利用公式ZU,i=(WU[i-c/2];…;WU[i];…;WU[i+c/2]),计算用户评论文本中第i个单词的上下文窗口ZU,i,式中c为滑动窗口的宽度;
b-8)利用公式ZI,i=(WI[i-c/2];…;WI[i];…;WI[i+c/2]),计算物品评论文本中第i个单词的上下文窗口ZI,i,式中c为滑动窗口的宽度。
5.根据权利要求4所述的基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于:步骤b-3)及步骤b-4)中若整段文字长度大于N则从第一个单词开始计算保留整段文字前N个单词,若整段文字长度小于N,则复制整段文字并在原整段文字的末尾进行粘贴,重复复制粘贴操作,直至整段文字的长度大于等于N后取整段文字的前N个单词。
6.根据权利要求4所述的基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于,步骤c)包括如下步骤:c-1)使用卷积神经网络对特征矩阵WU、特征矩阵WI、上下文窗口ZU,i及上下文窗口ZI,i进行特征提取,得到由文本信息辅助表征的每一个用户u的辅助向量Vu和每一个物品i的辅助向量Vi,Vu和Vi的长度为K;
c-2)通过公式
计算得到注意力融合特征向量Attweiahts,式中 为向量逐元素对应相加,W为线性映射函数的权重矩阵,b为偏差向量,RELU为线性整流单元激活函数,softmax为用户实现注意力机制的归一化函数Attweiahts的长度为K;
c-3)通过公式
计算融合了
用户和物品特征信息的融合向量Eui,式中⊙为逐元素相乘。
7.根据权利要求6所述的基于文本处理的方面级可解释深度网络评分预测推荐方法,其特征在于,步骤d)包括如下步骤:d-1)通过公式Input=Attweiahts⊙Eui计算可解释深度网络评分预测模型的输入向量Input;
d-2)通过公式 计算得到网络预测出的评分
d-3)通过公式 计算损失函数L,式中,R为数据集中真实的评分,m为网络预测出的评分 的个数;
d-4)利用损失函数L对模型进行训练。