1.一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:包括以下步骤:
S1:获取用户签到数据,包括连续特征数据和离散特征数据;连续特征数据包括经纬度、温度、风速和降雨量,离散特征数据包括签到月、日、时、星期;
S2:对输入的离散数据进行嵌入处理,通过一个类似局部连接的结构,将离散特征Field[1..i..N]映射到低维向量V[1..i..N],公式为: 其中Vi的长度为M;
S3:利用类似FM的网络结构进行离散数据的去稀疏处理,并学习数据之间的隐含二阶关系;对于稀疏向量,通过利用类似FM的网络结构进行去稀疏处理,公式f=f[1..i..N]和类似因子分解机结构,其中f为特征间一阶线性关系,在这里每一个特征是一个向量vi,特征之间的乘积就是向量的点乘运算,公式为:S={si,j}(i,j=1...N),si,j=<RiRj><ViVj>,s是特征间的二阶关系,经过该结构的处理后去除了数据的稀疏性,并学习到数据之间的隐含二阶关系,R为大小为N*K的矩阵,利用信息量公式δ=‑log pi以正负样本1:n的比例构造负样本,以扩充数据集,增加可训练的样本;
S4:对于连续特征加入全连接隐藏层进行学习,选取合适的激励函数;
S5:输入由离散特征经过处理的结果和连续特征经过处理的结果,将两项结果进行相加作为隐藏层h1的输入;
S6:隐藏层h1的输出l1经过一阶线性和特征交互结构并相加,作为隐藏层h2的输入;
S7:隐藏层h3接收的输入来自隐藏层h1和h2的输出l1和l2,同时加入shortcut结构保证参数学习时梯度的稳定性,确定最佳的模型结构,包括离散特征映射到低维向量的长度、因子分解机中学习特征之间二阶关系的系数矩阵的列数、初始学习率、隐藏层层数以及隐藏层神经元数目,最后输出预测结果。
2.根据权利要求1所述的一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:在步骤S4中,把连续特征包括天气、空间信息加入到全连接隐藏层进行学习,定义relu(x)=max(0,x)为隐藏层输出的激励函数,公式为:lc1=relu(Wc1x+bc1),lc2=relu(Wc2lc1+bc2)。
3.根据权利要求1所述的一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:在步骤S5中,隐藏层h1的输出表示为l1,其输入由离散特征经过处理的结果和连续特征经过处理的结果相加组成,公式为:lf=Wf'f,ls=Ws's,l1=relu(lc2+lf+ls+b0),其中f为特征间一阶线性关系,s是特征间的二阶关系。
4.根据权利要求1所述的一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:在步骤S6中,此时离散特征数据已经经过FM层去稀疏处理,在隐藏层h1的数据通过∑wixi+∑∑wijxixj和 进行参数学习,表示隐藏层h1的输出l1经过一阶
线性和特征交互结构到达h2层并相加,其中 表示两个相同大小的矩阵或者向量元素各自相乘,这样特征之间的隐含内在联系能够更好地被挖掘出来,从而提高预测精度。
5.根据权利要求1所述的一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:在步骤S7中,隐藏层h3的输出表示为l3,由于加入的shortcut结构,接受的输入来自隐藏层h1和h2的输出l1和l2,保证参数学习时梯度的稳定性,最后输出预测结果:输出层即用户在兴趣点签到的概率,公式为:l3=relu(W2l2+l1+b2),最佳的网络结构包含离散特征映射到低维向量的长度M为20,因子分解机中学习特征之间二阶关系的系数矩阵的列数K为20,初始学习率为0.05,隐藏层个数为3层,隐藏层h1的神经元个数为32,隐藏层h2的神经元个数为64,隐藏层h3的神经元个数为32。