1.一种基于医学领域的数据推荐方法,其特征在于,包括:
构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据,所述正样本数据是从日志数据中获取的与被曝光点击的行为数据对应的医学相关数据,所述第一负样本数据是按日志数据中的曝光数随机抽取得到的,所述第二负样本数据是从日志数据中获取的与正样本数据的主题信息相同的其他数据,所述主题信息包括疾病预测、疾病检测、疾病诊断中的一种或多种主题;
根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
2.根据权利要求1所述的方法,其特征在于,所述构建训练样本集,包括:
获取所述指定业务场景的日志数据,并从所述日志数据中获取被曝光点击的行为数据;
根据所述被曝光点击的行为数据,确定与所述被曝光点击的行为数据对应的医学相关数据为所述正样本数据;
从样本候选集中随机抽样得到所述第一负样本数据,并根据所述正样本数据的主题信息从除所述正样本数据以外的其他样本数据中确定与所述主题信息相同的所述第二负样本数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征,包括:获取所述正样本数据和所述负样本数据所挂载的相关属性,其中,所述相关属性包括相关科室、相关药物、相关主题、相关疾病中的一种或多种;
根据所述正样本数据和所述负样本数据所挂载的相关属性确定所述第一内容信息对应的第一内容特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型,包括:将所述第一用户特征和所述第一内容特征输入双塔模型中,得到损失函数值;
将所述损失函数值与目标损失函数值进行对比,并根据对比结果调整所述双塔模型的模型参数;
将所述第一用户特征和所述第一内容特征输入调整所述模型参数后的双塔模型中,当得到的损失函数值与目标损失函数值的对比结果满足预设条件时,确定得到所述召回模型。
5.根据权利要求4所述的方法,其特征在于,所述将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量,包括:获取在指定时刻之前的历史时间范围内对所述指定业务场景有过行为的目标用户的第二用户画像信息,并确定与所述第二用户画像信息对应的第二用户特征;
获取在所述指定业务场景的内容候选池中的第二内容信息,并确定与所述第二内容信息对应的第二内容特征;
将所述第二用户特征和所述第二内容特征输入所述召回模型中,得到所述目标用户的用户特征向量和内容特征向量。
6.根据权利要求5所述的方法,其特征在于,所述计算所述用户特征向量与所述内容特征向量的距离,包括:利用余弦相似度算法计算所述用户特征向量与所述内容特征向量之间的相似度;
根据所述相似度确定所述用户特征向量与所述内容特征向量的距离。
7.根据权利要求1所述的方法,其特征在于,所述将所述N个推荐内容的索引标识存储于redis缓存中,包括:获取所述N个推荐内容的用户标识和/或内容标识;
根据所述N个推荐内容的用户标识和/或内容标识,确定所述N个推荐内容的索引标识,并将所述N个推荐内容的索引标识存储于所述redis缓存中。
8.一种基于医学领域的数据推荐设备,其特征在于,包括:
构建单元,用于构建训练样本集,所述训练样本集包括多个用户的第一用户画像信息和第一内容信息,其中,所述第一用户画像信息包括用户的属性信息、行为数据信息、偏好信息中的一种或多种,所述第一内容信息为医学相关数据,包括一个正样本数据和多个负样本数据,每个负样本数据包括第一负样本数据和第二负样本数据,所述正样本数据是从日志数据中获取的与被曝光点击的行为数据对应的医学相关数据,所述第一负样本数据是按日志数据中的曝光数随机抽取得到的,所述第二负样本数据是从日志数据中获取的与正样本数据的主题信息相同的其他数据,所述主题信息包括疾病预测、疾病检测、疾病诊断中的一种或多种主题;
确定单元,用于根据所述第一用户画像信息确定与所述第一用户画像信息对应的第一用户特征,并根据所述第一内容信息确定与所述第一内容信息对应的第一内容特征;
训练单元,用于将所述第一用户特征和所述第一内容特征输入双塔模型进行训练,得到召回模型;
处理单元,用于将对指定业务场景有过行为的目标用户的第二用户画像信息和所述指定业务场景的内容候选池中的第二内容信息输入所述召回模型,得到所述目标用户的用户特征向量和内容特征向量;
计算单元,用于计算所述用户特征向量与所述内容特征向量的距离,并根据所述距离确定N个推荐内容,以及将所述N个推荐内容的索引标识存储于redis缓存中,其中,所述N个推荐内容为多个推荐内容中按照所述距离从小到大的排序中的前N个推荐内容,N为大于或等于1的正整数;
推荐单元,用于当获取到用户终端发送的推荐请求时,根据所述推荐请求中携带的目标索引标识,从所述redis缓存中获取与所述目标索引标识对应的目标推荐内容,并将所述目标推荐内容发送给所述用户终端。
9.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。