1.一种基于跨表数据挖掘的科技资源推荐方法,其特征在于,包括步骤:S1:构建包括企业、人才、项目、平台和仪器设备属性数据的对象表,选取与对象表中各对象属性相关性最高的关联对象作为跨表数据交流的信息通道;
S2:从所述对象表中提取与关联对象的属性数据对应的属性数据,并根据提取出的属性数构建NLP主题模型形成文档数据;
S3:对所述文档数据进行分词处理,然后将分词后的文档数据输入创建好的神经网络主题模型NTM进行训练,求得文档‑主题分布θ和主题‑词汇分布 及对应的权重矩阵Wθ和并生成隐含层对应每个主题下的词汇集及其出现概率;
*
S4:通过训练好的主题‑词汇分布 求出与用户搜索的关键词匹配度最高的主题t ;再*
根据要求返回的对象,计算主题t 对应词汇集 出现在每个对象文档数据d的概率然后对计算结果进行从大到小排序后将对应的对象ID作为推荐系数返回给企业用户。
2.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S2具体包括:提取企业‑业务范围数据、项目‑名称数据、人才‑熟悉学科数据、仪器设备‑主要功能数据和平台‑研究方向数据输入NLP主题模型形成文档数据;其中,每个记录或样本对应的数据定义为一个文档d={d1,d2,...dN},N表示文档总数。
3.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S3具体包括:
S31:对文档d进行n‑gram分词得到词汇g,构建神经网络主题模型NTM,并将每个文档d及其n‑gram词汇g作为神经网络主题模型NTM的输入层;
S32:添加n‑gram词向量层,定义词向量维度为300,将每个词汇g转换成数字向量le(g)进行表示;
S33:创建文档‑主题分布θ和主题‑词汇分布 的两个隐含层ld(d)和lt(g),主题数量为K;其中, 其中权重矩阵Wθ
N×K
表示N个文档向量在K个主题上的分布,即Wθ∈R ,Wθ(d)为文档d的权重矩阵; 表示主题‑词汇层K个主题与词向量层300维词向量之间的权重矩阵,故 因文档主题个数为K,则ld和lt均是一个K维向量;模型输出为文档d关于词汇g的分布概率S34:将步骤S31中每个样本数据(d,g),和通过统计标注获得的每个词汇g在文档d中出现的概率p(g|d)分别作为神经网络主题模型NTM的输入和输出进行训练,获得文档‑主题分布θ和主题‑词汇分布 以及对应的权重矩阵Wθ和
4.根据权利要求3所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S31中,文档集d采用unigram和bigrams模型生成词汇集g={g1,g2,...gV},V表示文档的词汇数量。
5.根据权利要求1所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,该方法还包括:
S5:采用图结构对步骤S4得到的推荐结果进行可视化。
6.根据权利要求5所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S5具体包括:
S51:依据步骤3的推荐指数 对图节点的大小进行定义,使推荐指数高的对象在图空间的节点面积最大,且距离图空间中该公司节点最近。
7.根据权利要求6所述的基于跨表数据挖掘的科技资源推荐方法,其特征在于,所述步骤S5还包括:
S52:采用不同的颜色对不同对象进行区分和可视化。