1.一种基于用户需求结合倒排表的专利推荐方法,其特征在于,包括S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;
所述倒排表包括:单词编号、单词和专利编号列表;
S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;
所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;
S3、根据用户需求信息分为精准需求和广泛需求,进行双轨推荐,所述双轨推荐包括精准推荐和广泛推荐;
所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号中查找文档列表获取每一个专利编号对应的专利信息,最后对用户需求与每个专利信息进行匹配,得到精准推荐列表;
所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成对应候选集,再根据对应候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后对该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表;
所述S1具体包括:
S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;
S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表;
所述改进的相似词机制为:
遍历初始倒排表中每一个词,结合预训练好的中文词向量文件,获取相似度高的前d个, ,词,再使用综合相似度排序的方法从中选取前c个相似词,遍历这c个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词的倒排表专利编号列表中,经过以上遍历过程形成最终倒排表;
所述综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度,为可调整参数:,其中 (1)。
2.根据权利要求1所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述精准推荐具体包括:S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;
S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作,用前处理完后的用户需求信息去查找倒排表并生成精准候选集;
S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;
S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息句子向量;
S315、将压缩后的用户需求信息的句子向量与精准候选集中的每一个专利的专利信息句子向量进行余弦相似度计算,根据余弦相似度计算结果选取相似度最高的前n条专利信息作为精准推荐结果。
3.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的基于GPT2的需求压缩模型包括:在原始GPT2模型的基础上并联一个编码器,所述编码器包括单词概率分布和多头注意力机制,所述原始GPT2模型包括m层解码器;
在输入数据后,数据同时流向GPT2模型和编码器,使用编码器上单词概率分布和GPT2模型内部的解码器状态计算权重G,再使用权重G计算时刻的单词概率分布,最后输出概率值最大的预测单词。
4.根据权利要求3所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,在改进的基于GPT2的需求压缩模型生成最终的预测单词概率前,使用编码器中的多头注意力机制提取原始输入的单词概率,优化最终输出的预测单词;
将前处理后的用户需求信息作为改进的基于GPT2的需求压缩模型的输入数据,经过改进的基于GPT2的需求压缩模型的m层解码器生成每层的解码器状态si,数据经过编码器生成的注意分布可以作为源文本上单词的概率分布记为a;使用每层的解码器状态si和编码器生成的源文本上的单词概率分布a计算权重G:(2);
其中G∈[0,1], 为激活函数,W、b为可调整参数, ‑ 是ti时刻GPT2模型中每层的解码器状态值;
(3);
其中P(w)是t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表中的最终分布,所述词汇表是在预训练时生成的;若w是词汇表外的词,则P(w)=0,表示的是t时刻词w在源文本中的上的注意力分布;若单词w没有出现,则 ;T(w)是t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表和源文本中的最终分布。
5.根据权利要求1所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述广泛推荐具体为:S321、将用户需求信息进行需求分段处理,对处理后的每一段需求信息查找倒排表,得到每一段需求信息对应的候选集;
S322、对分段后的每一段需求信息使用bert模型获取其句子向量表示;
S323、由候选集中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量;再将每一段需求信息的句子向量与每一条专利信息句子向量进行余弦相似度计算,根据相似度计算结果得出每一段的前k个推荐结果;将不同段落的前k个推荐结果合并成广泛推荐列表。
6.根据权利要求5所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述需求分段具体包括:
1)获取用户需求信息,按照分号、句号两种符号分成z段;
2)将分段后的需求信息进行预处理,然后通过TF‑IDF关键词提取机制对每一段需求信息进行关键词提取;
3)根据第一段的关键词查找倒排表,生成候选集1;
4)对分段后的第一段需求信息使用bert模型获取其句子向量表示;
5)由候选集1中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量;计算第一段需求信息的句子向量与候选集中的专利信息句子向量的进行余弦相似度计算,选取相似度最高的前j条专利信息,生成推荐列表1;
6)对剩余的z‑1段需求信息分别重复第2)‑5)步,将所有生成的推荐表合并,最终形成广泛推荐表。
7.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述前处理包括分词、去停用词、去特殊停用词操作。