1.基于Transformer编码器和正则化策略的专利推荐方法,其特征在于,包括;
S1、根据多个搜索文本建立一定数量的专利数据集,并按照搜索语句分类;
S2、对搜索文本以及数据集中的专利文本进行数据预处理,得到搜索文本句子向量、搜索文本词向量、专利文本句子向量组和专利标题词向量;
S3、建立基于Transformer编码器和正则化策略的词句双处理模型;
所述基于Transformer编码器和正则化策略的词句双处理模型包括句粒度层面特征向量提取模块、句粒度层面分类模块、词粒度层面特征向量提取模块和词粒度层面分类模块;
所述句粒度层面特征向量提取模块包括句粒特征提取器和短文本特征提取器;所述句粒特征提取器包括Transformer编码器和多头注意力机制提取专利文本向量组信息;所述短文本特征提取器包括全连接层;
所述词粒度层面特征向量提取模块包括两个孪生的词粒特征提取器,两个词粒特征提取器之间参数共享,所述词粒特征提取器包括Transformer编码器和多头注意力机制;
所述句粒度层面分类模块中的相似度分类过程皆使用全连接层和激活函数计算专利相似度分类结果;
所述词粒度层面分类模块中的相似度分类过程使用多头注意力机制、全连接层和激活函数计算专利相似度分类结果;
S4、将搜索文本句子向量和专利文本句子向量组输入句粒度层面特征向量提取模块和句粒度层面分类模块得到句粒度层面专利相似度分类;
S5、将搜索文本词向量和专利标题词向量输入词粒度层面特征向量提取模块和词粒度层面分类模块得到词粒度层面专利相似度分类;
S6、对句粒度层面专利相似度分类结果与词粒度层面专利相似度分类结果进行线性加权,输出专利相似度分类结果。
2.根据权利要求1所述的基于Transformer编码器和正则化策略的专利推荐方法,其特征在于,所述S1具体包括:S11、将专利数据集中的样本分为三类:标签“1”、标签“2”、标签“3”,标签“1”的样本表示专利和搜索文本相似度最高,标签“2”的样本表示专利文本和搜索文本相似度一般,标签“3”的样本表示专利文本和搜索文本相似度低;
S12、应用中,首先排除标签“3”的内容,优先展示标签“1”内容,其次是展示标签“2”内容。
3.根据权利要求1所述的基于Transformer编码器和正则化策略的专利推荐方法,其特征在于,所述S2具体包括:S21、对搜索文本进行分句预处理:对输入的搜索文本使用SBERT预训练模型处理,得到搜索文本句子向量;
S22、对专利文本进行分句预处理:使用专利摘要分句后标题填充的方式对专利文本进行处理,得到专利文本句子向量组;
所述S22具体包括:
S221、对专利数据集中的专利摘要信息分句数量的情况进行统计;
S222、设置切分阈值,并将摘要切分成句,若切分数量不足切分阈值,则用专利标题补齐至满足切分阈值数的专利文本句子组;最后使用预训练好的SBERT模型将专利文本句子组转换成专利文本句子向量组;
若切分数量超过切分阈值,则进行相似度选择,选取与专利标题最不相似的句子转换为专利文本句子向量组;
所述选取与专利标题最不相似的句子具体包括:使用SBERT模型将切分后的句子和专利标题转换为向量,计算每一句摘要的句子向量和专利标题的句子向量的余弦相似度,按照余弦相似度逆排序,得到满足切分阈值数的专利文本句子组;
S23、对专利文本的专利标题和搜索文本进行分词处理:
获取搜索文本和专利文本的专利标题,分别进行预处理,所述预处理包括jieba分词处理、去停用词、去标点符号处理,处理完成后,使用预训练好的BERT模型对分词后的文本表示进行向量处理,分别得到专利标题词向量和搜索文本词向量。
4.根据权利要求3所述的基于Transformer编码器和正则化策略的专利推荐方法,其特征在于,所述S4具体包括:所述搜索文本句子向量经短文本特征提取器提取特征信息,所述专利文本句子向量组经句粒特征提取器提取特征信息;将短文本特征提取器提取的特征信息和专利文本句子向量组经句粒特征提取器提取的特征信息进行拼接,最后经句粒度层面分类模块进行相似度分类得到句粒度层面专利相似度分类。
5.根据权利要求1所述的基于Transformer编码器和正则化策略的专利推荐方法,其特征在于,所述S5具体包括:所述搜索文本词向量和专利标题词向量分别输入词粒特征提取器,将搜索文本词向量和专利标题词向量经词粒特征提取器的Transformer编码器提取的特征信息进行第一向量拼接得到第一拼接向量;再将搜索文本词向量和专利标题词向量经多头注意力机制提取的特征信息进行第二向量拼接得到第二拼接向量;将第一拼接向量和第二拼接向量再经词粒度层面分类模块使用多头注意力机制进行第二次提取特征信息后再进行拼接,最后进行相似度分类得到词粒度层面专利相似度分类。
6.根据权利要求1所述的基于Transformer编码器和正则化策略的专利推荐方法,其特征在于,还包括使用基于Dropout与对称JS散度的正则化策略对模型结构和输出结果进行优化:通过最小化两个分布之间的双向JS散度,使同一份数据的两个子模型输出的两个分布保持一致,具体包括:训练的数据集合为: 其中n为训练样本的个数,(xi,yi)代表数据对;
将输入数据xi输入基于Transformer编码器和正则化策略的词句双处理模型两次,其中任一一次模型为子模型,得到两种对于数据xi的输出分布,分别为 和基于Dropout与对称JS散度的正则化策略通过向交叉熵损失函数中加入同一样本两种不同输出分布的对称JS散度来实现正则化策略:两个子模型输出分布的KL散度表示:DKL(P1||P2),其中P1、P2是指两次输入模型后,得到的两个输出分布;
模型的JS散度计算公式:
两个子模型的交叉熵损失函数:
最终模型的损失函数为:
其中,α1、α2用于控制 的权重系数。