1.一种文本相似度的确定方法,其特征在于,所述方法包括:
首先检测第一文本和第二文本对应的字符数是否小于或者等于预设字符数阈值;若检测到所述第一文本对应的字符数小于或者等于预设字符数阈值,则触发调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;若检测到所述第二文本对应的字符数小于或者等于所述预设字符数阈值,则触发调用主题词识别模型确定出第二文本对应的至少一个第二主题词的步骤;
获取初始主题词识别模型,所述初始主题词识别模型包括特征函数;基于预设特征函数对所述初始主题词识别模型中的所述特征函数进行调整;获取包括主题词标注的训练短文本,并根据所述训练短文本对所述特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型;所述初始主题词识别模型使用条件随机场算法;
调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;
获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;所述静态词向量由开源词向量数据得到,所述动态词向量由语言表示模型获得;所述语言表示模型为ELMO模型或者BERT模型;
计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;
基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度,所述预设文本相似度算法对应的计算方法如下列公式所示:其中,wu为第一文本的所有被标识出的第一主题词对应的第一词向量集合,i为该第一词向量集合wu中的第一词向量;wt为第二文本的所有被标识出的第二主题词对应的第二词向量集合,j为第二词向量集合wt中的第二词向量,d为第一词向量和第二词向量之间的余弦相似度值;M和N分别为第一文本和第二文本的主题词个数,S为第一文本和第二文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述基于预设文本相似度算法对所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度,包括:基于预设文本相似度算法对各个所述余弦相似度进行求和计算,并将求和计算结果除以log M与log N的和值,得到所述第一文本和所述第二文本之间的相似度。
3.根据权利要求1所述的方法,其特征在于,所述获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,包括:从开源词向量数据中查询并获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为静态词向量。
4.根据权利要求1所述的方法,其特征在于,从开源词向量数据中查询所述至少一个第一主题词中各个第一主题词的第一词向量之后,所述方法还包括:若所述开源词向量数据中未查询到所述至少一个第一主题词中任一第一主题词的第一词向量,则构建全0向量,并将所述全0向量确定为所述任一第一主题词的第一词向量。
5.一种文本相似度的确定装置,其特征在于,所述装置包括:
处理模块,用于调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;
获取模块,用于获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;所述静态词向量由开源词向量数据得到,所述动态词向量由语言表示模型获得;所述语言表示模型为ELMO模型或者BERT模型;
所述处理模块,还用于计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;
所述处理模块,还用于基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度,所述预设文本相似度算法对应的计算方法如下列公式所示:其中,wu为第一文本的所有被标识出的第一主题词对应的第一词向量集合,i为该第一词向量集合wu中的第一词向量;wt为第二文本的所有被标识出的第二主题词对应的第二词向量集合,j为第二词向量集合wt中的第二词向量,d为第一词向量和第二词向量之间的余弦相似度值;M和N分别为第一文本和第二文本的主题词个数,S为第一文本和第二文本之间的相似度;
所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词之前,包括:首先检测第一文本和第二文本对应的字符数是否小于或者等于预设字符数阈值;若检测到所述第一文本对应的字符数小于或者等于预设字符数阈值,则触发调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;若检测到所述第二文本对应的字符数小于或者等于所述预设字符数阈值,则触发调用主题词识别模型确定出第二文本对应的至少一个第二主题词的步骤;
获取初始主题词识别模型,所述初始主题词识别模型包括特征函数;基于预设特征函数对所述初始主题词识别模型中的所述特征函数进行调整;获取包括主题词标注的训练短文本,并根据所述训练短文本对所述特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型;所述初始主题词识别模型使用条件随机场算法。
6.一种服务器,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1‑5任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1‑5任意一项所述的方法。