1.一种基于大数据的论文相似度检测方法,其特征在于,包括如下步骤:获取第一论文和第二论文,并获取所述第一论文的领域和第二论文的领域,其中,所述第一论文和第二论文中均包括至少一个短文本和至少一个长文本;
根据所述第一论文的领域和第二论文的领域获取所述第一论文和第二论文的相似度比例系数;
根据所述第一论文的短文本和所述第二论文的短文本,获取所述第一论文和第二论文的第一相似度;根据所述第一论文的长文本和所述第二论文的长文本,获取所述第一论文和第二论文的第二相似度;
结合所述相似度比例系数,以及所述第一相似度和所述第二相似度,获取所述第一论文和第二论文是否相似的检测结果。
2.根据权利要求1所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一论文的领域和第二论文的领域获取所述第一论文和第二论文的相似度比例系数具体为:
若所述第一论文的领域和第二论文的领域相同,则所述相似度比例系数为一个大于1的数值,若所述第一论文的领域和第二论文的领域不同,则所述相似度比例系数为1。
3.根据权利要求1所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一论文的领域和第二论文的领域获取所述第一论文和第二论文的相似度比例系数具体为:
将所述第一论文的领域和第二论文的领域输入至预设的领域知识图谱中,确定所述第一论文的领域和第二论文的领域是否相同或者相关;
若所述第一论文的领域和第二论文的领域相同或者相关,则所述相似度比例系数为一个大于1的数值,若所述第一论文的领域和第二论文的领域不同且不相关,则所述相似度比例系数为1。
4.根据权利要求1所述的基于大数据的论文相似度检测方法,其特征在于,所述结合所述相似度比例系数,以及所述第一相似度和所述第二相似度,获取所述第一论文和第二论文是否相似的检测结果具体为:
计算所述第一相似度和所述第二相似度的平均值,并计算所述平均值与所述相似度比例系数的乘积,得到所述第一论文和第二论文的最终相似度;
将所述最终相似度与预设相似度阈值进行比对,若所述最终相似度大于或者等于所述预设相似度阈值,则所述检测结果为所述第一论文和第二论文相似;若所述最终相似度小于所述预设相似度阈值,则所述检测结果为所述第一论文和第二论文不相似。
5.根据权利要求1所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一论文的短文本和所述第二论文的短文本,获取所述第一论文和第二论文的第一相似度具体为:
根据所述第一论文的短文本和所述第二论文的短文本,计算所述第一论文的和第二论文的杰卡德距离。
6.根据权利要求5所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一论文的短文本和所述第二论文的短文本,计算所述第一论文的和第二论文的杰卡德距离具体为:
获取所述第一论文的短文本和所述第二论文的短文本中的相同词组;
计算每个相同词组在短文本中的权重;
根据所述权重计算所述第一论文的和第二论文的杰卡德距离。
7.根据权利要求1所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一论文的长文本和所述第二论文的长文本,获取所述第一论文和第二论文的第二相似度具体为:
根据所述第一论文的长文本和所述第二论文的长文本,获取所述第一论文和第二论文的余弦相似度。
8.根据权利要求7所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一论文的长文本和所述第二论文的长文本,获取所述第一论文和第二论文的余弦相似度具体为:
对所述第一论文的长文本中的每个词组进行处理,得到第一词向量,并根据所述第一词向量计算所述第一论文的长文本中每个语句的第一句向量;
对所述第二论文的长文本中的每个词组进行处理,得到第二词向量,并根据所述第二词向量计算所述第二论文的长文本中每个语句的第二句向量;
根据所述第一句向量和所述第二句向量计算所述第一论文和第二论文的余弦相似度。
9.根据权利要求8所述的基于大数据的论文相似度检测方法,其特征在于,所述根据所述第一词向量计算所述第一论文的长文本中每个语句的第一句向量具体为:通过如下计算公式计算第一论文的长文本中每个语句的初始向量A:其中,T为所述语句中词组的个数,vt为所述语句中第t个词组的词向量,p(t)为所述语句中第t个词组在所述第一论文的长文本中的词频,a为预设常数;
根据计算出的初始向量A,得到向量集合,并计算所述向量集合的主成分向量;
将每个语句的初始向量A中的所述主成分向量去除,得到所述第一论文的长文本中每个语句的第一句向量。
10.一种基于大数据的论文相似度检测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑9任一项所述的基于大数据的论文相似度检测方法的步骤。