1.一种用于版权认证的文本相似性分析方法,其特征在于,包括:
获取原创的第一文本内容和被诉侵权的第二文本内容;
对所述第一文本内容进行特征提取,生成文本特征向量;
利用预先训练的向量匹配模型根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本编辑文本以及与样本编辑文本对应的样本原始文本;
利用预先训练的编辑规律模式确定模型根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式;
根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
2.根据权利要求1所述的文本相似性分析方法,其特征在于,所述对第一文本内容进行特征提取,生成文本特征向量,包括:提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各类别词组的词频,根据词组类别和各类别词组的词频生成文本特征向量。
3.根据权利要求2所述的文本相似性分析方法,其特征在于,所述提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各类别词组的词频,包括:对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行归类,确定每个词组的属性类别,并对每个属性类别的词组进行词频统计。
4.根据权利要求3所述的文本相似性分析方法,其特征在于,对每个词组进行归类,确定每个词组的属性类别,具体包括:构建词组属性分类表,所述词组属性分类表包括词组属性类别以及对应该类别的词组语义,对每个词组进行语义识别,确定所述词组的词组属性类别。
5.根据权利要求4所述的文本相似性分析方法,其特征在于,在对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行语义识别之后,还包括:对语义识别后的多个词组进行去停用词过滤去噪,滤除所述多个词组中包含的噪音词组。
6.根据权利要求5所述的文本相似性分析方法,其特征在于,所述利用预先训练的向量匹配模型根据所述文本特征向量将所述第一文本内容与样本库中的样本进行匹配,包括:预先训练神经网络模型,生成向量匹配模型,并利用所述向量匹配模型,计算第一文本内容的所述文本特征向量与所述样本库中的样本原始文本的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文本作为目标样本原始文本。
7.根据权利要求6所述的文本相似性分析方法,其特征在于,所述利用预先训练的编辑规律模式确定模型根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式,包括:计算所述目标样本原始文本与对应的样本编辑文本的文本特征向量,根据目标样本原始文本与对应的样本编辑文本的文本特征向量中的同类词组的词组频率的一致性,确定所述编辑规律模式。
8.一种用于版权认证的文本相似性分析系统,其特征在于,包括:
文本获取模块,用于获取原创的第一文本内容和被诉侵权的第二文本内容;
文本特征向量生成模块,对所述第一文本内容进行特征提取,生成文本特征向量;
向量匹配模块,用于根据所述第一文本内容的文本特征向量将所述第一文本内容与样本库中的样本进行匹配,获取目标样本;
编辑规律模式确定模块,用于根据所述目标样本的样本原始文本与对应的样本编辑文本之间的文本特征一致性,确定编辑规律模式;
文本相似性判断模块,用于根据所述编辑规律模式,判断所述第二文本内容是否符合所述编辑规律模式,如果符合则判定文本相似。
9.根据权利要求8所述的文本相似性分析系统,其特征在于,文本特征向量生成模块,具体用于:提取所述第一文本内容中的词组,对所述词组进行属性分类,统计各属性类别词组的词频,根据词组属性类别和各类别词组的词频生成文本特征向量。
10.根据权利要求9所述的文本相似性分析系统,其特征在于,所述编辑规律模式确定模块,具体用于:计算所述目标样本原始文本与对应的样本编辑文本的文本特征向量,根据目标样本原始文本与对应的样本编辑文本的文本特征向量中的同类词组的词组频率的一致性,确定所述编辑规律模式。