1.一种网络文本处理方法,其特征在于,包括:
获取网络发布的第一网络文本和第二网络文本;
计算所述第一网络文本与所述第二网络文本的相似度;
判断所述相似度是否大于预设阈值;
如果所述相似度大于所述预设阈值,则确定所述第一网络文本与所述第二网络文本存在转载关系;以及如果所述相似度不大于所述预设阈值,则确定所述第一网络文本与所述第二网络文本不存在转载关系。
2.根据权利要求1所述的网络文本处理方法,其特征在于,
获取网络发布的第一网络文本和第二网络文本包括:由第一目标网站抓取文本数据,得到第一网络文本;由第二目标网站抓取文本数据,得到第二网络文本,在获取所述第一网络文本和所述第二网络文本之后,所述方法还包括:将所述第一网络文本和所述第二网络文本存储至目标数据库,计算所述第一网络文本与所述第二网络文本的相似度包括:从所述目标数据库中取出所述第一网络文本和所述第二网络文本;计算取出的所述第一网络文本与所述第二网络文本的相似度。
3.根据权利要求1所述的网络文本处理方法,其特征在于,计算所述第一网络文本与所述第二网络文本的相似度包括:对所述第一网络文本进行分词,得到第一分词集合,对所述第二网络文本进行分词,得到第二分词集合;
统计所述第一分词集合与所述第二分词集合中相同词语的个数;
统计所述第一分词集合与所述第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及根据所述第一分词集合与所述第二分词集合中相同词语的个数和所述第一分词集合与所述第二分词集合中相同词语组合的个数计算所述第一网络文本与所述第二网络文本的相似度。
4.根据权利要求3所述的网络文本处理方法,其特征在于,根据所述第一分词集合与所述第二分词集合中相同词语的个数和所述第一分词集合与所述第二分词集合中相同词语组合的个数计算所述第一网络文本与所述第二网络文本的相似度包括:统计所述第一分词集合与所述第二分词集合中词语的总数;
计算所述第一分词集合与所述第二分词集合中相同词语的个数与所述第一分词集合与所述第二分词集合中词语的总数的比值,得到第一比值;
统计所述第一分词集合与所述第二分词集合中相同词语两两组合的总数;
计算所述相同词语组合的个数与所述相同词语两两组合的总数的比值,得到第二比值;以及通过所述第一比值和所述第二比值计算所述第一网络文本与所述第二网络文本的相似度。
5.根据权利要求1所述的网络文本处理方法,其特征在于,在确定所述第一网络文本与所述第二网络文本存在转载关系后,所述方法包括:获取所述第一网络文本的发布时间和发布网站;
获取所述第二网络文本的发布时间和发布网站;以及
如果所述第一网络文本的发布时间晚于所述第二网络文本的发布时间,则确定所述第一网络文本的发布网站转载自所述第二网络文本的发布网站,如果所述第一网络文本的发布时间早于所述第二网络文本的发布时间,则确定所述第二网络文本的发布网站转载自所述第一网络文本的发布网站。
6.一种网络文本处理装置,其特征在于,包括:
获取单元,用于获取网络发布的第一网络文本和第二网络文本;
计算单元,用于计算所述第一网络文本与所述第二网络文本的相似度;
判断单元,用于判断所述相似度是否大于预设阈值;以及
确定单元,用于当所述相似度大于所述预设阈值时,则确定所述第一网络文本与所述第二网络文本存在转载关系,当所述相似度不大于所述预设阈值时,则确定所述第一网络文本与所述第二网络文本不存在转载关系。
7.根据权利要求6所述的网络文本处理装置,其特征在于,
所述获取单元包括:第一抓取模块,用于由第一目标网站抓取文本数据,得到第一网络文本;第二抓取模块,用于由第二目标网站抓取文本数据,得到第二网络文本,所述装置还包括:存储模块,用于在获取所述第一网络文本和所述第二网络文本之后,将所述第一网络文本和所述第二网络文本存储至目标数据库,所述计算单元包括:取出模块,用于从所述目标数据库中取出所述第一网络文本和所述第二网络文本;第一计算模块,用于计算取出的所述第一网络文本与所述第二网络文本的相似度。
8.根据权利要求6所述的网络文本处理装置,其特征在于,所述计算单元包括:分词模块,用于对所述第一网络文本进行分词,得到第一分词集合,对所述第二网络文本进行分词,得到第二分词集合;
第一统计模块,用于统计所述第一分词集合与所述第二分词集合中相同词语的个数;
第二统计模块,用于统计所述第一分词集合与所述第二分词集合中相同词语组合的个数,其中,相同词语组合中的组合词语的顺序相同;以及第二计算模块,用于根据所述第一分词集合与所述第二分词集合中相同词语的个数和所述第一分词集合与所述第二分词集合中相同词语组合的个数计算所述第一网络文本与所述第二网络文本的相似度。
9.根据权利要求8所述的网络文本处理装置,其特征在于,所述第二计算模块包括:第一统计子模块,用于统计所述第一分词集合与所述第二分词集合中词语的总数;
第一计算子模块,用于计算所述第一分词集合与所述第二分词集合中相同词语的个数与所述第一分词集合与所述第二分词集合中词语的总数的比值,得到第一比值;
第二统计子模块,用于统计所述第一分词集合与所述第二分词集合中相同词语两两组合的总数;
第二计算子模块,用于计算所述相同词语组合的个数与所述相同词语两两组合的总数的比值,得到第二比值;以及第三计算子模块,用于通过所述第一比值和所述第二比值计算所述第一网络文本与所述第二网络文本的相似度。
10.根据权利要求6所述的网络文本处理装置,其特征在于,在所述确定单元确定所述第一网络文本与所述第二网络文本存在转载关系后,所述装置包括:第一获取单元,用于获取所述第一网络文本的发布时间和发布网站;
第二获取单元,用于获取所述第二网络文本的发布时间和发布网站;以及第一确定单元,用于当所述第一网络文本的发布时间晚于所述第二网络文本的发布时间时,确定所述第一网络文本的发布网站转载自所述第二网络文本的发布网站,当所述第一网络文本的发布时间早于所述第二网络文本的发布时间时,确定所述第二网络文本的发布网站转载自所述第一网络文本的发布网站。