利索能及
我要发布
收藏
专利号: 2024108871663
申请人: 吉林师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于数据分析的英语文本数据处理方法,其特征在于,包括以下步骤:

S1,获取目标对象检索后的浏览数据和未浏览数据,所述浏览数据为检索后浏览的英文文献、文献浏览时间和文献下载记录;所述未浏览数据为检索后未浏览的英文文献集合;

S2,根据所述浏览数据确定目标文本,提取目标文本中的摘要文本并进行预设信号词进行检索,得到该摘要文本中所有预设信号词位置,获取所有包含预设信号词之后的文本信息,并将所述文本信息标定为结论文本,得到若干结论文本;获取该摘要文本中若干结论文本并通过自然语言处理技术对若干结论文本进行整合得到综合结论文本;

S3,对未浏览数据进行文本分析得到若干摘要文本,依次选取任一摘要文本与综合结论文本进行文本查重计算,得到若干文本查重值并标记为X1,X2,...,XN,根据所述文本查重值按从大到小的方式对未浏览数据进行排序并根据排序结果对目标对象进行未浏览数据推荐;

文本查重计算的具体过程为:

分别将摘要文本和所述综合结论文本按字符顺序转化为两组ASCII码值;对每个字符利用周围字符的ASCII码值表示其特征;利用自编码器对每个字符点的特征进行降维处理;

对降维后的特征利用Jaccard相似值系数计算两段文本间的相似值;

文本查重值的计算公式为: ;

其中,A为综合文本的特征集合,B为任一未浏览数据对应摘要文本的特征集合,J为相似值;

若存在若干目标文本,则选取任一未浏览数据对应的摘要文本依次与若干目标文本对应的综合结论文本进行总文本查重计算,根据总文本查重值按从大到小的方式对未浏览数据进行排序并根据排序结果对目标对象进行未浏览数据推荐;

总文本查重值的计算过程为: ;

其中,Ai为任一目标文本对应综合结论文本的特征集合,B为任一未浏览数据对应摘要文本的特征集合,J'为总文本查重值,Wai为目标文本Ai对应综合文本的推荐分数,n为目标文本的数量。

2.根据权利要求1所述的一种基于数据分析的英语文本数据处理方法,其特征在于,所述S1中,还包括:根据目标对象输入的检索词对文献数据库进行筛选,得到检索数据,根据英文文献的发表顺序、文章标题与检索词的相关度、影响因子对检索数据进行排序。

3.根据权利要求1所述的一种基于数据分析的英语文本数据处理方法,其特征在于,所述S2中,目标文本的确定过程为:获取任一浏览文献的文献浏览时间t和文献下载记录N,若N大于0,则根据计算公式W=b*t*d,b、d为预设系数且b小于d,计算得出所有浏览文献的推荐分数W;若N等于0,则根据计算公式W=b*t,计算得出所有浏览文献的推荐分数;若存在任一浏览文献的推荐分数W大于等于预设阈值,则将该浏览文献标定为目标文本。

4.根据权利要求1所述的一种基于数据分析的英语文本数据处理方法,其特征在于,所述S2中,若所述摘要文本中不存在预设信号词,则从所述摘要文本中提取预设部分的文本信息,将所述文本信息作为所述摘要文本中的结论文本。

5.根据权利要求1所述的一种基于数据分析的英语文本数据处理方法,其特征在于,所述S2中,综合结论文本的具体生成过程为:依次对若干结论文本进行预处理,所述预处理包括去除停用词、词性标注、短语提取;

利用语义网络技术构建结论文本之间的语义关系图,根据语义关系图使用NLP技术将若干结论文本整合成一个综合的结论文本。

6.根据权利要求1所述的一种基于数据分析的英语文本数据处理方法,其特征在于,所述S3中,还包括对若干摘要文本进行预处理,具体过程为:依次对任一摘要文本进行预设信号词检索,得到该摘要文本中所有预设信号词位置,获取包含所有预设信号词之后的文本信息,并将所述文本信息标定为结论文本,获取该摘要文本中若干结论文本并通过自然语言处理技术对若干结论文本进行整合得到综合结论文本。