利索能及
我要发布
收藏
专利号: 202110818775X
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:

步骤1:根据最低流量限制和期望下载时间的预期值,利用RPA分布式读取网站中包含有关沉积学内容的文件进行下载;

步骤2:根据机器视觉,识别步骤1中下载的文件,从而获取内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到文档的物理结构和逻辑结构,并对文本内容进行识别;

步骤3:分析文本内容上下文语段,获取文本内容中自定义多类实体关键词的词典列表;

步骤4:利用步骤2获取的文本内容和步骤3获得的词典列表,采用余弦相似度测量分析技术,根据实体关键词种类,对文本内容中相同词性的实体关键词进行识别,生成非结构化多分类文本;

步骤5:利用步骤4输出的非结构化多分类文本,对分类的实体分别进行多路匹配,记录实体标签属性,生成大样本训练数据集;

步骤6:针对步骤5生成的大样本数据集,利用BiLSTM结合CRF进行NER预训练,实现对步骤2文档中可读性文本内容进行实体识别,从而根据上下文筛选实体关键词;

将CRF作为BiLSTM的输出层,对于每个输入标签ERn终会得到与之对应的输出标签PLn,预测输入ERn的连续正确的概率为Score(ERn,PLn),Score(ERn,PLn)的表达式如下:式中,R表示训练数据集中总数为R个标签, 为对于第i个输入标签ERi输出为PLi的概率,A(PLi,PLi+1)为从PLi到PLi+1的转移概率;

求出所有输入标签ERn的连续正确概率Score(ERn,PLn),利用维特比算法对输入标签ERn及输出标签PLn进行概率归一化处理P(PLn|ERn),从而完成与训练并挖掘文本数据,其中概率归一化处理P(PLn|ERn)表达式如下:式中, 表示预测第i个输入标签ERi的连续正确概率的指数值, 表示为对于第i个输入标签ERi,得到错误的输出标签概率, 表示错误预测输入标签ERi的连续概率的指数值。

2.根据权利要求1所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:所述步骤1包括:当任务请求网络服务系统进行文件下载时,网络平台产生一条访问请求记录,该记录包含本地网络IP地址和期望下载时间,利用RPA的无侵入特性接入通讯系统提供对相关沉积学研究内容热点进行交叉访问,将多路IP地址交叉复制到服务器中;

当服务器在任意时段收到一个下载请求时,计算出单个下载任务响应时间T为:

T=tdeparture‑tarrival;

式中,tdeparture代表请求到达时间,tarrival代表请求完成时间,其中单个下载任务响应时间T的指数随机变量为e.r.v,e代表在单个下载任务响应时间T下所期望下载时间的预期值,r代表服务器下载流量占总带宽的比例,v代表下载热点的速度;

当下载请求申请成功,对下载热点进行交叉访问时,对任意一段时间x≤TimeN≤y内进行下载请求,下载请求的响应时间为βn,因此,下载请求的最小响应时间β(x,y)的表达式为:式中,x为最低下载时间,y为最高下载时间,TimeN为在此时间段内的任意下载时间;

在单个下载任务响应时间T下所期望下载时间的预期值E[T(r,t)]的表达式为:式中,β(t+1,1/r)代表在t+1的时间到1/r的时间内的最小响应时间,μ表示在不同的下载请求指令和服务器之间的响应速率,E[T(r,t)]与e均代表在单个下载任务响应时间T下所期望下载时间的预期值;

选择满足预期值E[T(r,t)]的服务IP地址进行多路下载。

3.根据权利要求1所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于,关于对文本内容进行识别的具体内容为:利用机器视觉识别文档,在文档中(xnn,ynn)代表字符左上角坐标、(xnm,ynm)代表字符右下角坐标;在物理结构中(xmn,ymn)代表字符左上角坐标,(xmm,ymm)代表字符右下角坐标;计算字符之间的间距面积Xoverlap和物理设定的阈值面积Yoverlap的表达式如下:Xoverlap=max(0,min(xnm,xmm)‑max(xnn,xmn));

Yoverlap=max(0,min(ynm,ymm)‑max(ynn,ymn));

式中,min(xnm,xmm)代表选取字符边框的左上角坐标最小值,max(xnn,xmn)代表选取字符边框的右下角坐标最大值,min(xnm,xmm)‑max(xnn,xmn)代表字符边框对角线值;min(ynm,ymm)代表选取字符物理结构边框的左上角坐标最小值,max(ynn,ymn)代表选取字符物理结构边框的右下角坐标最大值,min(ynm,ymm)‑max(ynn,ymn)代表字符边框对角线值;

根据Xoverlap和Yoverlap从而得到最大字符结构化区域面积Soverlap,表达式如下:Soverlap=Xoverlap×Yoverlap;

由于字符结构化面积Soverlap小于物理结构面积,比较重叠面比例Ratiooverlap将文字进行聚类,将单词聚类为句子,句子组成为段落,从而读取文本内容,其中重叠面比例Ratiooverlap将表达式如下:式中,xnn代表文档中字符左上角的x轴坐标,xnm代表文档中字符右下角的x轴坐标,ynn代表文档中字符左上角的y轴坐标,ynm代表文档中字符右下角的y轴坐标。

4.根据权利要求1所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:所述步骤3包括:分析文本内容上下文语段,获取文本语句中自定义多类实体关键词的词典列表,并整合成词典列表数据集ER={er1,er2,...,erN},其中,er1表示第一个种类的实体关键词词典列表,er2表示第二个种类的实体关键词词典列表,erN表示第N个种类的实体关键词词典列表;

实体关键词词典列表的种类记录是一个多属性元组,ER中第n个种类的实体关键词词典列表的元组表示为ern=(timn,geon,natn,orgn,pern),其中1≤n≤N,其中timn代表实体关键词存在时间,geon代表所发现实体关键词的地理位置,natn代表ern中对应的实体关键词名称,orgn代表发现实体关键词的组织,pern代表该实体关键词的发现者。

5.根据权利要求4所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于:所述步骤4包括:利用大型文本语料库计算文本内容和术语之间的关系概率,设定意义相同的词为同种词性;

使用余弦相似度测量,将给定的实体关键词词典列表在大型文本语料库进行文本挖掘,确定实体关键词的语义接近度与词向量;ern在词向量中表示为vcn=(B‑vcn,I‑vcn),其中B‑vcn代表多属性元组在词向量空间的开头位置,I‑vcn代表多属性元组在词向量空间中间位置,并利用正则表达式扩充ern属性元组与英文字符[A‑Z]以及数字字符[0‑9]的表现形式;

余弦相似度cos(θ)值计算表达式如下:

式中,vci表示在总数m为个词向量中的第i个词向量变量,wci表示在总数为m个文本句短语词向量中的第i个文本句短语词向量变量;当余弦相似度cos(θ)值为1时,表示能够在vci所对应的实体关键词词典列表中找到wci所对应的文本语料库所需要的词语,从而实现实体关键词词典列表的挖掘;

实体关键词词典列表经过文本语料库挖掘后,再对文本内容进行抽取相关内容从而生成非结构化多分类文本。

6.根据权利要求5所述的基于NLP信息萃取与词性规则的沉积学文献挖掘方法,其特征在于,所述步骤5包括:将非结构化多分类文本的文本语句与ern进行分类匹配,若文本语句无法匹配ern,则表示为O;

将ern中所有多分类结构子集匹配对应的文本语句实体集合表示为ERn={B‑ern,O,I‑ern},从而生成带有标签BIO的训练数据集。