利索能及
我要发布
收藏
专利号: 2025110561053
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种关键共性技术实体的识别方法,其特征在于,包括以下步骤:

步骤S1:获取所需领域的技术文本数据集,对技术文本数据集进行数据清洗;

步骤S2:定义技术实体类型及语义关系,并对文本提要内容进行标注形成语料库;

步骤S3:利用语料库对引入神经网络的实体关系抽取模型进行训练;

步骤S4:通过通用性、效益性、关联性进行共性度量,筛选共性技术实体;

步骤S5:借助社会网络分析测度技术实体重要性,同时结合引领性指标度量技术关键性,准确高效地识别出关键共性技术实体;

所述步骤S4包括如下步骤:

步骤S41:采用实体关系抽取模型获取技术实体语义关系五元组以构建技术主题共现矩阵;技术主题之间的共现关系指的是若同一篇技术文本同时包含两个或多个技术主题实体,则这两个或多个主题之间存在共现关系;

步骤S42:通过技术主题共现率测度技术主题的通用性,同时设定共现次数平均值为共现伙伴统计的阈值,技术共现率的计算公式为:Ri=coopi/(n‑1),式中,Ri表示技术主题i的技术共现率,coopi表示技术主题i的共现伙伴数量,n为技术主题数量;

步骤S43:以主题平均同源体系数量以及主题平均技术贡献点数量衡量技术主题的效益性;

步骤S44:以技术主题共现强度指标衡量技术主题的关联性,计算公式为:

Iij=coo(i,j)/(occ(i)+occ(j)‑coo(i,j)), ,式中,Iij表示技术主题i和技术主题j的共现强度,Ii表示技术主题i的共现强度,coo(i,j)表示技术主题i和技术主题j在技术文本中的共现频次;occ(i)和occ(j)则分别表示技术主题i和技术主题j在技术文本中各自出现的频次;

步骤S45:根据熵值法计算技术主题共性得分:

其中,SG(i)为技术主题i的共性得分,norm表示标准化,w1‑ w4为熵值法得出的共性指标权重,Ri表示主题i的技术共现率, 表示主题i平均同源体系数量, 表示主题i平均技术贡献点数量,Ii表示主题i的共现强度;

步骤S46:若技术主题i的共性得分SG(i)≥avg[SG],avg表示取平均值,则确定技术主题i为识别出的共性技术主题。

2.根据权利要求1所述的关键共性技术实体的识别方法,其特征在于,所述步骤S2中定义技术实体类型及语义关系,并对文本提要内容进行标注形成语料库,包括:步骤S21:采用bertopic主题模型对文本提要内容进行技术实体识别,基于技术实体识别结果并结合领域相关专业知识进行技术实体类型及语义关系的定义;

步骤S22:根据技术实体类型及语义关系,采用doccano数据标注平台对技术文本进行实体语义关系标注,形成包含技术文本、头/尾实体、头/尾实体类型以及语义关系的实体关系抽取模型训练语料库,将语料库按照比例划分训练集与测试集。

3.根据权利要求1所述的关键共性技术实体的识别方法,其特征在于,所述步骤S3中对引入神经网络的实体关系抽取模型进行训练,包括:步骤S31:首先对于实体关系抽取模型训练语料库中的技术文本通过BERT自带的分词器进行切分,转化为字符串序列,同时生成词表索引input_ids、注意力掩码attention_mask以及字符位置映射offset_mapping;进而将生成的词表索引以及注意力掩码通过预训练语言模型BERT生成上下文相关的词向量;

其次遍历字符位置映射offset_mapping将头/尾实体在技术文本中的字符级位置映射到字符串序列,同时将头/尾实体跨度内的所有字符串标记为相同的头/尾实体类型,生成头/尾实体边界索引位置以及头/尾实体类型的真实标签;

步骤S32:利用循环扩张卷积神经网络构建共享语义特征增强层,循环扩张卷积神经网络简称RDC模块;BERT输出的上下文相关的词向量H通过RDC模块,以捕捉长距离依赖和层次化特征,通过调整循环扩张卷积神经网络的膨胀率和填充大小,利用不同膨胀率的卷积层来提取多尺度的特征信息;

步骤S33:构建头实体解码层实现头实体识别以及头实体类型预测两项任务;头实体解码层对语义增强词向量进行解码,通过构建两个二分类分类器预测头实体起始和结束的索引位置,对技术文本X中每一个字符xi计算其作为起始和结束位置的概率,并根据设定的阈值筛选出头实体起始索引位置和结束索引位置,进而利用最近匹配原则将识别到的起始和结束的索引位置配对获得候选头实体集合;

将实体类型的预测视为多分类问题,通过在实体关系抽取模型中增加两个新的线性层来预测实体类型标签,抽取包含头实体、头实体类型、语义关系、尾实体以及尾实体类型的五元组;头实体类型预测通过调用softmax分类模型实现;

步骤S34:构建尾实体解码层,每种语义关系对应一个尾实体标注,对于识别出来的头实体,遍历所有的关系;对于语义关系集合中的某一语义关系r,将语义增强词向量和头实体特征拼接后通过一个RDC模块和线性层,为关系r解码出其尾实体的起始和结束索引位置;同时,针对尾实体类型进行预测,调用softmax分类模型,输出尾实体类型预测结果;

步骤S35:对于头实体/尾实体的起始和结束位置的预测采用二元交叉熵损失函数;对于实体类型的预测采用多分类交叉熵损失函数;

步骤S36:在实体关系抽取模型的训练过程中,通过实时监控每个Epoch的实体关系抽取损失值,并与当前最优损失值进行动态比较,获取损失值最小的模型并进行保存,在模型训练中加入早停机制,随着Epoch的增加,当实体关系抽取的损失值连续五次上升时,模型提早终止训练,并保留损失值上升前的模型;

步骤S37:选取精确率、召回率、F1三个指标评价最终保存的实体关系抽取模型的性能。

4.根据权利要求1所述的关键共性技术实体的识别方法,其特征在于,步骤S5包括:步骤S51:结合社会网络分析方法,根据技术主题共现矩阵,以技术实体类型为节点,高于共现次数平均值的共现次数为连边权重,建立技术主题共现网络;

步骤S52:以度中心性、中介中心性以及接近中心性量化技术主题的重要性,从而识别网络中地位显著的技术节点,计算公式为:DCi=ki/(N‑1)

式中,DCi、BCi、CCi分别为度中心性、中介中心性以及接近中心性;ki表示与节点i相连的边的数量, 表示经过节点i且为最短路径的路径数量,gst表示连接s和t的最短路径数量,dij表示节点i到节点j的距离,N表示技术节点数量;

步骤S53:以主题平均被引频次衡量共性技术的引领性,计算公式为:

式中, 代表主题i的平均被引频次,Mi代表主题i所属的技术文本数量,F(t)代表主题i所属技术文本t被其他技术文本引用的频次;

步骤S54:采用熵值法计算技术主题关键性得分:

其中,SK(i)为技术主题i的关键性得分,norm表示标准化,w5‑w8为熵值法得出的关键性指标权重;

步骤S55:若技术主题i的关键性得分SK(i)≥avg[SK],avg表示取平均值,则确定共性技术主题i为识别出的关键共性技术主题。

5.一种关键共性技术实体的识别系统,其特征在于,包括如下模块:

数据预处理模块:获取所需领域的技术文本数据集,对技术文本数据集进行数据清洗;

语料库形成模块:定义技术实体类型及语义关系,并对文本提要内容进行标注形成语料库;

模型训练模块:利用语料库对引入神经网络的实体关系抽取模型进行训练;

筛选共性技术实体模块:通过通用性、效益性、关联性进行共性度量,筛选共性技术实体;

识别关键共性技术实体模块:借助社会网络分析测度技术实体重要性,同时结合引领性指标度量技术关键性,准确高效地识别出关键共性技术实体;

筛选共性技术实体模块的实现包括如下步骤:

步骤S41:采用实体关系抽取模型获取技术实体语义关系五元组以构建技术主题共现矩阵;技术主题之间的共现关系指的是若同一篇技术文本同时包含两个或多个技术主题实体,则这两个或多个主题之间存在共现关系;

步骤S42:通过技术主题共现率测度技术主题的通用性,同时设定共现次数平均值为共现伙伴统计的阈值,技术共现率的计算公式为:Ri=coopi/(n‑1),式中,Ri表示技术主题i的技术共现率,coopi表示技术主题i的共现伙伴数量,n为技术主题数量;

步骤S43:以主题平均同源体系数量以及主题平均技术贡献点数量衡量技术主题的效益性;

步骤S44:以技术主题共现强度指标衡量技术主题的关联性,计算公式为:

Iij=coo(i,j)/(occ(i)+occ(j)‑coo(i,j)), ,式中,Iij表示技术主题i和技术主题j的共现强度,Ii表示技术主题i的共现强度,coo(i,j)表示技术主题i和技术主题j在技术文本中的共现频次;occ(i)和occ(j)则分别表示技术主题i和技术主题j在技术文本中各自出现的频次;

步骤S45:根据熵值法计算技术主题共性得分:

其中,SG(i)为技术主题i的共性得分,norm表示标准化,w1‑ w4为熵值法得出的共性指标权重,Ri表示主题i的技术共现率, 表示主题i平均同源体系数量, 表示主题i平均技术贡献点数量,Ii表示主题i的共现强度;

步骤S46:若技术主题i的共性得分SG(i)≥avg[SG],avg表示取平均值,则确定技术主题i为识别出的共性技术主题。

6.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1‑5中任一项所述的关键共性技术实体的识别方法的步骤。

7.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1‑5中任一项所述的关键共性技术实体的识别方法的计算机程序。