利索能及
我要发布
收藏
专利号: 201810914450X
申请人: 桂林电子科技大学
专利类型:发明专利
专利状态:无效专利
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于神经网络的实体关系抽取方法,其特征在于,通过构建神经网络模型抽取实体,再用分类算法对模型抽取的实体进行分类,完成实体关系的抽取,具体包括如下步骤:

1)对训练集预处理:

1‑1)将训练集的文本以及文字进行分割,达到字与字之间分开的效果;

1‑2)将分开的字转换成字典,每个字都有对应的数字ID;

1‑3)将训练集的句子每个字都转换成相应的字典ID,形成句子向量;

1‑4)经过上述步骤处理后得到的数据输入模型的编码层;

2)训练实体抽取模型:

2‑1)将步骤1)得到的句子向量送入神经网络的Embedding层进行编码;

2‑2)接收来自步骤1‑3)的处理数据,将其置入bilstm层完成双向长短记忆特征训练,经过反复timestep后的训练得到一组数据权重;

2‑3)将步骤2‑2)得到的数据,转送到CRF层对数据进行约束,提高分类精度;

2‑4)重复进行上述步骤将模型训练到精确度最高的情况,得到实体抽取模型;

2‑5)将文本输入实体抽取模型中,抽取实体;

3)关系分类:

3‑1)将步骤2‑5)抽取到的实体进行向量转化操作,将其变成可以被计算机识别的特征向量;

3‑2)接收步骤3‑1)后处理的特征向量,对接收到的特征向量进行PCA降维,转化成空间坐标(a,b)的形式;

3‑3)对空间坐标做KNN分类,找到最近的关系点;

经过上述步骤,完成实体关系的抽取。

2.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,步骤1‑

1)中,所述分割,是将文本转化为相应的标签文本:B‑PER I‑PER B‑ORG I‑ORG B‑LOC I‑LOC;其中B‑PER表示人名开始符号,I‑PER表示人名后缀符号,B‑ORG表示组织名开始符号,I‑ORG表示组织名后缀符号,B‑LOC表示位置开始符号,I‑LOC表示位置后缀符号。

3.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,步骤2‑

1)中,所述的神经网络为循环神经网络。

4.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,所述步骤2),需要满足以下环境:

a、python环境python>=3.5,b、keras神经网络模块>=2.14,c、tensorflow>=1.40,d、numpy以及py5d模块组件。

5.根据权利要求1所述的一种基于神经网络的实体关系抽取方法,其特征在于,步骤2‑

4中,所述的实体抽取模型,输入的为中文txt样本,输出的为标签块。