1.一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,具体按照以下步骤实施:
步骤1、收集复杂重型装备领域文本,构建语料库;
步骤2、使用步骤1获取的语料库预训练ALBert模型,得到预训练好的词表示模型ALBert;
步骤3、标注步骤1所获取语料库中的实体名称,并调整文本格式为算法读入格式,得到训练集和验证集;
步骤4、训练模型,将标注好的数据送入ALBert‑BGRU‑Attention‑CRF算法中,得到训练完成的模型;
步骤5、创建词典Dict;
步骤6、将待抽取文本输入至步骤4得到的模型中结合步骤5所构建的词典Dict,得到实体抽取结果。
2.根据权利要求1所述的一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,所述步骤1中使用网络爬虫框架Scrapy从网页中抓取有关复杂重型装备信息并保存为文本文件,将所保存文本同人工收集的已有复杂重型装备领域文档整合作为数据源;然后对数据源进行处理,剔除其中特殊符号、公式、度量单位;处理后的数据作为语料库,保存为文本文件。
3.根据权利要求2所述的一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,所述步骤2中ALBert模型以单个汉字作为输入,每个句子首字前加上开始标识[CLS],每个句子末尾加上结束标识[SEP],ALBert输出是每个输入字融合文本语义信息的表示向量,在ALBert预训练模型基础上根据数据源中的语料微调后面的连接参数,而ALBert内部训练参数不参与训练,得到微调的ALBert模型。
4.根据权利要求3所述的一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,所述步骤3中采用人工标注方式完成实体标注,标注实体采用BIO标注模式,实体首字打上B‑Type标签、实体非首字打上I‑Type标签、非实体及标点符号全部打上O标签,Type表示实体类别。
5.根据权利要求4所述的一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,所述步骤4中训练模型具体如下:步骤4.1、将步骤3中得到的训练集和验证集输入至步骤2中微调的ALBert模型中,生成词向量;
步骤4.2、将步骤4.1中生成的词向量输入至双向门控循环单元BGRU中,获取每个词在所有标签上的得分;
步骤4.3、对步骤4.2的结果使用Attention机制加权,得到每个词在所有标签上的加权得分;
步骤4.4、使用条件随机场CRF约束标签序列,减少异常序列出现概率;
步骤4.5、得到训练完成的实体抽取模型。
6.根据权利要求5所述的一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,所述步骤5具体如下:
从复杂重型装备详细信息表格中提取相关名称作为词典Dict,名称包括但不限于零部件、组合方式、产品名称。
7.根据权利要求6所述的一种基于ALBert的复杂重型装备实体抽取方法,其特征在于,所述步骤6具体如下:
步骤6.1、针对大量待抽取文本,将文本全部导入步骤4训练完成的实体抽取模型中,得到初步识别结果后,在此基础上加入步骤5所构建词典Dict进行二次抽取,得到最终实体抽取结果;
步骤6.2、针对单独句子的实体抽取,采用在线识别的方式,将待抽取句子粘贴至在线识别窗口,调用步骤4得到的模型并结合词典Dict给出抽取结果。