1.基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于包括以下步骤:
步骤1:对原始文本数据进行预处理,利用正则表达式去除文本中的无意义字符,确保文本中前后引号完整匹配,对处理后的文本数据逐字符分词,并在分词结果的开头和结尾处添加[CLS]和[SEP]标识符,若以批量形式输入文本数据,则需确保每条文本数据长度一致,长度较短的文本数据使用[PAD]标识符来填充;
步骤2:将经过预处理的文本数据输入预训练语言模型,文本数据逐字符分词结果T={t1,t2,..,tN}被转化为稠密实数字向量Z={z1,z2,..,zN};
步骤3:将步骤2得到的字向量分别输入两个由单层前馈神经网络构成的二分类器,预测字向量zi是否为地理实体或空间关系特征词的开头或结尾,两个二分类器的预测结果分别被记录在POSstart和POSend索引集合中,并按照索引升序排序,POSstart=GeLU(WstartZ+bstart),POSend=GeLU(WendZ+bend)
基于字向量Z={z1,z2,..,zN}、POSstart和POSend索引集合,按照就近原则选取一对开始和结束索引[i,j],并通过最大池化方法融合Z中zi到zj的字向量,生成字符跨度表示;
步骤4:将步骤3中生成的字符跨度表示输入由单层前馈神经网络构建的实体识别器,预测该字符跨度表示的实体类型,
S[i‑j]=Max([zi;zi+1;…;zj])
Entity Class=softmax(WentityS[i‑j]+bentity)
实体类型包括具体地理实体类型、空间关系特征词或 代表该字符跨度表示不属于任何地理实体或空间关系特征词类型;
步骤5:依据文本中地理实体的预测结果,模型自动在源文本数据开始、结束位置前后添加地理实体标记,同时更新空间关系特征词在源文本数据中的开始与结束位置信息,地理实体标记添加完毕之后,新生成的文本数据输入到另一个预训练语言模型中,生成对应的文本字向量,模型通过平均池化方法融合开始与结束标记的字向量来表示地理实体,通过最大池化方法融合所属字向量来表示空间关系特征词;
步骤6:模型以组合的形式来匹配地理实体,构成候选地理实体对集合,选取集合中任意一对地理实体,以及空间关系特征词所对应的字向量表示,并将上述字向量表示进行拼接处理;通过自注意力机制将拼接后的向量表示融合为文本特征向量;将文本特征向量输入到用于空间关系分类的前馈神经网络中,依据前馈神经网络输出的概率信息判定地理实体间的空间关系,S=concat(SEntity‑sub;SEntity‑obj;SFeatureword_1;…;SFeatureword_p)Relation Class=softmax(WrS′+br)。
2.根据权利要求1所述的基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于,基于大规模的地理学领域文本数据,预训练语言模型通过自监督学习方法从文本数据中学习语法规则和挖掘隐含语义,以字符粒度分割的文本数据作为输入,模型从字符本身、位置和语义三方面编码文本数据,生成字向量矩阵,矩阵的维度分别为预训练语言模型设置的输出维度大小和输入文本字符长度。
3.根据权利要求1所述的基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于,空间关系抽取流程中,地理实体识别和空间关系分类两项子任务中使用独立的两个预训练语言模型,在模型训练过程中,两个预训练语言模型互不影响,可独立地更新参数,从而更好地生成符合子任务要求的字向量表示,预训练语言模型生成文本数据T的字向量表示Z可表示为Z=BERT(T),T={t1,t2,..,tN},Z={z1,z2,..,zN},N表示文本数据每条样本中字符的数量。
4.根据权利要求1所述的基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于,由单层前馈神经网络构成的二分类器,两个二分类器分别用于预测文本数据中地理实体、空间关系特征词的开始与结束位置,二分类器以预训练语言模型生成的字向量表示为输入,输出仿射运算和GeLU激活函数计算结果,并根据设置的阈值和输出结果来判定当前字符是否为地理实体或空间关系特征词的开始或结束位置,上述过程可以通过公式表述为POSstart=GeLU(WstartZ+bstart),POSend=GeLU(WendZ+bend),if POSstart>δthen 1 else 0。
5.根据权利要求1所述的基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于,基于池化方法融合开始和结束索引之间的字向量表示来生成字符跨度表示,最大池化方法充分顾及每个字向量的各个维度,选取作为每一维度的最大值融合为最终字向量表示;平均池化方法注重边界字向量的特征,地理实体边界标记字向量通过平均求和的方式来表示地理实体,模型进而更好地学习实体的边界特征和类型特征,两种池化方法具体地可以表示为S[i‑j]=Max([zi;zi+1;…;zj])和
6.根据权利要求1所述的基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于,模型通过拼接地理实体和空间特征词的字向量形成文本特征矩阵,基于自注意力机制,通过参数Wq、Wk和Wv分别生成查询矩阵Q、键矩阵K和值矩阵V,然后利用softmax函数进一步融合上述三类矩阵,生成指定维度大小的文本特征向量。