1.一种面向公共安全领域的多源异构数据实体对齐方法,其特征在于,包括以下步骤:(1)获取公共安全多源异构数据,所述公共安全多源异构数据包括结构化数据、半结构化数据和非结构化数据;
(2)对公共安全多源异构数据进行实体识别及关系抽取,得到实体关系,每个实体关系表示为一个三元组形式;具体方式为:(201)使用双向长短期记忆网络与条件随机场相结合的模型对公共安全多源异构数据进行实体识别,具体方式为:输入单词,使用word2vec中的skip‑rgam模型生成字向量,经过BiLSTM层得到包含上下文信息的向量,再通过dropout层将向量的维度映射为维度为标签个数的向量;接入CRF层来进行标注,输出得分最高的标签序列,得到公共安全多源异构数据中多个实体的区分;
(202)对公共安全多源异构数据进行三元组(h,r,t)形式关系抽取,其中h、t分别为头实体和尾实体,r表示关系,具体方式为:对于结构化数据,使用图映射或者D2R转换将链接数据或数据库存储数据转换为三元组数据;对于半结构化数据,采用模板抽取器抽取数据得到三元组数据;对非结构化数据,采用远程监督的PCNN加注意力机制模型进行关系抽取得到三元组数据,对多个句子数据经过PCNN处理后,使用注意力机制对新的句子进行加权处理,降低噪声数据的权重,得到关系抽取结果;
(3)对公共安全多源异构数据进行属性信息提取,得到实体属性,每个实体属性表示为一个三元组形式;实体属性的三元组形式为(h,a,v),其中,h为头实体,a为属性类型,v为属性值;
步骤(3)的具体方式为:
(301)利用步骤(2)的实体识别结果,使用Jieba分词对文本进行分词,统计动词列表和停用词列表,并标注每个词的类型,利用MetaPAD对海量数据进行模式抽取,并统计模式频次,作为候选属性词;
(302)将所有候选属性词生成词典,重新对初始语料进行分词,并将所有属性词类型标记为Attribute,进行第二次模式抽取,只取与Attribute类型词有关的模式,筛除其中的文本,作为属性值;对于属性值为句子的属性,直接截取相关语句作为属性值;
(4)对步骤(3)得到的实体属性进行预处理,计算属性权重;具体方式为:(401)根据实体关系和实体属性建立第一知识库KB1,同时选取第三方知识库作为第二知识库KB2,将知识库中的数据表示为关系三元组Tr=(h,r,t)和属性三元组Ta=(h,a,v)两个集合;其中h、t分别为头实体和尾实体,r表示关系,a为属性类型;
(402)分别统计两个KB1和KB2的属性集合中各属性出现的次数,存储为二维矩阵,并将矩阵归一化;利用熵权法衡量每个属性分布,通过计算每个属性熵值与所有属性熵总和的比值获取权重值(5)训练一个知识库中实体属性的词向量,根据训练结果,得到其他知识库的词向量表示,进而得到数据集中属性值的句级别向量;实体信息词级别和句级别向量的获取方式为:采用word2vec中skip‑gram模型同时训练不同知识库中实体信息词级别向量,获取生成词向量字典;同时,通过tf_idf模型获得每个单词在文中出现的频率,作为词权重值,结合词频生成属性值句向量集合;
(6)获取实体关系邻接矩阵,使用只有前向传播的Att_GCN模型学习实体的结构信息,采用两层卷积结构的图神经网络训练实体结构向量,并加入注意力机制加强训练结果的准确性;具体方式为:(601)对实体节点和边进行编号,使用one‑hot对实体进行编码,生成GCN的节点输入;
(602)采用注意力机制,根据邻居实体获得中心实体的特征向量,将其作为模型卷积层的输入;
(603)采用前向传播方式进行卷积运算,融合关系稀疏矩阵得到实体嵌入表示;
(7)进行初步实体对齐并将结果作为对齐种子;初步实体对齐的方式为:根据实体名称向量,使用余弦相似度方法,将阈值设置为0.95到1之间,初步找到相同实体;
(8)计算实体距离打分函数;具体方式为:
(801)使用余弦相似度计算实体结构层的相似度:
f(x,y)=||x‑y||
(802)使用欧式距离计算基于属性约束的实体属性层相似度距离:
(803)综合实体结构层面和属性层面相似度,得到实体距离打分函数:
其中,wk表示属性ak的约束权重,取值范围0~1,sim(ei,ak,ej)表示候选实体对的第ak个属性的属性值vi和vj相似度,函数f(x,y)=||x‑y||表示实体结构相似度,dis(×)表示属性相似度距离,α是平衡两类嵌入重要性的超参数;
(9)根据种子对齐训练实体对齐模型;具体方式为:
将对齐种子作为正例,构造实体对负例,使用margin损失函数对模型进行训练,使正例与正例的距离小于正例与负例之间的距离;
(10)连接对齐实体对,得到对齐结果。
2.根据权利要求1所述的一种面向公共安全领域的多源异构数据实体对齐方法,其特征在于,所述步骤(10)中,采用SameAs将已对齐的实体对进行连接,进而连接知识库KB1和KB2;其中,KB1为根据实体关系和实体属性建立的知识库,KB2为第三方知识库。