1.一种基于依存句法分析与规则的实体关系抽取方法,其特征在于:包括以下步骤:S1:输入文本并进行预处理,形成数据集合;具体步骤为:
S11:输入文本;
S12:将文本整合为统一的存储格式,形成数据集合;
S2:以句号为句子的结束点将数据集合中的文本分割为多个句子,更新数据集合;具体步骤为:S21:遍历步骤S1得到的数据集合检测是否有句号,若未检测到句号则继续遍历;若检测到句号,则将句号及句号之前的成分判断为一个句子,直至遍历完成;
S22:按步骤S21得到的结果更新数据集合;
S3:遍历步骤S2得到的数据集合,通过句法分析逐句得到构成句子的成分,形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组;具体步骤为:S31:将句子分解为若干个成分,所述的成分是有意义的、不可拆分的最小语言单位,成分包括实体和节点;
S32:通过句法分析得到实体和节点的词性;
S33:根据实体和节点的词性得出句子的成分之间的依存关系,所述的依存关系满足:实体作为被依赖的结构,一个实体即为一个节点,一个节点依赖一个结构,一个节点被多个结构所依赖,被依赖的成分是支配词,依赖支配词的成分是被支配词;
S34:根据成分和成分之间的依存关系得到若干三元组,更新数据集合;
S4:通过依存句法分析确定句子的中心词;具体步骤为:
根据步骤S3得到的句子的成分确定句子的谓语动词为中心词,句子的其他成分为从属词;所述的中心词和从属词满足依存关系的公理描述:一个句子只有一个中心词;从属词直接依存某一成分;任何成分都不能依存两个或两个以上成分;若成分C在成分A和成分B之间,且成分A直接依存成分B,则成分C直接依存成分B,或者成分C直接依存成分A和成分B之间某一成分;中心词左右两边的成分相互不发生关系;
S5:检测中心词分别与句子的其他成分的依存距离,构造满足约束的依存树,得到句子的最佳依存关系;具体步骤为:S51:检测中心词分别与句子的其他成分的依存距离,若存在依存距离不相等的情况,则删去较大的依存距离对应的依存关系,直至所有成分到中心词的依存距离相等,形成满足约束的依存树;所述的依存距离是两个具有句法关系的成分在句子中的线性距离;
S52:通过依存树得到句子的最佳依存关系,更新数据集合;
S6:根据预设规则约束最佳依存关系,得到并输出句子的最佳三元组;具体步骤为:S61:根据预设规则约束最佳依存关系得到句子的最佳三元组,所述的预设规则为:将紧跟谓语动词且距谓语动词最短长度的左右两个句子成分识别为主语和宾语;若谓语动词后紧跟成分过长,则将紧跟成分再次进行句法分析直至整个句子为词距最短的三元组形式;将拥有共同主语的宾语成分作为同级目标进行整理且根据距离特征筛选出该主语的最佳三元组形式;
S62:更新数据集合并输出句子的最佳三元组;
S7:判断对数据集合的遍历是否完成,若未完成,则从步骤S3循环;若完成,则根据得到的数据集合中的每个句子的最佳三元组,输出文本的三元组的合集。