利索能及
我要发布
收藏
专利号: 2021112551950
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于数据挖掘和树状结构的河流相知识图谱反推方法,其特征在于,包括如下步骤:步骤1:分析文本内容上下文语段,获取文本内容中自定义多类实体关键词的词典列表,根据词典进行词性分析,通过词性分析动态标注命名体识别数据集,并对河流相文本进行命名体识别,提取文本中的实体,最后通过人工选择确定实体种类;

步骤2:根据提取的实体,通过教科书内关系,提取实体之间的层级关系,随后根据层级关系排除掉冗余的节点,确保每个节点的唯一性;

步骤3:根据实体和关系构建河流相知识图谱,将属性扩充到每个实体节点,同时将规则扩充到每个关系节点;

步骤4:分析河流相知识图谱,将河流相作为总节点,并且将图谱中的每一个节点,对应补充到总节点子节点,形成树状层级结构,最终确保最后一层的叶子节点具有原子性及不可分割性;

步骤5:根据树状河流构建河流相反推方法,并通过专家输入单个实体或实体组合反推出河流相层级关系的组合比率并筛选出最佳的组合;

分析文本内容上下文语段,获取文本语句中自定义多类实体关键词的词典列表,并整合成词典列表数据集ER={er1,er2,er3,er4},其中,er1表示河流相节点为起始定点,er2表示为亚相节点为次起始节点,er3表示为微相节点及为第三层节点,最后er4表示最小的物质节点;

紧接着,使用余弦相似度测量,将给定的词典列表数据集在大型文本语料库进行文本挖掘,确定实体关键词的语义接近度与词向量;ern在词向量中表示为vcn=(B‑vcn,I‑vcn),其中B‑vcn代表多属性元组在词向量空间的开头位置,I‑vcn代表多属性元组在词向量空间中间位置,并利用正则表达式扩充ern属性元组与英文字符[A‑Z]以及数字字符[0‑9]的表现形式;

余弦相似度cos(θ)值计算表达式如下:

式中,vci表示在总数m为个词向量中的第i个词向量变量,wci表示在总数为m个文本句短语词向量中的第i个文本句短语词向量变量;当余弦相似度cos(θ)值为1时,表示能够在vci所对应的实体关键词词典列表中找到wci所对应的文本语料库所需要的词语,从而实现实体关键词词典列表的挖掘;

实体关键词词典列表经过文本语料库挖掘后,再对文本内容进行抽取相关内容从而生成非结构化多分类文本;

进一步地,将非结构化多分类文本的文本语句与ern进行分类匹配,若文本语句无法匹配ern,则表示为O;

将ern中所有多分类结构子集匹配对应的文本语句实体集合表示为ERn={B‑ern,O,I‑ern},从而生成带有标签BIO的训练数据集;

进一步地,将crf作为BiLSTM的输出层,对于每个输入标签ERn终会得到与之对应的输出标签PLn,预测输入ERn的连续正确的概率为Score(ERn,PLn),Score(ERn,PLn)的表达式如下:式中,R表示训练数据集中总数为R个标签, 为对于第i个输入标签ERi输出为PLi的概率,A(PLi,PLi+1)为从PLi到PLi+1的转移概率;

式中, 表示预测第i个输入标签ERi的连续正确概率的指数值, 表示为对

于第i个输入标签ERi,得到错误的输出标签率, 表示错误预测输入标签ERi的连续概率的指数值;

最终输入河流相文本文件,批量识别出物质信息,加上专家补充和去错形成一份完备的河流相实体数据集。

2.根据权利要求1所述的基于数据挖掘和树状结构的河流相知识图谱反推方法,其特征在于,步骤2的具体过程如下:通过事件触发器来初步判定存在关系的句子,首先确定事件触发

trigger={t1,t2,t3,.....tn},还需要设置触发词的对应事件触发要素argument={a1,a2,a3,.....an}及一个事件触发词包含多个事件触发要素,这样能够初步筛选出含有关键关联信息句子;

紧接着对实体数据集进行关系定义,

Relationship={er1,r1,er2,er3,r2,er4,...ern,rn,ern+1},n>1,其中ern代表实体数据集中第n个实体,ern+1代表实体数据集中第n+1个实体,rn代表关联ern和ern+1的第n个关系;

随后利用关系抽取中门循环单元这个典型循环神经网络模型;

t

在河流相文本信息关联信息句子中,有一个当前的输入x,和上一个节点传递下来的隐t‑1 t t‑1状态h ,这个隐状态包含了之前节点的相关信息;结合x 和h ,GRU会得到当前隐藏节点t的输出y和传递给下一个节点的隐状态ht;

t‑1 t

首先通过上一个传输下来的状态h 和当前节点的输入x来获取两个门控状态,计算表达式如下:r t‑1 t

r=δ(w[h ,x])

式中z为控制更新门,δ为sigmoid函数,通过这个函数将数据变换为0‑1范围内的数值,t‑1 z从而来充当门控信号;h 为上一个传输下来的状态,xt为当前输入的节点,w 为相应的权重t‑1 t t‑1 t矩阵,[h ,x]将h 和x按行叠加起来;当得到门控信号之后,首先使用重置门控来得到重置之后的数据,计算表达式如下:t‑1′ t‑1

式中h  为在将要传递到一下时刻上含有的信息,h 为上一个传输下来的状态, 为Hadamard Product,也就是操作矩阵中对应的元素相乘,因此要求两个相乘矩阵是同型,r为重置门;最后将存储信息进行更新记忆;在这个阶段,同时进行了遗忘和记忆两个步骤,使用先前得到的更新门z,更新数据表达式如下:t t‑1

式中h表示时间t时隐藏层的状态,z为更新门,h 为上一个传输下来的状态, 为操作矩阵中对应的元素相乘,(1‑z)代表输入门,h′为传递到下一时刻存储的状态信息;其中t‑1表示对原本隐藏状态的选择性遗忘,简单来说就是在这里的z中,忘记h 维度中一些不重要的信息,其中 表示对包含当前节点信息的h′进行选择性记忆;

随后输入河流相文本文件,批量识别出物质之间信息关系,加上专家补充细小的实体之间关系并且去除形重复的实体节点,最终形成一份完备的河流相实体及关系数据集。

3.根据权利要求1所述的基于数据挖掘和树状结构的河流相知识图谱反推方法,其特征在于,步骤3的具体过程如下:根据河流相实体及关系数据集,将实体数据集ER和关系数据集进行融合,形成一份完整的数据‑关系‑数据,实体图数据集共计208个实体节点,316条链接关系,将河流相亚相类别er2分成四大类曲流河,辫状河,平直河,和网状河。

4.根据权利要求1所述的基于数据挖掘和树状结构的河流相知识图谱反推方法,其特征在于,步骤4的具体过程如下:将河流相知识图谱结构化,转换成树状结构,首先去除边上信息,只保留结构信息,在树状结构中进行扩充;

首先定义河流相为父类节点,其次曲流河,辫状河,平直河,和网状河为父节点的子节点,在曲柳河中我们将曲柳河看做子树父节点,同时定义河道,边滩,串沟,天然堤,堤岸,决口扇,泛滥平原,蛇曲河流和牛轭湖为曲流河的子类节点,即为总数第三层节点,子树第二层节点;在河道中最后的叶子节点即为最小的不可分割的原子节点为植物树干,透镜体,砾石,砂,叠瓦构造,交错层,粗屑物质,粗的砾级物质;在边滩中,定义子类节点分别为粗边滩和细边滩,粗边滩的叶子节点为,砾石,砂,平行层理,薄层前积交错层理,厚层前积交错层理,薄层前积交错层理,小型槽状交错层理,大型槽状交错层理或块状层理,透镜状;细边滩的叶子节点为小型沙纹层,小型槽状层,平行层理,大型板状交错层理,平行层理,大型槽状层理,砾石,粉砂质;同时最后的叶子节直接链接边滩节点为砂石,大、中型流水层理,冲刷面,小型沙纹层理,大型侧向加积构造,滞留砾石,粗粒砂,中‑细粒砂,细粒砂,细砂或粗粉砂,冲刷面,含砾粗砂岩,中粒砂岩,薄层粉砂岩,砂岩,粉砂岩,大型槽状交错层理,平行层理,板状层理,沙纹层理,小型板状前积交错层理,水平层理,含砾粗砂岩,砾砂岩,大型前积交错层理,砂质透镜体,含砾砂岩,前积交错层理,泥岩透镜体,中‑粗粒砂岩,大型板状前积层系,泥岩透镜体,前积层,粉砂质泥岩,砾质粗砂岩,大型前积交错层理;在串沟的子节点也为叶子节点中分别为:粗‑中屑物,透镜体,泥质,滞留沉积物,透镜体;在天然堤的子节点也为叶子节点中分别为:钙质结核,角砾构造,小的褶皱与断层;在堤岸的子节点也为叶子节点中分别为:悬移载荷,粉砂岩,泥岩,粉砂质岩和泥质岩的薄层状互层,小型沙纹层理,水平纹层,干裂,植物根,虫孔;在决口扇的子节点也为叶子节点中分别为:细砂岩,粉砂岩,中型交错层理,小型交错层理,冲刷构造,充填构造,粒序层理;在泛滥平原中岸后沼泽和河漫湖泊为子类节点,细粉砂‑泥质,钙质结核,水平层理,小型沙纹层理,上叠沙纹层理,泥裂和虫迹为直接与泛滥平原相链接的叶子节点;在岸后沼泽的叶子节点为泥炭层,淡水湖生物;河漫湖泊的叶子节点为粉砂岩,泥质岩,水平纹层,断续状的沙纹层理,钙质结核,铁质结核;蛇曲河流的叶子节点为沙纹层理,泥,粉砂;在牛轭湖中的叶子节点为粉砂岩,泥岩;

同理定义河心滩,心滩为辫状河的子节点,在以河心滩为父节点的子树中,纵向砂坝,横向砂坝,斜砂坝为子节点,即为总数第三层节点,子树第二层节点;其中纵向砂坝的叶子节点为叠瓦构造,砾石,粗砂,再作用面构造,沙纹构造,块状;在横向砂坝中叶子节点为砾,砂,交错层,块状;斜砂坝的的叶子节点为砾石,砂质叶状体,砾石席状体,砾石层,砂,叠瓦构造,块状构造,平行层理,交错层,沙纹;心滩的叶子节点为砂体,大型槽状交错层理,大型楔状交错层理,板状交错层理,冲刷面,逆行沙纹层理;平直河的叶子节点为冲坑,浅滩;网状河只有唯一的节点,无子节点和叶子节点;

最终形成一份主要的河流相结构树状图,其中任何一个节点都能通过遍历找到其父类节点和平层的兄弟节点及所对应的子节点或者叶子节点。

5.根据权利要求1所述的基于数据挖掘和树状结构的河流相知识图谱反推方法,其特征在于,步骤5的具体过程如下:通过专家输入组合词组来推断其父类节点,并且推断出所有组合路线,同时计算出多种组合中最佳的路径组合,利用树状结构中所含词语出现的频率进行加权处理,当输入单词组合中全部在树形结构中出现时则最大比值为1,其最终词频F表达式为:F=tf(d,w)*idf(w)

式中tf(d,w)是每一个子树d中词语w的词频,也就是词语出现的次数;

做词频标准化,其表示为:

tf(d,w)=w/d

式中w为在子树d中出现的次数,d为子树的总词语数;idf(w)是逆子树频次,则idf(w)表示为:idf(w)=log(N/N(w))

式中N是树状结构所有的总子树,N(w)是包含词语w的子树数总和;这样能够一层层计算出输入单词在所含子树的概率和在总子树的概率,同时将筛选出的父类节点再次进行词频分析,进一步推出其父类节点。