利索能及
我要发布
收藏
专利号: 2020105159414
申请人: 南京师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种动作描述自然文本的形式化编码方法,其特征在于该方法包括:

(1)读取动作描述自然文本,并划分成句子,存入句子集合L={li|i=0,1,…,n-1},n为句子数量;

(2)从L中任取一个句子li,进行分词得到词语集合W={wk|k=0,1,2…,m-1},并进行词性标注得到词性集合P={pk|k=0,1,2…,m-1},其中,wk为具有意义的单一词语,pk为W中元素wk对应的词性,m为句子li中的词语数量;

(3)基于集合W和P,进行依存句法分析,得到依存关系集合Rel={(rk,wk,hk)|k=0,1,

2…,m-1},其中rk为wk的关系词,hk为wk的父节点词;

(4)基于集合Rel,抽取出句子li的主要成分,存入成分三元组集合E={(aj,bj,cj)|j=

0,1,…,en-1},其中,(aj,bj,cj)为成分三元组,en为可抽取出成分三元组的数量,aj,bj,cj分别表示由li抽取出的第j个成分三元组中的部位描述、变换描述和范围描述;

(5)遍历集合E,若存在成分三元组的部位描述或变换描述在字典中无匹配结果,则将该描述改为字典中存在匹配结果的最接近描述;

(6)基于字典匹配方法,将成分三元组集合E中各成分三元组进行形式化编码,存入li的五元组集合Mi={(caj,crbj,cbj,ccj,tj)|j=0,1,…,en-1}中,其中,(caj,crbj,cbj,ccj,tj)为五元组,caj,crbj,cbj,ccj,tj分别表示五元组中的部位编码、变换矩阵编码、平移变换或旋转变换编码、变换范围值和持续时间值;

(7)循环执行步骤(2)-(6),直至L中全部句子处理完毕,得到动作描述自然文本的形式化编码集合F={Mi|i=0,1,…,n-1}。

2.根据权利要求1所述的动作描述自然文本的形式化编码方法,其特征在于:步骤(1)具体包括:(1-1)读取动作描述自然文本,剔除文本中的空格字符,并统一句子分隔符转换为句号;

(1-2)基于句号对动作描述自然文本进行切分,形成句子集合L={li|i=0,1,…,n-

1}。

3.根据权利要求1所述的动作描述自然文本的形式化编码方法,其特征在于:步骤(3)具体包括:(3-1)针对集合W和P,采用依存句法分析方法,得到关系集合A={(qk,rk)|k=0,1,2…,m-1},其中rk为wk的关系词,qk为W中与wk构成关系rk的元素在集合W中的索引位置;

(3-2)根据依存句法分析返回的动词,将集合A中对应元素的qk设为0,其余元素的qk值加1;

(3-3)遍历关系集合A,若qk为0,则将字符串‘Root’添入父节点词语集合H;否则,将W中qk-1位置的元素添入H,得到父节点词语集合H={hk|k=0,1,2…,m-1};

(3-4)将集合A中rk、W中的wk、H中的hk组成元素(rk,wk,hk),存入集合Rel={(rk,wk,hk)|k=0,1,2…,m-1}中。

4.根据权利要求1所述的动作描述自然文本的形式化编码方法,其特征在于:步骤(4)具体包括:(4-1)从依存关系集合Rel中,分别筛选出关系词rk的值为‘SBV’、‘HED’、‘COO’、‘VOB’的元素,对应形成主谓关系集合SBV={(rks,wks,hks)|ks=0,1,2…,ms-1}、核心关系集合HED={(rkh,wkh,hkh)|kh=0,1,2…,mh-1}、并列关系集合COO={(rkc,wkc,hkc)|kc=0,1,2…,mc-1}、动宾关系与介宾关系集合VOB={(rkv,wkv,hkv)|kv=0,1,2…,mv-1},并将核心关系集合HED中所有元素的词语wkh形成动词集合V={wkh|kh=0,1,2…,mh-1},式中,ks、kh、kc、kv分别表示对应元素索引号,ms、mh、mc、mv分别表示对应集合元素数量;

(4-2)遍历集合COO,若遍历到的元素(rkc,wkc,hkc)中的hkc在动词集合V中,则将该元素的wkc添入集合V中;否则,从集合COO中删去当前元素;

(4-3)遍历集合VOB,若遍历到的元素(rkv,wkv,hkv)中的hkv不在动词集合V中,则从集合VOB中删去当前元素;

(4-4)创建成分三元组集合E={(aj,bj,cj)|j=0,1,…,en-1},若集合SBV为空,则执行步骤(5);否则,执行步骤(4-5);

(4-5)若集合VOB为空,则将集合SBV第一个元素(r0,w0,h0)中的词语w0、集合HED第一个元素(r0,w0,h0)中的词语w0和字符串‘null’对应组成元素(aj,bj,cj),存入集合E中,并执行步骤(4-6);否则,执行步骤(4-7);

(4-6)遍历集合COO,对每一遍历到的元素执行如下流程:

获取当前元素temp_coo在集合Rel中的索引位置coo_poi;在0至coo_poi范围内遍历集合Rel,得到集合Rel中关系词rk值为‘SBV’的元素temp_sbv,将temp_sbv中的词语wk、temp_coo中的词语wkc以及字符串‘null’对应组成元素(aj,bj,cj),存入集合E中,执行步骤(5);

(4-7)遍历集合VOB,对每一遍历到的元素执行如下流程:

判断当前元素temp_vob的关系词rkv与集合HED中任意元素的词语wkh是否存在为同一词语的情况,若是,则将SBV第一个元素(r0,w0,h0)中的词语w0、集合HED第一个元素(r0,w0,h0)中的词语w0、temp_vob的wkv组成元素(aj,bj,cj),存入集合E中;

若遍历结束后集合VOB中没有元素符合上述情况,则将SBV第一个元素(r0,w0,h0)中的词语w0、集合HED第一个元素(r0,w0,h0)中的词语w0、字符串‘null’组成元素(aj,bj,cj),存入集合E中;

(4-8)遍历集合COO,对每一遍历到的元素执行如下流程:

获取当前元素temp_coo在集合Rel中的索引位置coo_poi;在0至coo_poi范围内遍历集合Rel,得到集合Rel中关系词rk值为‘SBV’的元素temp_sbv;遍历集合VOB,若存在其中一元素temp_vob的hkv与temp_coo的wkc为同一词语,则将temp_sbv中的wks、temp_coo中的wkc、temp_vob中的wkv组成元素(aj,bj,cj),存入集合E中;若遍历集合VOB结束后VOB中无元素符合前述要求,则将temp_sbv中的wks、temp_coo中的wkc、字符串‘null’组成元素(aj,bj,cj),存入集合E中。

5.根据权利要求1所述的动作描述自然文本的形式化编码方法,其特征在于:步骤(6)具体包括:(6-1)搜索li中对动作快慢程度的描述,将该描述存储为所有元素的持续时间值tj;若无匹配结果,则将所有元素的持续时间值tj赋值为指定默认值;

(6-2)顺序取集合E中元素(aj,bj,cj),分别在字典中搜索元素(aj,bj,cj)中的部位描述aj、变换描述bj以及范围描述cj;所述字典为存储有部位描述、变换描述、范围描述的对应编码的字典;

(6-3)若范围描述cj无匹配结果,则赋值为指定默认编码;否则,根据字典赋值为编码ccj;

(6-4)根据字典,查找部位描述aj对应的部位编码caj,变换描述bj对应的变换矩阵编码crbj与平移变换或旋转变换编码cbj,(6-5)将caj,crbj,cbj,ccj,tj组织为一个五元组(caj,crbj,cbj,ccj,tj),存入集合Mi中;

(6-6)循环执行步骤(6-2)-(6-5),直至集合E中元素均被处理,得到li对应五元组集合Mi={(caj,crbj,cbj,ccj,tj)||j=0,1,…,en-1}。