利索能及
我要发布
收藏
专利号: 2019108704797
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.文景转换中基于词典的名词可视性标注方法,用于计算机自然语言的文景转换场景,其特征在于,包括以下步骤:步骤1、计算机构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束;

步骤2、计算机从实体角度和可视性角度分别对名词进行分类;

步骤3、计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;

步骤4、计算机根据可视性判别规则,构建名词可视性词典,利用大量语料训练对词典进行扩充;

步骤5、计算机利用步骤4中的可视性词典,自动对文本中的名词进行可视性的判别,并进行可视性标注;

所述步骤3计算机依据名词的可视化结构,分析实体名词分类和名词可视化分类的关系,形成名词的可视性判别规则,包括:结合名词的可视化结构和实体的传统三元组结构分析得到如下判别规则:设N是一个名词,f是名词到实体的转换规则:

N=f(E1(c,a(str,tet,col,si),v(strv,tetv,colv,siv)),...)其中:

(1):f为简单规则,strv>0,tetv>0,400nm<colv<770nm,siv>0.02mm时,名词N是直接可视化名词;

(2):f为简单规则,str,tet,col,si中任一值未知或不存在,或si<0.02mm,colv<

400nm,colv>760nm时,名词N是间接可视化名词(3):f是复杂多次规则时,名词N是间接可视化名词;

(4):不存在f规则时,名词N是非可视化名词;

c代表实体的基本概念域;a表示实体的可视化属性;v表示相对于可视化属性而言的属性值;tet表示实体的纹理属性,col表示实体的颜色属性,si表示实体的尺寸,strv表示实体的结构属性值,tetv表示实体的纹理属性值,colv表示实体的颜色属性值,siv表示实体的尺寸属性值。

2.根据权利要求1所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤1中构建名词的可视化结构包括:名词的可视化是名词形成的逆过程,是名词到世界可见实体的转换,名词的可视化结构为:Vn=f(E1,E2,...,En)

Vn表示可视化名词,E表示最终呈现的可视化实体,一个名词可由一个至多个实体进行可视化展示,f是人类认知的逆过程,是名词转换到实体的一般规则,此规则可随着名词类别,句子成分,搭配词及名词所处文本语境进行变化;

f<cg,ps,wc,ct>

cg表示名词的类别,ps表示名词所处的句子成分,wc表示名词的搭配词,ct表示语境。

3.根据权利要求1所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤2中,从实体角度和可视化角度分别对名词进行分类,包括:(1)从实体角度对名词的分类:从名词与实体的联系进行名词的分类,将名词分为实体名词和非实体名词,设N表示所有名词集合,N1表示实体名词集合,N2表示非实体名词集合,则有:N1∪N2=N,N1∩N2=φ,(n1,....,ni)∈N1,(n1,...,ni)∈N2;

(2)从可视化的角度对名词进行分析,将名词划分为可视化名词和非可视化名词,可视化名词从可视化的步骤和复杂度又可分为直接可视化名词和间接可视化名词,设N表示所有名词集合,Vn表示可视化名词集合,NVn表示非可视化名词集合,Vnd表示直接可视化名词集合,Vnid表示间接可视化名词集合,则有:Vn∪NVn=N,Vn∩NVn=φ,Vnd∪Vnid=Vn,Vnd∩Vnid=φ。

4.根据权利要求3所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤4)中,依据名词可视性的判别规则,构建名词可视性判别词典,包括:(1)可视性词典采用下述格式:词典由三个txt文本构成,这三个文本分别存储直接可视化名词,间接可视化名词,非可视化名词,每个文件的每行存储一个名词,名词以字典序进行排列;

(2)以现代汉语词典为语料,使用中科院的语义分析系统对词典内的词进行词性标注,筛选出所有名词,形成初步名词集,以步骤3的名词可视性判别规则为基础,对名词集内的名词进行可视性分类,可视性词典初步构建完成;

(3)利用现有知识库进行相似度的计算对词典进行扩充,再利用大量语料和词典内的词进行训练,对词典进行二次扩充。

5.根据权利要求4所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤5中,利用步骤4中的名词可视性词典对文本中的名词进行可视性标注,将文本通过工具分词处理,提取名词后,进入词典查询,词典内存在该名词则直接标注可视性,词典内不存在该名词,则与词典内的名词进行词语相似度比较,对文本中的名词进行可视性的标注,直接可视化名词标注为:din,间接可视化名词标注为:idin,不可可视化名词标注为:novn。

6.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~5任一项的方法。

7.一种文景转换中基于词典的名词可视性标注系统,用于计算机自然语言的文景转换场景,其特征在于,包括:可视化结构构建模块:用于构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束;

分类模块:用于计算机从实体角度和可视性角度分别对名词进行分类;

规则构建模块:用于计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;

可视性词典构建模块:用于计算机根据可视性判别规则,构建名词可视性词典;

可视性标注模块:用于利用可视性词典对名词进行可视性标注;

所述计算机根据可视性判别规则,构建名词可视性词典,包括:结合名词的可视化结构和实体的传统三元组结构分析得到如下判别规则:设N是一个名词,f是名词到实体的转换规则:

N=f(E1(c,a(str,tet,col,si),v(strv,tetv,colv,siv)),...)其中:

(1):f为简单规则,strv>0,tetv>0,400nm<colv<770nm,siv>0.02mm时,名词N是直接可视化名词;

(2):f为简单规则,str,tet,col,si中任一值未知或不存在,或si<0.02mm,colv<

400nm,colv>760nm时,名词N是间接可视化名词(3):f是复杂多次规则时,名词N是间接可视化名词;

(4):不存在f规则时,名词N是非可视化名词;

c代表实体的基本概念域;a表示实体的可视化属性;v表示相对于可视化属性而言的属性值;tet表示实体的纹理属性,col表示实体的颜色属性,si表示实体的尺寸,strv表示实体的结构属性值,tetv表示实体的纹理属性值,colv表示实体的颜色属性值,siv表示实体的尺寸属性值。