1.一种文景转换中场景空间关系信息布局生成的方法,其特征在于,包括以下步骤:
1)利用汉语字典和互联网收集文景转换相关语料,构建基础空间方位词及其合成词构成的空间关系词集和与空间关系词一起构成最短方位表达式所需要辅助词构成的辅助空间关系词集;
2)将初始文本分句后解析依存语法关系,并计算空间词集词向量相似度,对包含空间方位关系的分句进行识别;
3)针对步骤2)中的分句利用辅助空间关系词集的句式组合提取每个分句的最小空间信息集;
4)对步骤3)的的最小空间信息集合进行依存语义分析后抽取空间关系构成初始场景空间关系集;
5)对于步骤4)的集合中的实体匹配属性和比较可视化实体的相似度进行指代消解后构建若干个空间关系子图;
6)针对某一场景构建场景集在互联网上收集语料,预处理后对其中的可视化实体名词使用词频统计的方式获得统计指标;
7)根据步骤6)的统计指标,构建对应场景类别的特征词词集;
8)依据步骤7)选取对应场景中空间关系集中的可视化实体进行加权计算,选取权重大于设定值的作为步骤5)中空间关系子树的锚实体;
9)依靠步骤7)中的特征词词集和步骤8)的锚实体进行全局缺省空间关系推理,构造场景空间关系布局生成图;
所述步骤1)利用汉语字典和互联网收集语料构建空间关系词集和辅助空间关系词集,具体包括:初始方位词集{上,下,左,右,前,后,里,外,东,西,南,北},在语言学中,方位词表示的方位既包含空间上的,又包含时间上;表示时间上方位的方位词,包含“以上”、“以下”,不需要抽取;既能表示空间上的,又能表示时间上的方位词;根据互联网收集语料,将初始方位词利用维基中文百科训练后获取词向量进行相似度判断,扩展添加每个初始方位词的衍生词后获得空间关系词集;在文本的空间关系表述中,除了可视化实体本身外,只需要抽取出关键的介词短语P、空间方位词N、空间谓词V和概括性空间词NN就比较完整的描述文本中包含的空间关系,剔除掉无效内容,只保留有效的空间关系词汇,利用互联网收集语料,构建常用辅助空间关系词集;
所述步骤2)将初始文本分句后解析依存语法关系并计算空间词集词向量相似度,对包含空间方位关系的分句进行识别,具体包括:将分句文本进行依存语法解析获取它的依存语法树,识别界标、射体和方位词,利用步骤1)中的空间关系词集进行余弦相似度计算后进行判断,将判断的方位词与地点、时间、无意义助词在内的干扰词区分,对是否包含空间方位关系的分句进行识别;
所述步骤3),针对步骤2)中的分句利用辅助空间关系词集的句式组合提取每个分句的最小空间信息集,具体包括:根据从互联网获取的语料搭配上步骤1)的辅助空间关系词集得到基础模板PT,模板由一个三元组表示;
PT=(W,L,D)
PT由W,L,D三部分构成,W是指步骤1)中收集空间关系词的词集,L是指W中空间关系词搭配上步骤1)中辅助空间关系词的最小构成包含空间关系的子树对应的短句的每个分词的词序,D是指W中步骤1)中空间关系词集和辅助空间关系词集任意相连分词之间的句法关系类型Dep(支配词,从属词)。
2.根据权利要求1所述的一种文景转换中场景空间关系信息布局生成的方法,其特征在于,所述步骤4),对步骤3)的集合进行依存语义分析后抽取出类型为一对一的空间关系构成初始场景空间关系集,具体包括:基于步骤3)获取的最小空间信息集,利用依存语义分析进行解析,对于一个界标对应一个射体的模式,采用通用模板和特殊模板抽取空间方位信息,对于一个界标对应多个射体的模式,无论是同一方向、差异方向还是范围距离,转换成一个界标对应一个射体的模式进行多次抽取,对于多个界标对应一个射体的模式,将射体逆转化为界标,同理一个界标对应多个射体的模式的方式抽取空间方位信息后再次还原。
3.根据权利要求2所述的一种文景转换中场景空间关系信息布局生成的方法,其特征在于,步骤5),对于步骤4)的集合中的实体匹配属性和比较可视化实体的相似度进行简单的指代消解后构建若干个空间关系图,具体包括:对于步骤4)中获取的初始场景空间关系集,针对每个作为界标或者射体的可视化实体定位初始文本的位置获取它的属性,包括颜色、大小、数量、纹理和形状描述,分析属性的相似度判断是否为同一可视化实体,进行简易的指代消解,将集合中相互存在空间关系的可视化实体配对,构建若干空间关系树。
4.根据权利要求3所述的一种文景转换中场景空间关系信息布局生成的方法,其特征在于,所述步骤6),针对某一场景构建场景集在互联网上收集语料,预处理后对其中的可视化实体名词使用词频统计的方式获得统计指标,具体包括:通过统计大批量的同类型场景的文本,将其分词、去停用词和词性标注预处理后只剩下若干可视化实体组成的名词集对应它们的场景类型,采用传统的文本特征提取方法TF‑IDF模型统计特征项的频率信息TF与反文档频率IDF,对于每一个类型的从互联网收集的场景文本预处理后统计n篇文本中出现可视化名词出现的频率大小;
在每个文档集N中,定义wi在N中词频fi为:
其中count(wi,N)代表着词wi在文档集N中的出现的次数,size(N)定义为文档集N中所有可视化实体的个数;
然后再采用反文档频率计算,设文档集N中一共拥有M篇文本,包含wi的文本数量为m,具体公式为:
5.根据权利要求4所述的一种文景转换中场景空间关系信息布局生成的方法,其特征在于,所述步骤7)根据步骤6)的统计指标,构建对应场景类别的特征词词集,具体包括:假设某一场景由多个可视化实体名词代表构成,对于每个可视化实体名词wi的词向量,对应的场景类别由N个词的词集代表,若是p(wi)代表可视化实体名词wi出现的概率,则对应的场景类别的概率为由此获得某一场景的对应的概率比较高的可视化实体的名词,选取前几项作为对对应场景影响最大的可视化实体的名词及其涉及的空间关系,统计从互联网中收集对应场景的对应场景影响最大的可视化实体的名词之间可能出现的空间关系概率。
6.根据权利要求5所述的一种文景转换中场景空间关系信息布局生成的方法,其特征在于,所述步骤8)依据步骤7)选取对应场景中空间关系集中的可视化实体进行加权计算后选取权重高于设定值的作为步骤5)中空间关系子图的锚实体,具体包括:对初始文本进行场景分类,确定其对应的场景文本集,提取对应场景影响最大的可视化实体的名词与空间关系图中的实体进行对比解析,利用计算词向量的余弦相似度与词间的附属包含关系相似度加权计算权重最高的可视化实体名词,以其为主干构成一条锚实体链,确保每个空间关系子图都有一个锚实体链能连接两个端点。
7.根据权利要求6所述的一种文景转换中场景空间关系信息布局生成的方法,其特征在于,所述步骤9),依靠步骤7)中的特征词词集和步骤8)的锚实体进行全局缺省空间关系推理,构造场景空间关系布局生成图,具体包括:先遍历全部子图所有实体名词结点,根据步骤8)确定的锚实体组成的链的两端的端点进行子图之间的空间关系生成概率判断和常识库判断,融合两个子图成一个子图,以此类推,将所有的子图构成一个完全的场景空间关系布局生成图。