1.一种无监督的英语短文句子跑题分析方法,其特征是:包括一个由顺序连接的英语短文预处理模块、多元语义表示模型构建模块、英语短文表示模型构建模块、英语短文句子跑题分析模块,其分析方法包括如下处理步骤:(1)英语短文预处理模块,第一,输入待分析英语短文及其题目,对待分析英语短文及其题目进行共指消解、单词小写化处理并对待分析英语短文分句;
第二,对第一步中输出的待分析英语短文及其题目进行词性标注、短语切分处理,得到待分析英语短文题目和英语短文中的各个句子组成单词和名词短语;第三,对待分析英语短文中的各个句子和英语短文题目中的名词短语进行去停用词和词干化处理,并用下划线将名词短语中的单词分隔开;
第四,分别输出待分析英语短文中的各个句子的名词短语列表与除名词短语外的单词列表、英语短文题目的名词短语列表与除名词短语外的单词列表;
(2)多元语义表示模型构建模块,第一,输入神经概率词向量空间、词共现词向量空间、常识概念语义网络、英语语义词典同义词集;
第二,对第一步中输入的神经概率词向量空间、词共现词向量空间、常识概念语义网络、英语语义词典同义词集中的词汇表进行去除标点符号处理,用下划线将短语中的单词分隔开并输出;
第三,对第二步中的输出结果中的多词短语进行去停用词、单词小写化;
第四,将第三步处理后的词共现词向量空间和神经概率词向量空间进行合并处理;
第五,使用英语语义词典同义词集改进第四步合并后的向量空间;
第六,对去停用词、单词小写化后的常识概念语义网络进行稀疏对称处理;
第七,使用稀疏对称处理后的常识概念语义网络,对第五步中的改进结果进行扩展改造,得到多元语义表示模型;
(3)英语短文表示模型构建模块,第一,输入预处理模块中的待分析英语短文题目的预处理结果,将英语短文题目中的名词短语和除名词短语外的单词,映射到多元语义表示模型中得到对应的向量表示;
第二,使用预先训练好的文档频率集,对待分析英语短文题目中的单词和名词短语的向量进行加权和;
第三,计算出求和后的向量的主成分,得到待分析英语短文题目的向量表示;
第四,输入预处理模块中的待分析英语短文的预处理的结果,将待分析英语短文中的各个句子中的名词短语和除名词短语外的单词,映射到多元语义表示模型中得到对应的向量表示,并对待分析英语短文中的各个句子的单词和名词短语向量进行加权并求和;
第五,计算出求和后的向量的主成分,得到待分析英语短文中的各个句子的向量表示;
(4)英语短文句子跑题分析模块,第一,输入英语短文表示模型构建模块中输出的待分析英语短文题目向量;
第二,输入待分析英语短文中的各个句子向量;
第三,计算待分析英语短文题目向量及其各个句子向量的语义相似度,并取均值作为待分析英语短文与待分析英语短文题目的相似度;
第四,输入预先设置的英语主题库中的主题,并通过英语短文表示模型构建模块表示为向量形式,之后计算得到待分析英语短文与英语短文主题库中的各个主题的语义相似度;
第五,将待分析英语短文与待分析英语短文题目的相似度以及待分析英语短文与英语主题库中各题目的相似度进行降序排列,如果待分析英语短文与待分析英语短文题目的语义相似度排在前五,则继续执行第六步,否则将待分析英语短文判定为与待分析主题完全无关的短文并结束;
第六,分别计算待分析英语短文题目向量与待分析英语短文中的所有句子向量的语义相似度,并将这些语义相似度与预先设置的阈值进行比较,如果小于预先设置的阈值则判定为跑题句子并输出;
第七,统计待分析英语短文中的跑题句子数量和待分析英语短文句子的总数量,通过计算待分析英语短文中的跑题句子数占待分析英语短文中的句子总数比例,得出待分析英语短文句子跑题程度分数,并生成待分析英语短文句子跑题程度的评语。
2.根据权利要求1所述的无监督的英语短文句子跑题分析方法,其特征是:步骤(1)所述的英语短文预处理模块处理步骤如下:P201开始;
P202读入待分析英语短文和题目;
P203将待分析英语短文和题目首尾拼接为一个整体并进行共指消解处理,得到共指消解链;
P204读入待分析英语短文题目;
P205判断待分析英语短文题目中各代词所在的共指消解链中是否存在名词短语,是则执行P206,否则执行P207;
P206将待分析英语短文题目中的代词替换成共指链中的名词或名词短语;
P207对待分析英语短文题目进行分句分词;
P208将分句分词后的待分析英语短文题目中的单词小写化;
P209对单词小写化后的待分析英语短文题目进行词性标注和短语切分,并输出待分析英语短文题目的名词短语和除名词短语外的单词列表;
P210对待分析英语短文题目的名词短语列表中的名词短语进行去停用词和词干化,并用下划线分隔名词短语间的单词;
P211读取待分析英语短文;
P212判断待分析英语短文中各代词所在的共指消解链中是否存在名词或名词短语,是则执行P213,否则执行P214;
P213将待分析英语短文中的代词替换成共指链中的名词或名词短语;
P214对待分析英语短文进行分句分词;
P215将分句分词后的待分析英语短文中的单词小写化;
P216对单词小写化后的短文以句子为单位进行词性标注和短语切分,并输出待分析英语短文各句子的名词短语和除名词短语外的单词列表;
P217对待分析英语短文各句子中的名词短语列表中的名词短语进行去停用词和词干化处理,并用下划线分隔名词短语间的单词;
P218结束。
3.根据权利要求1所述的无监督的英语短文句子跑题分析方法,其特征是:步骤(2)所述的多元语义表示模型构建模块处理步骤如下:P301开始;
P302使用训练语料训练出神经概率词向量空间;
P303输入神经概率词向量空间、词共现词向量空间、常识概念语义网络以及英语语义词典中同义词集的词汇表;
P304去除上一步输入的四种语料的词汇表中所有单词间的标点符号;
P305对去除标点符号后的词汇表进行单词小写化处理;
P306对单词小写化后的词汇表进行去停用词处理;
P307对去停用词后的词汇表中的单词进行词干化处理;
P308用下划线将词干化后的词汇表中的短语进行分隔并输出经过词汇表处理后的四种语料;
P309输入词汇表处理后的神经概率词向量空间和词共现词向量空间;
P310构建两个向量空间中不重叠的单词在另一向量空间中的向量表示,使两个向量空间中的词汇表重叠;
P311将词汇表重叠后的神经概率词向量空间和词共现词向量空间中相同的词对应的
300维词向量首尾相连成600维的词向量;
P312通过奇异值分解将首尾相连后的600维词向量降至300维;
P313对降维后的词向量进行二范数标准化处理,并输出神经概率词向量空间和词共现词向量空间融合后的向量空间;
P314使用英语语义词典同义词集对融合后的向量空间进行改进,拉近同义词所对应的词向量间的欧氏距离;
P315输入词汇表处理后的常识概念语义网络;
P316去除词汇表处理后的常识概念语义网络中的标签并表示为一个无向图;
P317将处理为无向图后的常识概念语义网络表示为稀疏对称的关联矩阵并输出;
P318输入同义词集改进后的向量空间模型;
P319使用稀疏对称后的常识概念语义网络对同义词集改进后的向量空间进行扩展改进,拉近存在常识关联的词对应的词向量间的欧式距离,得到多元语义表示模型并输出;
P320结束。
4.根据权利要求1所述的无监督的英语短文句子跑题分析方法,其特征是:步骤(3)所述的英语短文表示模型模块处理步骤如下:P401开始;
P402按顺序读取预处理后的待分析英语短文题目的名词短语和除名词短语外的单词列表中的单词和名词短语;
P403判断读取的是否为名词短语,是则执行P404,否则执行P407;
P404将名词短语映射到多元语义表示模型中;
P405判断名词短语在多元语义表示模型中是否存在对应向量,是则执行P409,否则执行P406;
P406将对应名词短语拆分成单词;
P407将单词映射到多元语义表示模型中;
P408判断单词在多元语义表示模型中是否存在对应向量,是则执行P409,否则执行P410;
P409得到对应单词或名词短语的向量并保存在待分析英语短文题目的单词向量列表或名词短语向量列表中;
P410判断单词是否为待分析英语短文题目的名词短语和除名词短语外的单词列表中的最后一个单词或者名词短语,是则执行P411,否则执行P402;
P411读取待分析英语短文题目的单词向量列表和名词短语向量列表;
P412使用逆文档频率集,通过单词逆文档频率公式(1)计算单词逆文档频率,再通过词向量与名词短语向量加权和公式(2)计算得到词向量与名词短语向量加权和;
P413使用主成分分析方法计算出上一步加权和后向量的主成分并移除,得到待分析英语短文题目的向量表示;
P414按顺序读取预处理后的待分析英语短文各句子的名词短语和除名词短语外的单词列表中的单词和名词短语;
P415判断读取的是否为名词短语,是则执行P416,否则执行P419;
P416将名词短语映射到多元语义表示模型中;
P417判断名词短语在多元语义表示模型中是否存在对应向量,是则执行P421,否则执行P418;
P418将对应名词短语拆分成单词;
P419将单词映射到多元语义表示模型中;
P420判断单词在多元语义表示模型中是否存在对应向量,是则执行P421,否则执行P422;
P421得到对应单词或名词短语的向量并保存在待分析英语短文相应句子的单词向量列表或名词短语向量列表中;
P422判断单词是否为待分析英语短文的名词短语和除名词短语外的单词列表中的最后一个单词或者名词短语,是则执行P423,否则执行P414;
P423分别读取待分析英语短文各句子的单词向量列表和名词短语向量列表;
P424分别将各句子的单词向量和名词短语向量通过公式(2)计算得到词向量与名词短语向量加权和;
P425使用主成分分析方法计算出上一步加权和后向量的主成分并移除,得到待分析英语短文各个句子的句向量表示;
P426结束。
5.根据权利要求4所述的无监督的英语短文句子跑题分析方法,其特征是:所述的单词逆文档频率的计算公式为:
所述的词向量与名词短语向量加权和的计算公式为:在公式(2)中,i表示要进行加权和的单词序号,j表示要进行加权和的名词短语序号。n和m分别是进行加权和的单词和与词短语的总数,α和β分别是词向量与名词短语向量的权重系数,单词i逆文档频率与名词短语j中名词逆文档频率由公式(1)计算得到。
6.根据权利要求1所述的无监督的英语短文句子跑题分析方法,其特征是:步骤(4)所述的英语短文句子跑题分析模块处理步骤如下:P501开始;
P502读取待分析英语短文题目向量;
P503同时读取待分析英语短文所有句子的句向量;
P504将待分析英语短文题目向量和待分析英语短文所有句子的句向量带入英语短文题目与英语短文语义相似度公式(3)计算得到英语短文题目与英语短文语义相似度;
P505通过公式(3)计算得到英语短文题目与英语短文语义相似度;
P506对待分析英语短文与待分析英语短文题目的语义相似度以及待分析英语短文与英语主题库中各题目的语义相似度进行降序排列;
P507判断待分析英语短文与待分析英语短文题目的语义相似度是否排在前5位,是则执行P509,否则执行P508;
P508将待分析英语短文判定为与主题完全无关的跑题短文;
P509读取待分析英语短文题目向量;
P510按顺序读取待分析英语短文句向量;
P511通过英语短文题目与英语短文句子语义相似度公式(4)计算得到英语短文题目与英语短文句子语义相似度;
P512判断待分析英语短文题目向量与待分析英语短文句子向量的相似度是否小于预设阈值,是则执行P513,否则执行P510;
P513将待分析英语短文句子向量对应的待分析英语短文句子判定为跑题句子;
P514判断跑题句子是否为待分析英语短文句向量列表中最后一个句向量,是则执行P515,否则执行P510;
P515统计待分析英语短文句子跑题句子总数;
P516通过英语短文句子跑题程度分数公式(5)计算得到英语短文句子跑题程度分数;
P517生成英语短文句子跑题分析评语;
P518结束。
7.根据权利要求6所述的无监督的英语短文句子跑题分析方法,其特征是:所述英语短文题目与英语短文语义相似度的计算公式为在公式(3)中,n表示待分析英语短文的句子总数;
所述英语短文题目与英语短文句子语义相似度的计算公式为所述英语短文句子跑题程度分数的计算公式为