1.一种基于监督词向量的文本缩写识别方法,其特征在于:包括以下步骤:步骤一,训练得到监督词向量模型;所述监督词向量模型,包括词向量模型和同义词关系分类器;
步骤二,标记现有缩略语词典的原语词性,形成原语词性序列;
步骤三,对给定文本进行词性计算;
步骤四,选出给定文本的候选原语和候选缩略语;
步骤五,将候选原语和候选缩略语分别输入到监督词向量模型的同义词关系分类器中进行相似度计算;
步骤六,获得原语和缩略语。
2.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤四中,先根据原语词性序列从给定文本中找到候选原语,再从候选原语中根据缩略语筛选规则筛选候选缩略语。
3.根据权利要求2所述的基于监督词向量的文本缩写识别方法,其特征在于:缩略语筛选规则为同时满足以下条件:条件1:缩略语的字数大于2;
条件2:缩略语中字符的出现顺序必须和原语中的顺序一致;
条件3:缩略语中的字符必须出现在对应的原语中,且中间不夹杂其它字符。
4.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤四中,选出的候选原语,是从给定文本中根据对应的候选原语选择出来的正则表达式。
5.根据权利要求1所述的基于监督词向量的文本缩写识别方法,在步骤二中,先将现有缩略语词典中的所有原语分别进行分词,用字母标记每个原语中各个分词的词性,按照原语分词顺序排列的字母序列就是原语词性序列;将所有原语词性序列组合形成原语词性序列集合。
6.根据权利要求5所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤三中,先将给定文本分词形成多个待确认词;将待确认词按照步骤二中的方法进行词性标记形成多个待确认词词性序列。
7.根据权利要求6所述的基于监督词向量的文本缩写识别方法,其特征在于:将每个待确认词词性序列和原语词性序列集合中的原语词性序列进行对比,选出与原语词性序列相同的待确认词词性序列;这些被选出的待确认词词性序列对应的待确认词则为候选原语。
8.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤二中,原语词性序列按照词性标记表标记;所述词性标记表包括多个词性以及每个词性对应的字母和数值。
9.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤四中,在候选原语中删除没有找到对应候选缩写语的候选原语。
10.一种基于监督词向量的文本缩写识别系统,其特征在于:包括中央处理器以及与中央处理器网络连接的数据库、输入端和输出端;
所述输入端,用来供给定文本输入;
所述输出端,用来输出给定文本中的所有原语和对应的缩略语;
所述数据库,设置有对应关系表和多个缩略语词典;所述对应关系表包括多个缩略语和原语关系对;对应关系表中的缩略语和原语关系对包括缩略语词典中的缩略语和原语关系对;所述数据库内设置有词性标记表,所述词性标记表包括表示词性的字母以及对应的数值;
所述中央处理器,设置有监督词向量模型;所述监督词向量模型,包括词向量模型和同义词关系分类器;
所述中央处理器按照词性标记表将对应关系表中的所有原语进行词性标记得到多个原语词性序列组成的原语词性序列集合;
所述中央处理器将接收到的给定文本分词得到多个待确认词;中央处理器按照词性标记表将每个待确认词进行词性标记形成多个待确认词词性序列组成的待确认词性序列集合;中央处理器将每个待确认词性序列分别与原语词性序列集合中的原语词性序列进行对比,中央处理器选出与原语词性序列相同的所有待确认词词性序列;中央处理器将这些待确认词词性序列对应的待确认词作为候选原语;
中央处理器根据预设的缩略语筛选规则,从给定文本中筛选与候选原语对应的候选缩略语;若按照缩略语筛选规则,在给定文本中无法找到与某些候选原语对应的候选缩略语,则删除这些候选原语;
中央处理器将对应的候选原语和候选缩略语通过同义词关系分类器计算相似度,中央处理器将所有通过相似度计算结果满足预设要求的候选原语和候选缩略语作为原语和缩略发送给输出端。