1.一种基于自动分词的新闻文本处理方法,包括以下步骤:Step1,生成词组数据库,该词组数据库具有任意领域标签的词组字典,词组字典中包含多个基础词组;
Step2,提取新闻文本、该新闻文本引用的时事文本以及领域标签;
Step3,根据时事文本的领域标签确定相应领域的词组字典,采用匹配算法对比时事文本与词组字典中的基础词组,确定该时事文本的多个有源词组,剔除该时事文本中有源词组和连接词后生成无源词组,其中,有源词组为时事文本中与基础词组匹配成功的词组;
Step4,根据检索算法在新闻文本中依次检索与有源词组和无源词组内容相同的字符串,分别生成第一字符串和第二字符串;
Step5,在新闻文本中剔除第一字符串和第二字符串生成中间文本;
Step6,采用匹配算法对比中间文本与词组字典中的基础词组,匹配成功的词组作为第三字符串,剩下无法匹配的词组作为第四字符串;
Step7,根据顺序拼接第一字符串、第二字符串、第三字符串以及第四字符串,输出分词结果,完成对新闻文本的分词处理。
2.根据权利要求1所述的基于自动分词的新闻文本处理方法,其特征在于,所述Step4的检索算法包括以下步骤:
Step41,存储任意有源词组及有源词组在时事文本中的词频度;
Step42,根据标点符号将新闻文本分割为多个目标字符串;
Step43,在目标字符串中检索出与有源词组相同的多个待处理字符串;
Step44,判断两组待处理字符串的位置数据是否重叠,若重叠,进入step45,若不重叠,进入step46;
Step45,提取待处理字符串对应的词频度,选择词频度较大的待处理字符串为第一字符串,进入step47;
Step46,将该两组待处理字符串拼接为第一字符串,进入step47;
Step47,判断待处理字符串是否对比完毕,若是,则结束检索算法,若否,则进入step44。
3.根据权利要求2所述的基于自动分词的新闻文本处理方法,其特征在于,有源词组的词频度 ,m为序号,Tm为有源词组的出现次数,Nm为有源词组的长度,H为时事文本的总长度。
4.根据权利要求1所述的基于自动分词的新闻文本处理方法,其特征在于,所述领域标签分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。