买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于自动分词的新闻文本处理方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于自动分词的新闻文本处理方法

￥10200

专利号： 202110939825X

申请人：东华理工大学南昌校区

专利类型：发明专利

专利状态：无效专利

更新日期：2025-08-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于自动分词的新闻文本处理方法，包括以下步骤：Step1，生成词组数据库，该词组数据库具有任意领域标签的词组字典，词组字典中包含多个基础词组；

Step2，提取新闻文本、该新闻文本引用的时事文本以及领域标签；

Step3，根据时事文本的领域标签确定相应领域的词组字典，采用匹配算法对比时事文本与词组字典中的基础词组，确定该时事文本的多个有源词组，剔除该时事文本中有源词组和连接词后生成无源词组，其中，有源词组为时事文本中与基础词组匹配成功的词组；

Step4，根据检索算法在新闻文本中依次检索与有源词组和无源词组内容相同的字符串，分别生成第一字符串和第二字符串；

Step5，在新闻文本中剔除第一字符串和第二字符串生成中间文本；

Step6，采用匹配算法对比中间文本与词组字典中的基础词组，匹配成功的词组作为第三字符串，剩下无法匹配的词组作为第四字符串；

Step7，根据顺序拼接第一字符串、第二字符串、第三字符串以及第四字符串，输出分词结果，完成对新闻文本的分词处理。

2.根据权利要求1所述的基于自动分词的新闻文本处理方法，其特征在于，所述Step4的检索算法包括以下步骤：

Step41，存储任意有源词组及有源词组在时事文本中的词频度；

Step42，根据标点符号将新闻文本分割为多个目标字符串；

Step43，在目标字符串中检索出与有源词组相同的多个待处理字符串；

Step44，判断两组待处理字符串的位置数据是否重叠，若重叠，进入step45，若不重叠，进入step46；

Step45，提取待处理字符串对应的词频度，选择词频度较大的待处理字符串为第一字符串，进入step47；

Step46，将该两组待处理字符串拼接为第一字符串，进入step47；

Step47，判断待处理字符串是否对比完毕，若是，则结束检索算法，若否，则进入step44。

3.根据权利要求2所述的基于自动分词的新闻文本处理方法，其特征在于，有源词组的词频度，m为序号，Tm为有源词组的出现次数，Nm为有源词组的长度，H为时事文本的总长度。

4.根据权利要求1所述的基于自动分词的新闻文本处理方法，其特征在于，所述领域标签分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。

推荐专利

新闻文本的分类方法、装置、电子设备和存储介质

发明专利

面议

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们