1.一种基于容错粗糙集的自动关键字提取方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、对语料库进行包括读取文档集合,进行文档单词分割、去除标点符号和数字、去除停用词在内的预处理操作;
102、读取预处理操作后的文档集合,并统计每个单词在文档集合中的频率,选取频率大于设定值的单词,构成基本单词集合;
103、对文档集合进行容错粗糙集的相关计算,得到模糊隶属矩阵;
104、根据基本单词集合,过滤文档单词,得到过滤后的文档集合;
105、对每个过滤后的文档建立无向有权图,并根据迭代公式计算候选关键字得分;
106、选择文档中的单词作为关键字。
2.根据权利要求1所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤101对语料库进行预处理操作,具体包括:A1、读取语料库,对其中的所有文档进行单词分割,保存在本地。
A2、读取本地上单词分割后的文档集合,按照去除符号和数字,读取停用词列表,去除停用词的顺序对其中的每篇文档进行处理;
A3、将按照步骤A2处理后的每篇文档以单词列表的形式保存到内存中。
3.根据权利要求2所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤102统计单词频率,选取频率较高的单词,构成基本单词集合,具体包括:B1、读取文档集合中的所有不同的单词,统计出它们的频率,频率即出现在文档集合中的次数,形成一个带有频率的单词字典;
B2、对B1得到的单词字典进行降序排序,选取其中频率高于设定值y1的单词组合成一个基本单词集合。
4.根据权利要求3所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤103对文档集合进行容错粗糙集的相关计算,得到模糊隶属矩阵,包括步骤:C1、根据容错空间中的不确定性函数以及非负阈值,将每个基本单词投影到一个容错类中,得到不确定性矩阵,不确定性矩阵由所有基本单词的容错类组成;
C2、根据容错空间中的模糊隶属度函数,计算每个基本单词对每篇文档的模糊隶属度,得到模糊隶属矩阵,模糊隶属矩阵由所有基本单词对所有文档的模糊隶属度组成。
5.根据权利要求4所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述容错粗糙集对应的是一个容错空间,其中有论域、不确定性函数、模糊隶属度函数以及结构函数,基本单词集合就是论域,基本单词集合没有考虑结构函数。
6.根据权利要求5所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤104根据基本单词集合,过滤文档单词,得到过滤后的文档集合,具体包括:D1、遍历文档中的单词,看其是否在基本单词集合中,若是,则保留,若否,则移除;
D2、文档集合中的每篇文档按照D1进行操作,得到过滤后的文档集合。
7.根据权利要求6所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤105对每个过滤后的文档建立无向有权图,并根据迭代公式计算候选关键字得分,具体步骤如下:
E1、定义:令G(V,E)表示无向有权图,V是节点集,表示文档中的所有候选单词,E是边集,其中每条边连接的两个单词表示它们在同一个滑动窗口内同时出现,并且边的权重是两个连接单词之间的共现度;令tfij表示第i个单词在第j篇文档中的频率;令μij表示第i个单词对第j篇文档的模糊隶属度;
E2、构造公式:
iwf(Vi,Dj)表示第i个节点在第j篇文档中的初始权重即单词的初始重要性;
E3、根据TextRank中的迭代公式以及E2中的公式得到新的迭代公式:S(Vi,Dl)表示当前节点Vi在文档Dl中的权重;S(Vj,Dl)表示先前迭代出的节点Vj在文档Dl中的权重;等号右边的求和公式表示与当前节点相邻的所有节点对该节点的贡献程度;
In(Vi)代表指向Vi的节点的集合,Out(Vj)是(Vj)指向的节点的集合;WEji表示节点Vj到当前节点Vi的边的权重; 表示节点Vj到它指向的所有节点的边的权重之和;d表示在图网络中随机选择一个节点的概率,被称为阻尼系数,默认值为0.85;
E4、根据E3中的新迭代公式,计算出文档中每个单词的得分。
8.根据权利要求7所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤106选择文档中的单词作为关键字,步骤包括:F1、对打分后的候选关键字进行降序排序;
F2、选取Top‑k即得分最高的k个候选关键字作为文档关键字,并保存在内存中。
9.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~8任一项的方法。
10.一种基于容错粗糙集的自动关键字提取系统,其特征在于,包括预处理模块:用于对语料库进行包括读取文档集合,进行文档单词分割、去除标点符号和数字、去除停用词预处理操作;
基本单词选取模块:用于读取预处理操作后的文档集合,并统计每个单词在文档集合中的频率,选取频率高于设定值的单词,构成基本单词集合;
容错粗糙集计算模块:用于根据容错空间中的不确定性函数,模糊隶属度函数以及非负阈值,计算得到不确定性矩阵,模糊隶属度矩阵;
候选关键字打分模块:用于通过结合单词频率以及模糊隶属度,设计出一种新的迭代公式,并对每个过滤后的文档建立一个无向有权图,后根据这个新的迭代公式计算出候选关键字的得分;
提取关键字模块:用于对打分后的候选关键字进行降序排序,后选取Top‑k即得分最高的k个关键字。