利索能及
我要发布
收藏
专利号: 2021102010953
申请人: 云南大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种改进的TextRank关键词提取方法,其特征在于,包括:获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;

根据候选关键词总集,构建词共现网络;

根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;

获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;

获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;

根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重;

根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;

根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重;

根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值;

根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;

根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。

2.根据权利要求1所述的改进的TextRank关键词提取方法,其特征在于,所述获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性,包括:根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数;

根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性;

根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。

3.根据权利要求1或2所述的改进的TextRank关键词提取方法,其特征在于,获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数,包括:根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数;

根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数;

根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。

4.根据权利要求1所述的改进的TextRank关键词提取方法,其特征在于,所述根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重,包括:通过如下公式确定所述第一节点与所述第二节点之间的连边权重:其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。

5.一种改进的TextRank关键词提取装置,其特征在于,所述改进的TextRank关键词提取装置应用于权利要求1‑4任一项所述的改进的TextRank关键词提取方法,所述改进的TextRank关键词提取装置包括:文本获取模块,用于获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;

词共现网络构建模块,用于根据候选关键词总集,构建词共现网络;

节点获取模块,用于根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;

度中心性计算模块,用于获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;

聚类系数计算模块,用于获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;

初始权重获取模块,用于根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重;

节点参数获取模块,用于根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;

连边权重获取模块,用于根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重;

重要性分值确定模块,用于根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值;

最终权重确定模块,用于根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;

关键词获取模块,用于根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。

6.根据权利要求5所述的改进的TextRank关键词提取装置,其特征在于,所述度中心性计算模块包括:

度中心性参数获取单元,用于根据所述词共现网络,获取所述节点总数、所述第一节点的边数及第二节点的边数,所述边数是指连接所述任一节点的边的个数;

第一节点度中心性计算单元,用于根据所述节点总个数和所述第一节点的边数,确定所述第一节点的度中心性;

第二节点度中心性计算单元,用于根据所述节点总个数和所述第二节点的边数,确定所述第二节点的度中心性。

7.根据权利要求5所述的改进的TextRank关键词提取装置,其特征在于,所述聚类系数计算模块包括:

聚类系数参数获取单元,用于根据所述词共现网络,获取所述第一节点的边数、所述第一相邻节点之间的边数、所述第二节点的边数及所述第二相邻节点之间的边数;

第一节点聚类系数计算单元,用于根据所述第一节点的边数和所述第一相邻节点之间的边数,确定所述第一节点的聚类系数;

第二节点聚类系数计算单元,用于根据所述第二节点的边数和所述第二相邻节点之间的边数,确定所述第二节点的聚类系数。

8.根据权利要求5所述的改进的TextRank关键词提取装置,其特征在于,所述连边权重获取模块用于通过如下公式确定所述第一节点与所述第二节点之间的连边权重:其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合。