利索能及
我要发布
收藏
专利号: 2018108462312
申请人: 东北大学秦皇岛分校
专利类型:发明专利
专利状态:已下证
更新日期:2024-12-10
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于漏洞平台的漏洞分类统计方法,其特征在于,包括:用编写的脚本获取选定平台上的漏洞数据;

采用特征关键词提取技术对所述漏洞数据进行数据特征提取;

利用机器学习和自然语言处理技术建立自动分类模型;

采用所述自动分类模型对所述数据特征进行分类,得到不同的漏洞类型;

根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析,具体包括:根据不同类型的漏洞所占的百分比分析不同年份的漏洞数量的变化趋势;

根据不同年份收集到的不同单位的漏洞类型总数,判断漏洞类型与各个单位之间的关系;

根据各漏洞类型的提交时间,判断各组织对不同漏洞类型的反应能力;

根据不同地区提交的漏洞类型的数量,判断各地区提供漏洞类型的变化趋势;

根据白帽子安全人员提供的漏洞类型所占的百分比,判断某一漏洞类型数量与相应白帽子安全人员的数量的关系以及各个白帽子安全人员提供不同漏洞类型量的变化趋势。

2.根据权利要求1所述的一种基于漏洞平台的漏洞分类统计方法,其特征在于,所述采用特征关键词提取技术对所述漏洞数据进行数据特征提取,具体包括:对所述漏洞数据根据标题进行初步分类;

删除每类漏洞数据中指定的中文停止词;

计算去除中文停止词的漏洞数据中每个词的词频-逆文档频率值;

提取每类漏洞数据中词频-逆文档频率值按照从高至低顺序排列的前250个词;

对每类漏洞数据的前250个词中的重复词进行合并和删除;

将所述重复词作为数据特征。

3.根据权利要求1所述的一种基于漏洞平台的漏洞分类统计方法,其特征在于,所述用编写的脚本获取选定平台上的漏洞数据,具体包括:在众多漏洞平台中选择出漏洞平台;所述选择的漏洞平台为提交漏洞总数和漏洞种类总数综合最多的平台;

收集白帽子安全人员提交到所述漏洞平台的漏洞数据;

针对选择的不同的漏洞平台编写相应的爬虫脚本;

采用所述爬虫脚本从收集到的漏洞数据中爬取相应漏洞数据。

4.根据权利要求1所述的一种基于漏洞平台的漏洞分类统计方法,其特征在于,所述各组织包括上市公司、政府机构、创业公司以及教育机构。

5.一种基于漏洞平台的漏洞分类统计系统,其特征在于,包括:数据获取模块,用于获取用编写的脚本获取选定平台上的漏洞数据;

数据特征提取模块,用于采用特征关键词提取技术对所述漏洞数据进行数据特征提取;

自动分类模型建立模块,用于利用机器学习和自然语言处理技术建立自动分类模型;

分类模块,用于采用所述自动分类模型对所述数据特征进行分类,得到不同的漏洞类型;

统计模块,用于根据不同漏洞类型的出现情况对各地区不同组织的漏洞分布进行统计分析,具体包括:年份漏洞统计单元,用于根据不同类型的漏洞所占的百分比分析不同年份的漏洞数量的变化趋势;

单位漏洞统计单元,用于根据不同年份收集到的不同单位的漏洞类型总数,判断漏洞类型与各个单位之间的关系;

组织漏洞统计单元,用于根据各漏洞类型的提交时间,判断各组织对不同漏洞类型的反应能力;

地区漏洞统计单元,用于根据不同地区提交的漏洞类型的数量,判断各地区提供漏洞类型的变化趋势;

安全人员漏洞统计单元,用于根据白帽子安全人员提供的漏洞类型所占的百分比,判断某一漏洞类型数量与相应白帽子安全人员的数量以及各个白帽子安全人员提供提供不同漏洞类型的变化趋势。

6.根据权利要求5所述的一种基于漏洞平台的漏洞分类统计系统,其特征在于,所述数据特征提取模块,具体包括:初步分类单元,用于对所述漏洞数据根据标题进行初步分类;

删除单元,用于删除每类漏洞数据中指定的中文停止词;

计算单元,用于计算去除中文停止词的漏洞数据中每个词的词频-逆文档频率值;

提取单元,用于提取每类漏洞数据中词频-逆文档频率值按照从高至低顺序排列的前

250个词;

筛选单元,用于对每类漏洞数据的前250个词中的重复词进行合并和删除;

数据特征获取单元,用于将所述重复词作为数据特征。

7.根据权利要求5所述的一种基于漏洞平台的漏洞分类统计系统,其特征在于,所述数据获取模块,具体包括:漏洞平台选择单元,用于在众多漏洞平台中选择出漏洞平台;所述选择的漏洞平台为提交漏洞总数和漏洞种类总数综合最多的平台;

漏洞数据收集单元,用于收集白帽子安全人员提交到所述漏洞平台的漏洞数据;

爬虫脚本编写单元,用于针对选择的不同的漏洞平台编写相应的爬虫脚本;

漏洞数据获取单元,用于采用所述爬虫脚本从收集到的漏洞数据中爬取相应漏洞数据。