利索能及
我要发布
收藏
专利号: 2023106856946
申请人: 临沂大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种村务公开数据智慧管理系统,包括村务数据公开平台数据库、词条抓取模块、数据处理模块、信息管理模块,其特征在于:所述词条抓取模块利用爬虫技术从村务数据公开平台数据库中获取所有历史公开信息,并统计所有村务信息的数量,形成历史语料库;

所述数据处理模块还包括关键词标注模块、关键词决策指数模块、公开信息向量处理模块、词组归纳模块、词组权重模块、决策优选比模块;

所述信息管理模块根据数据处理模块所得属性分类顺序,作为决策树分类时的属性选择顺序,利用决策树分类算法对获取的村务公开数据进行分类, 根据村务数据的分类结果中村务信息内容设置版块,对于每个版块,获取其中每个村务信息的公开信息向量,基于公开信息向量之间的相似度大小将每个版块划分成一定数量的子版块,将每一类分类结果放入不同的子版块中,当有新的信息上传至村务数据公开平台后,获取新信息的公开信息向量,分别计算与每个子版块中已有村务信息的公开信息向量的相似度,将新信息划分到相似度最大的子版块中;决策树分类算法的步骤包括:

步骤1,收集数据:收集并整理村务公开数据,确保每个数据样本都包含分类标签和属性值;

步骤2,准备数据:对数据进行预处理,包括缺失值处理、数据标准化、离散化;

步骤3,特征选择:根据数据处理模块所得的属性分类顺序,选择最适合用于分类的属性作为决策树的属性选择顺序;

步骤4,构建决策树:使用选择的属性顺序构建决策树,计算数据集的熵,作为初始的不确定性度量;针对每个属性,计算其对数据集的信息增益或信息增益比、基尼指数减少量,选择具有最大信息增益或最大增益比、最大基尼指数减少量的属性作为当前节点的划分属性;以该划分属性创建一个分支节点,并根据该属性的取值建立子节点;对于每个子节点,递归地重复上述步骤,直到达到节点中的样本属于同一类别,或者没有更多属性用于划分。

2.根据权利要求1所述的一种村务公开数据智慧管理系统,其特征在于:词条抓取模块中采用的爬虫步骤包括:步骤1,确定目标网站:确定要抓取信息的目标网站,根据权限和许可协议进行网页数据的抓取;

步骤2,选择爬虫工具;

步骤3,分析网页结构:仔细分析目标网站的网页结构,包括HTML标签、CSS选择器、XPath,以确定信息所在的位置和获取方式;

步骤4,编写爬虫代码:发起HTTP请求:使用爬虫工具发送HTTP请求,获取目标网页的HTML内容;解析HTML:使用HTML解析库或XPath解析器,解析HTML内容,提取目标信息;定位目标信息:根据分析的网页结构,使用CSS选择器、XPath定位目标信息所在的HTML元素;提取信息:从定位的HTML元素中提取所需的信息;存储信息:将提取的信息存储到适当的数据结构中;

步骤5,设置爬虫参数:根据需要,设置爬虫的请求头、代理、请求频率,以确保爬取过程的合规性和效率;

步骤6,处理反爬机制:使用代理IP、请求头伪装、延时请求来规避反爬措施;

步骤7,数据清洗和处理:获取的原始数据包含噪声和无用信息,使用正则表达式、字符串处理函数对数据进行清洗和处理,以提取出准确、有用的信息。

3.根据权利要求1所述的一种村务公开数据智慧管理系统,其特征在于:

所述关键词标注模块利用TF‑IDF算法对每个村务信息中的词进行处理,获取每个村务信息中每个词对应的TF‑IDF值。

4.根据权利要求1所述的一种村务公开数据智慧管理系统,其特征在于:

所述关键词决策指数模块将历史语料库作为Word2Vec模型的输入,并输出每个单词对应的固定长度的嵌入向量。

5.根据权利要求4所述的一种村务公开数据智慧管理系统,其特征在于:

所述关键词决策指数模块利用每个村务信息中关键词的上下文信息获取每条村务信息中不同关键词的重要程度,利用获取的TF‑IDF值以及嵌入向量构建数据向量,记为:;

其中 、 分别是词c的TF‑IDF值、嵌入向量;

构建信息决策指数F,用于表征每一个词决定其所在村务信息内容的能力,计算村务信息i中词c的信息决策指数 具体为:;

式中,是词c的信息重要度, 、 分别是村务信息i中第一类、第二类词的数量,a是第一类中的第a个词,b是第二类中的第b个词, 、 是词c与词a、词c与词b的归一化Google距离, 是词c的信息决策指数,m是村务信息i中的词数量, 、分别是词c、词j的数据向量, 是数据向量 、之间的余弦相似度,、分别是词c、词j的TF‑IDF值, 是调参因子。

6.根据权利要求5所述的一种村务公开数据智慧管理系统,其特征在于:所述关键词决策指数模块利用Otsu算法获取分割阈值,将TF‑IDF值大于分割阈值的词划分到第一类,将TF‑IDF值小于分割阈值的词划分到第二类。

7.根据权利要求1所述的一种村务公开数据智慧管理系统,其特征在于:所述公开信息向量处理模块分别获取每个关键词的信息决策指数,根据信息决策指数,将每个村务信息中的词分为四类,对于村务信息i,利用k‑means算法将m个词的信息决策指数F进行聚类,根据聚类簇中词的信息决策指数均值从大到小分别记为标志词、核心词、常见词、稀疏词。

8.根据权利要求7所述的一种村务公开数据智慧管理系统,其特征在于:

所述公开信息向量处理模块将每类聚类簇中的聚类中心作为每个公开信息向量中的第一个元素,后续元素按照与聚类中心度量距离从小到大的顺序排序,如果两个元素与聚类中心度量距离相同,则将信息决策指数较大的词作为次序靠前的元素,分别将村务信息i中标志词、核心词、常见词、稀疏词对应的公开信息向量记为 、 、 、,表示标志词,表示核心词,表示常见词,表示稀疏词,每个向量的长度是对应聚类簇中词的数量。

9.根据权利要求1所述的一种村务公开数据智慧管理系统,其特征在于:

所述词组权重模块对每个村务信息对应的标志词、核心词、常见词、稀疏词公开信息向量中抽取至少两个词组成组词,并分别将从标志词、核心词、常见词、稀疏词的公开信息向量中抽取的词组成词组记为标志词组、核心词组、常见词组、稀疏词组,对不同词组设置不同的决策权重,具体计算词组决策权重 的方式为:;

式中, 是村务信息i中词的决策比, 是村务信息i中词对应的公开信息向量中元素的数量,m是村务信息i中词的数量, 是词c的信息决策指数,X是标志词、核心词、常见词、稀疏词之一,是词组的长度,大小等于词组 中词的数量, 是N个村务信息内词中包含词组 的村务信息数量。

10.根据权利要求1所述的一种村务公开数据智慧管理系统,其特征在于:

所述决策优选比模块构建决策优选比 ,用于表征不同类词对于村务信息分类的影响程度,决策优选比 的具体计算公式为:;

式中, 是词组 的分割指数, 是词组 的决策权重, 是村务信息i对应的词组 的词组决策值, 是所有X词公开向量中包含词组 的村务数据词组决策值的分布方差, 是村务信息i对应第x类词中长度为 的词组决策值, 是所有X词公开向量中包含上述第x类词组的村务数据词组决策值的分布方差, 是上述第x类词组的决策权重, 是词的分类数量, 的大小取经验值4, 是词的公开向量长度,的含义是词组 中词的数量最少有两个,最多有 个。