利索能及
我要发布
收藏
专利号: 202411231694X
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种分布式舆情信息监测方法,其特征在于,所述方法由工作节点执行,包括:接收任务调度中心发送的URL,解析URL并采集URL对应网页中的舆情信息;

利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息;

统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息;

分别计算负面信息的真实热度和预期热度,根据真实热度与预期热度的差值及设定的差值阈值认定超出预定热度的负面信息;

根据超出预定传播力的负面信息和超出预定热度的负面信息认定超出预定影响力的负面信息;

将超出预定影响力的负面信息打包成区块,将区块广播并连接至区块链中;

统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息,包括:各工作节点在设定的监听时长 内通过其维护的两个计数器统计 和 ,统计完毕的工作节点将 广播出去,收到广播的其他工作节点将其统计的 更新为 + ,持续统计与计数器更新,得到一个共同的 ;

计算负面信息传播系数 ;

根据负面信息传播系数 和设定的传播系数阈值 ,将满足 > 的负面信息认定为超出预定传播力的负面信息;

其中, 为各工作节点收到的负面信息中相同或相似的数量, 为所有负面信息中相同或相似的数量;

负面信息的真实热度的计算公式为:

式中, 为 时刻负面信息的真实热度, 、 和 分别为、和 时刻负面信息的信息热度, 、 和 通过

计算得到, 表示 时刻负面信息的信息热

度, 、 、 和 分别表示 时刻负面信息的浏览数、点赞数、评论数和转发数, 表示时间段, 表示时间间隔, 小于 , 和 由调度中心分配给工作节点;

负面信息的预期热度的计算公式为:

式中, 为在 时刻负面信息的预期热度, 为 时 的值, ;

负面信息的真实热度与预期热度的差值 ,将满足 的负面信息认定为超出预定热度的负面信息并记录该负面信息的真实热度作为热度系数;

其中,为调度中心分配给工作节点的差值阈值;

根据超出预定传播力的负面信息和超出预定热度的负面信息认定超出预定影响力的负面信息,包括:将超出预定传播力的负面信息的标签设置为 =1,将超出预定热度的负面信息的标签设置为 =1;

调用智能合约 计算 和 的与运算结果  ,将验证通

过 =1的负面信息认定为超出预定影响力的负面信息;

将超出预定影响力的负面信息打包成区块,将区块广播并连接至区块链中,包括:将所有通过智能合约 验证的的负面信息均上传至区块链并维护区块链账本;

其中,维护区块链账本包括:某一工作节点接收任务调度中心发送的令牌Token而获得区块链的记账权,其他工作节点将通过智能合约 验证超出预定影响力的负面信息发送给拥有记账权的工作节点,拥有记账权的工作节点根据超出预定影响力的负面信息的Hash值对接收到的所有信息进行去冗余操作;

所述任务调度中心被配置为:

以轮为单位,每轮开始对新的URL进行头部去除、域名大小写改换、去除参数信息、格式化及使用SHA‑256算法处理,将处理结果输入布隆过滤器中设置的多个哈希函数,得到布隆过滤器中的若干位置索引,检查各个位置是否都为1,若不是,则将该URL加入待处理队列的头部并将若干位置索引对应位置中存储的值设置为1;

接收工作节点的发送负载参数,根据工作节点编号 和负载参数维护一个优先队列,根据优先队列给工作节点分配对应的URL获取数量;

在超过预定数量的工作节点完成信息采集时开始下一轮信息采集;

在一轮信息采集完成后,广播指令通知工作节点进行信息分析;

设定负面系数阈值 广播给工作节点;

设定监听时长 、传播系数阈值 发送给工作节点;

设定时间段 、时间间隔 和差值阈值 发送给工作节点。

2.根据权利要求1所述分布式舆情信息监测方法,其特征在于,接收任务调度中心发送的URL,解析URL并采集URL对应网页中的舆情信息,包括:工作节点从任务调度中心的待处理队列的尾部获取URL并将获取的URL插入工作节点的待处理双端队列的头部;

工作节点维护实时更新的负载参数,并定时将负载参数汇报给任务调度中心,工作节点根据任务调度中心以工作节点的负载参数分配的URL获取数量而获取URL;

当待处理双端队列不为空时,从待处理双端队列的尾部弹出URL并解析:若获取的是导航页的URL,则该导航页中所有URL返回任务调度中心并加入待处理队列的头部,若获取的是详情页的URL,则对详情页进行解析;

根据解析得到的数据的类型对数据进行处理,得到舆情信息;

当一工作节点的待处理双端队列为空时,该工作节点广播一个已完成工作的消息,接收消息的繁忙工作节点将未处理的URL从其待处理双端队列的尾部弹出并发送给待处理双端队列为空的工作节点处理;

其中,根据解析得到的数据的类型对数据进行处理,包括:若数据的类型为文字,保留文字;若数据的类型为音频,根据音频的声音特征将音频转化为文字;若数据的类型为图像,根据图像的像素点将图像转化为二进制形式。

3.根据权利要求1所述分布式舆情信息监测方法,其特征在于,利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息,包括:将舆情信息输入深度学习模型,得到舆情信息的负面系数N;

根据负面系数N和设定的负面系数阈值N0,将满足N>N0的信息认定为负面信息;

其中,深度学习模型为改进的卷积神经网络模型,负面系数 等于改进的卷积神经网络模型输出的负面情感倾向的概率值,负面系数阈值N0根据当前网络舆情的实际情况调整。

4.根据权利要求1所述分布式舆情信息监测方法,其特征在于,还包括:工作节点使用SHA‑256算法对负面信息的账户信息、发布时间、信息内容顺序拼接后的字符串进行处理,得到负面信息的Hash值,将负面信息的账户信息、发布时间、信息内容和Hash值存储至数据库DBi中;在数据库DBi的存储容量为0前,工作节点将数据库DBi中内容发送至数据库DBw,数据库DBw根据接收到的负面信息的Hash值判断该负面信息是否重复存入数据库DBw,若是,则丢弃该接收到的负面信息;

其中,数据库 表示第i个工作节点维护的数据库,数据库DBw表示独立于工作节点外的数据库。

5.根据权利要求1所述分布式舆情信息监测方法,其特征在于,区块包括区块头和区块体,在设定时间内出现的多条舆情信息存储在同一区块体中并组织成一棵Merkle Tree,Merkle Tree的根哈希值存储在区块头中,一条舆情信息包括超出预定影响力的负面信息的账户信息、负面系数、传播系数、热度系数、信息内容和信息内容的Hash值;

当对某一舆情事件进行追责溯源时,通过舆情事件对应的舆情信息查询区块链,得到舆情事件的源头,包括:每个工作节点维护一个Map容器,Map容器的key为信息内容的Hash值,value为某一区块的Hash值,在对某一舆情事件进行溯源追责时,对舆情事件对应的舆情信息的信息内容使用SHA‑256算法处理,得到信息内容的Hash值,查询Map容器,得到若干区块的Hash值,在时间戳TS最小的区块中遍历所有的记录,获取其账户信息,找到舆情事件的源头。

6.一种分布式舆情信息监测系统,其特征在于,包括任务调度中心和工作节点,所述任务调度中心与多个所述工作节点构成树状网络结构,各所述工作节点间构成P2P网络结构,所述工作节点包括:数据采集模块,用于接收任务调度中心发送的URL,解析URL并采集URL对应网页中的舆情信息;

第一数据处理模块,用于利用深度学习模型对舆情信息进行分析计算,得到舆情信息的负面系数,根据负面系数和设定的负面系数阈值认定负面信息;

第二数据处理模块,用于统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息;

第三数据处理模块,用于分别计算负面信息的真实热度和预期热度,根据真实热度与预期热度的差值及设定的差值阈值认定超出预定热度的负面信息;

第四数据处理模块,用于根据超出预定传播力的负面信息和超出预定热度的负面信息认定超出预定影响力的负面信息;

数据存储模块,用于将超出预定影响力的负面信息打包成区块,将区块广播并连接至区块链中;

统计设定时间段内满足设定条件的负面信息的数量,根据设定时间段内满足设定条件的负面信息的数量计算负面信息传播系数,根据负面信息传播系数和设定的传播系数阈值认定超出预定传播力的负面信息,包括:各工作节点在设定的监听时长 内通过其维护的两个计数器统计 和 ,统计完毕的工作节点将 广播出去,收到广播的其他工作节点将其统计的 更新为 + ,持续统计与计数器更新,得到一个共同的 ;

计算负面信息传播系数 ;

根据负面信息传播系数 和设定的传播系数阈值 ,将满足 > 的负面信息认定为超出预定传播力的负面信息;

其中, 为各工作节点收到的负面信息中相同或相似的数量, 为所有负面信息中相同或相似的数量;

负面信息的真实热度的计算公式为:

式中, 为 时刻负面信息的真实热度, 、 和 分别为、和 时刻负面信息的信息热度, 、 和 通过

计算得到, 表示 时刻负面信息的信息热

度, 、 、 和 分别表示 时刻负面信息的浏览数、点赞数、评论数和转发数, 表示时间段, 表示时间间隔, 小于 , 和 由调度中心分配给工作节点;

负面信息的预期热度的计算公式为:

式中, 为在 时刻负面信息的预期热度, 为 时 的值, ;

负面信息的真实热度与预期热度的差值 ,将满足 的负面信息认定为超出预定热度的负面信息并记录该负面信息的真实热度作为热度系数;

其中,为调度中心分配给工作节点的差值阈值;

根据超出预定传播力的负面信息和超出预定热度的负面信息认定超出预定影响力的负面信息,包括:将超出预定传播力的负面信息的标签设置为 =1,将超出预定热度的负面信息的标签设置为 =1;

调用智能合约 计算 和 的与运算结果  ,将验证通

过 =1的负面信息认定为超出预定影响力的负面信息;

将超出预定影响力的负面信息打包成区块,将区块广播并连接至区块链中,包括:将所有通过智能合约 验证的的负面信息均上传至区块链并维护区块链账本;

其中,维护区块链账本包括:某一工作节点接收任务调度中心发送的令牌Token而获得区块链的记账权,其他工作节点将通过智能合约 验证超出预定影响力的负面信息发送给拥有记账权的工作节点,拥有记账权的工作节点根据超出预定影响力的负面信息的Hash值对接收到的所有信息进行去冗余操作;

所述任务调度中心被配置为:

以轮为单位,每轮开始对新的URL进行头部去除、域名大小写改换、去除参数信息、格式化及使用SHA‑256算法处理,将处理结果输入布隆过滤器中设置的多个哈希函数,得到布隆过滤器中的若干位置索引,检查各个位置是否都为1,若不是,则将该URL加入待处理队列的头部并将若干位置索引对应位置中存储的值设置为1;

接收工作节点的发送负载参数,根据工作节点编号 和负载参数维护一个优先队列,根据优先队列给工作节点分配对应的URL获取数量;

在超过预定数量的工作节点完成信息采集时开始下一轮信息采集;

在一轮信息采集完成后,广播指令通知工作节点进行信息分析;

设定负面系数阈值 广播给工作节点;

设定监听时长 、传播系数阈值 发送给工作节点;

设定时间段 、时间间隔 和差值阈值 发送给工作节点。