利索能及
我要发布
收藏
专利号: 2024115222910
申请人: 珠海晞曼科技有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-05-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种数据防泄漏体系的搭建方法,其特征在于,所述方法包括:

获取来自不同数据源的多个数据集,针对每个数据集进行数据预处理,采用数据挖掘方法进行特征提取,得到多个数据集的敏感度特征,根据预设的敏感度评估标准,筛选出若干个对数据泄露风险具有显著影响的关键特征;

针对若干个关键特性,构建多源异构数据的敏感度融合模型,通过设置权重参数,将不同数据源的关键特征进行加权融合,得到融合后的目标敏感度特征集合,采用主成分分析法对目标敏感度特征集合进行降维处理,提取出影响数据泄漏风险贡献度的主成分特征;

根据主成分特征,构建数据泄漏风险预测模型,采用支持向量机算法对模型进行训练并得到数据泄漏风险预测模型,将待预测的多源异构数据输入至风险预测模型中,计算出数据组合的泄漏风险得分;

预设敏感度阈值,判断泄漏风险得分是否超过预设的敏感度阈值,若超过该阈值,则将该数据组合标记为高度敏感数据,触发预警机制,根据预设的脱敏规则和加密方法对该数据组合实施脱敏和加密;

持续监测不同数据源的数据更新情况,当检测到新增数据时,自动触发数据融合和泄漏风险预测流程并获取新增数据的敏感度特征表示,更新数据泄漏风险预测模型,动态调整数据组合的敏感程度和防护措施;

基于业务需求和数据使用场景,制定数据访问和共享策略,对于泄漏风险低但敏感程度高的数据组合,严格限制数据的访问和流转,确保数据安全,对于泄漏风险高但敏感程度低的数据组合,根据用户权限和访问审批规则,允许授权用户在一定范围内使用和分析数据。

2.根据权利要求1所述的方法,其特征在于,所述获取来自不同数据源的多个数据集,针对每个数据集进行数据预处理,采用数据挖掘方法进行特征提取,得到多个数据集的敏感度特征,根据预设的敏感度评估标准,筛选出若干个对数据泄露风险具有显著影响的关键特征,包括:根据数据源接口适配器获取关系型数据库中的数据,并通过FTP协议读取文件服务器上的数据文件;

执行数据抽取转换加载流程,得到原始数据集;

针对原始数据集执行数据清洗、标准化和结构化转换,获取预处理数据集;

对预处理数据集降维提取主要特征,并计算各特征对数据泄露风险的影响程度;

若信息增益比超过预设阈值,则将该特征纳入候选特征集;

根据候选特征集构建特征重要性评估模型,通过递归特征消除方法迭代剔除重要性最低的特征,直至剩余特征数量达到预设目标;

对剩余特征进行归一化处理,得到标准化后的关键特征数据集;

利用Apriori算法对标准化后的关键特征数据集进行关联规则挖掘,计算特征对之间的支持度和置信度;

根据支持度和置信度绘制特征关联网络图,采用Dijkstra最短路径算法识别风险传播路径;

还包括:对每个数据集的数据类型、结构和内容进行分析,交叉比对不同数据集中的字段和信息,识别存在关联的数据项,利用关联规则挖掘或图形化分析数据关联分析方法找出不同数据集之间的潜在关联关系,评估数据集组合后产生的新信息或推断,识别出潜在风险点,潜在风险点包括个人隐私泄露和敏感信息推断。

3.根据权利要求2所述的方法,其特征在于,所述对每个数据集的数据类型、结构和内容进行分析,交叉比对不同数据集中的字段和信息,识别存在关联的数据项,利用关联规则挖掘或图形化分析数据关联分析方法找出不同数据集之间的潜在关联关系,评估数据集组合后产生的新信息或推断,识别出潜在风险点,潜在风险点包括个人隐私泄露和敏感信息推断,包括:获取各数据集的元数据信息,从元数据信息中提取数据类型、结构及字段信息;

根据字段信息计算字段名称的Jaccard相似度,对数值型字段计算数据特征的皮尔逊相关系数;

若Jaccard相似度或皮尔逊相关系数大于预设的相似度阈值,则确定相应字段为潜在关联字段对;

应用Apriori算法挖掘数据集间的频繁项集;

针对频繁项集计算关联规则的支持度和置信度,若支持度大于预设的最小支持度且置信度大于预设的置信度阈值,则判定为强关联的数据项组合;

利用强关联的数据项组合构建数据关联网络,采用Louvain算法检测数据关联网络中的紧密关联数据子集;

基于数据关联网络,预测信息泄露风险,得到风险评分;

若风险评分高于预设的风险阈值,则将相应节点标记为高风险节点。

4.根据权利要求1所述的方法,其特征在于,所述针对若干个关键特性,构建多源异构数据的敏感度融合模型,通过设置权重参数,将不同数据源的关键特征进行加权融合,得到融合后的目标敏感度特征集合,采用主成分分析法对目标敏感度特征集合进行降维处理,提取出影响数据泄漏风险贡献度的主成分特征,包括:获取多个异构数据源的预设评分标准,预设评分标准包括数据更新频率、数据完整性和异常值比例;

根据预设评分标准计算每个数据源的可靠性得分,得到数据源权重向量;

采用随机森林算法,结合数据源可靠性得分计算各数据源中关键特征的重要性得分,通过数据源权重与特征重要性得分的乘积构建加权特征融合矩阵;

利用加权特征融合矩阵对不同数据源的关键特征进行加权求和运算,若存在同名特征,则采用加权平均方法进行融合,得到融合后的目标敏感度特征集合;

对融合后的目标敏感度特征集合进行Z‑score标准化处理,消除不同特征间的量纲差异;

针对标准化后的目标敏感度特征集合,计算特征协方差矩阵并求解特征值和特征向量,选取累计贡献率达到预设阈值的前若干个主成分,按特征值大小降序排列,得到降维后的主成分特征集。

5.根据权利要求1所述的方法,其特征在于,所述根据主成分特征,构建数据泄漏风险预测模型,采用支持向量机算法对模型进行训练并得到数据泄漏风险预测模型,将待预测的多源异构数据输入至风险预测模型中,计算出该数据组合的泄漏风险得分,包括:获取历史样本数据库及日志文件中的已知风险等级样本,针对样本数据进行缺失值填充及异常值检测处理;

根据处理后的样本数据,确定主成分特征作为输入变量,风险等级作为输出变量,得到标准化的训练数据矩阵;

采用网格搜索方法对支持向量机的核函数类型和惩罚参数C及核函数参数γ进行优化,若惩罚参数C的搜索范围为预设的第一数值至第二数值,且核函数参数γ的搜索范围为预设的第三数值至第四数值,则通过交叉验证确定最优参数组合;

根据最优参数组合,训练支持向量机模型,采用序列最小优化算法求解对偶问题,得到支持向量及决策函数;

对待预测的多源异构数据,通过特征提取及主成分变换,获取与训练数据相同格式的主成分特征表示,将主成分特征表示输入至训练好的支持向量机模型中,判断数据组合的泄漏风险得分。

6.根据权利要求1所述的方法,其特征在于,所述预设敏感度阈值,判断泄漏风险得分是否超过预设的敏感度阈值,若超过该阈值,则将该数据组合标记为高度敏感数据,触发预警机制,根据预设的脱敏规则和加密方法对该数据组合实施脱敏和加密,包括:从数据库获取待评估数据组合的泄漏风险得分,判断风险得分是否超过敏感度阈值;

若风险得分超过敏感度阈值,则将数据组合标记为高度敏感数据,并生成包含数据ID和风险得分及触发时间的预警信息;

根据数据组合中敏感信息类型及高度敏感数据标记,从预设脱敏规则库中选择相应脱敏算法对数据组合进行脱敏处理;

针对脱敏处理后的数据组合,根据数据敏感程度及处理性能要求,在AES和RSA或同态加密算法中选择加密算法进行加密处理,得到加密后的数据组合;

将加密后的数据组合存储至安全审计数据库,并记录脱敏处理及加密处理的信息。

7.根据权利要求1所述的方法,其特征在于,所述持续监测不同数据源的数据更新情况,当检测到新增数据时,自动触发数据融合和泄漏风险预测流程并获取新增数据的敏感度特征表示,更新数据泄漏风险预测模型,动态调整数据组合的敏感程度和防护措施,包括:接收数据源发送的更新状态信息,更新状态信息包括新增数据的时间戳和数据源标识;

根据更新状态信息调用数据融合模块,数据融合模块采用基于时间戳比对的增量更新策略,将新增数据与现有数据进行整合;

对数据融合模块生成的融合数据集进行特征提取,采用主成分分析方法对特征进行降维处理,获取新的敏感度特征表示;

将敏感度特征表示输入数据泄漏风险预测模型,得到更新后的风险得分;

若更新后的风险得分与预设阈值存在偏差,则采用随机梯度下降算法对数据泄漏风险预测模型进行在线学习和增量训练,更新数据泄漏风险预测模型的参数;

根据更新后的风险得分,调整相应数据组合的防护措施,包括加密强度或访问控制级别;

将数据泄漏风险预测模型的参数更新和防护措施调整信息记录至安全审计数据库。

8.根据权利要求1所述的方法,其特征在于,所述基于业务需求和数据使用场景,制定数据访问和共享策略,对于泄漏风险低但敏感程度高的数据组合,严格限制数据的访问和流转,确保数据安全,对于泄漏风险高但敏感程度低的数据组合,根据用户权限和访问审批规则,允许授权用户在一定范围内使用和分析数据,包括:获取数据泄漏风险和敏感程度信息,构建数据风险矩阵,数据风险矩阵包括横轴表示泄漏风险和纵轴表示敏感程度;

根据数据风险矩阵将数据组合映射到若干象限,针对所述象限制定访问和共享策略,其中针对高风险低敏感度象限采用临时授权和全程监控策略;

若判断数据组合属于泄漏风险低但敏感程度高的象限,则实施强访问控制机制,强访问控制机制包括多因素认证和细粒度授权;

若判断数据组合属于泄漏风险高但敏感程度低的象限,则设计动态授权机制,动态授权机制包括经过部门主管、数据安全官和系统管理员三级审批后授予临时访问权限;

部署全方位日志审计和异常监测系统,全方位日志审计和异常监测系统利用隔离森林算法实时分析用户行为模式,得到异常访问检测结果。