利索能及
我要发布
收藏
专利号: 2024100734437
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大数据的数据挖掘系统,其特征在于,包括:数据采集单元,用于:

对基本数据、图像数据和视频数据文件进行采集并生成基础数据文件,对基本数据的文本信息进行信息读取得到关键词集合,对图像数据文件进行文字信息及图片特征提取,并对基本数据中的关键词集合以及图像数据文件中的文字信息及图片特征进行抓取,并生成抓取数据集;

数据存储单元,用于:

与云平台交互,对基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域进行数据集分布式存储及加密,同时基于云平台中通过网络对数据进行共享;

数据挖掘单元,用于:

提取抓取数据集的关键字节进行校验并对异常数据进行剔除,生成去异数据,基于去异数据对基础数据文件进行数据清洗并生成确定数据集;

数据反馈单元,用于:

对云平台进行数据检索和检索结果显示及提醒;

云平台,用于:

通过云端储存和编辑后,将分类信息输送至数据存储单元,并将反馈信息回传;

用户终端,用于:

用于对数据采集单元、数据存储单元、数据挖掘单元和数据反馈单元进行储存、运行和实施,包括不少于一个登录端及不少于一个控制终端,当控制终端工作时,运行数据采集单元、数据存储单元、数据挖掘单元和数据反馈单元并实现基于大数据的数据挖掘系统,登录端通过互联网连接到控制终端、云平台和服务器;

所述数据采集单元包括:

文件采集模块,用于:

对基本数据、图像数据和视频数据文件进行采集,并基于基本数据、图像数据和视频数据文件生成基础数据文件;

文本读取模块,用于:

对基本数据的文本信息进行信息读取,对文本信息进行信息分割并得到文本信息中的若干个提取词语,根据词性统计特征对提取词语进行清洗,得到关键词集合;

图像处理模块,用于:

对图像数据文件进行文字信息及图片特征提取,对图像数据文件创建关联戳,获取每一个图像数据文件的关联戳,每一个图像数据文件的关联戳为全局唯一关联戳,对每一个图像数据文件所提取出的文字信息及图片特征进行关联戳关联;

视频处理模块,用于:

对视频数据文件进行视频关键段截取,对视频关键段进行分帧处理,得到若干帧视频图像,确定每个视频图像中的关键区域,每个视频图像中包括一个关键区域;

信息抓取模块,用于:

对基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域进行抓取,并基于所抓取的数据生成抓取数据集;

所述视频处理模块确定每个视频图像中的关键区域时结合得到的若干帧视频图像进行确定,包括:针对视频图像进行图像识别,识别视频图像中出现的成像情况,得到图像识别结果;

根据图像识别结果针对视频图像进行分割,将视频图像分成多个区域;

结合相邻帧视频图像针对视频图像通过如下公式进行分析:,

上述公式中, 表示第 块区域的分析数据值, 表示符号函数, 表示第 帧视频图像的第 块区域中第 个特征点的图像信息, 表示第 帧视频图像的第 块区域中第个特征点的图像信息, 表示第 帧视频图像的第 块区域中第 个特征点的图像信息, 表示第 帧视频图像的第 块区域中特征点的数目, 表示第帧视频图像的第 块区域中特征点的数目, 表示第 帧视频图像的第 块区域中特征点的数目,表示视频图像的总帧数, 表示第 块区域的分析结果,当 时,表示第 块区域用于构成关键区域,当 时,表示第 块区域不用于构成关键区域;

参照分析结果将用于构成关键区域的区域结合在一起形成视频图像的关键区域。

2.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据存储单元包括:数据储存模块,用于:

与云平台交互,对基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域进行数据集分布式存储,并通过云平台对数据存储信息进行定位;

数据加密模块,用于:

与数据储存模块交互,对数据集分布式存储进行加密处理;

数据共享模块,用于:

与云平台交互,对云平台中的数据进行处理并通过网络进行共享。

3.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据挖掘单元包括:异常剔除模块,用于:

提取抓取数据集的关键字节进行校验,并对关键字节进行关联分析,确定出存在异常的区别关键字节,并从各项数据中提取区别关键字节对应的异常数据进行剔除,并基于剔除异常数据后的抓取数据集生成去异数据;

数据清洗模块,用于:

基于去异数据对基础数据文件进行数据清洗,数据清洗时基于去异数据所对应的关联戳对基础数据文件进行清洗筛选,生成确定数据集。

4.如权利要求3所述的一种基于大数据的数据挖掘系统,其特征在于:所述异常剔除模块在进行校验时对抓取数据集进行关联分析,搭建数据关联分析模型,将抓取数据集输入至数据关联分析模型中进行数据分析,基于数据分析结果输出分析报告。

5.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据反馈单元包括:快速检索模块,用于:

与云平台交互并基于索引系统对外提供查询服务;

数据反馈模块,用于:

根据快速检索模块的检索结果,通过显示设备进行显示和提醒。

6.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述云平台包括:云端数据库,用于:

将接收到的基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域依据数据流标签进行分类储存;

数据处理模块,用于:

将分类储存的数据依据流属性信息和数据内容进行分组,并分类标记,分组包括基本数据集、图像数据集及视频数据集;

数据匹配模块,用于:

将数据处理模块处理分组后的数据集分别根据数据存储单元属性信息匹配生成相对应的数据流的数据要求,并将该数据流的数据要求与数据集对接。

7.如权利要求2所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据加密模块包括:加密管理子模块,用于:

按照数据集分布式存储的分布情况分成多个部分,在每一部分中寄存加密方法,然后针对加密方法进行使用记录,并针对加密方法使用过程中的密钥进行密钥管理,在使用记录中结合密钥管理形成密钥索引;

加密处理子模块,用于:

与数据储存模块交互获取数据集分布式存储的分布式存储信息,针对根据分布式存储信息调取对应部分中的加密方法进行加密处理,同时将加密处理过程中的密钥反馈到加密管理子模块中。

8.一种根据权利要求1‑7中任一项所述的基于大数据的数据挖掘系统的挖掘方法,其特征在于:包括如下步骤:步骤一:数据采集单元采集基本数据、图像数据和视频数据文件并生成基础数据文件,基于基础数据文件进行特征抓取并生成抓取数据集;

步骤二:数据存储单元对抓取数据集进行数据集分布式存储及加密;

步骤三:数据挖掘单元对异常数据进行清洗和剔除并生成确定数据集;

步骤四:数据存储单元基于云平台对确定数据集进行存储;

步骤五:数据存储单元通过网络对数据进行共享,数据反馈单元基于云平台对数据进行检索和显示。