利索能及
我要发布
收藏
专利号: 2020109480809
申请人: 深圳信息职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图像的大数据分析方法,其特征在于,包括以下步骤:步骤1、图像采集:根据指定关键词通过网络爬虫对互联网中的相关图像、图片进行采集;

采集后的图像、图片通过网络防火墙和杀毒软件进行木马、网络攻击的隔绝和查杀;

步骤2、图像预处理:对采集的图像、图片进行背景差分和滤波去噪,进一步完成缩小和放大换,从而获得固定大小的图像、图片样本;

对固定大小的图像、图片样本进行灰度化处理,并通过中值滤波和形态学方法增强图像,确保图像、图片的主要纹理特征清晰可辩;

利用直方图均衡化技术对图像、图片进行处理,使其满足统一的均值和方差,进而得到标准图像、图片;

步骤3、特征提取:建立图像的高斯金字塔,对图像进行分块处理,使其呈现一种层次金字塔的结构,进一步分别统计每一块子结构的特征,直至所有结构特征统计完毕后拼接成完整的特征;

利用PCA算法对图像、图片进行将维处理,处理后存入图库中;

利用K均值聚类方法进行特征集离散化处理,并将离散化处理后的特征转换成邻域特证;

步骤4、建立图像特征索引:利用倒排索引技术对图像特征进行快速检索;

步骤5、图像特征匹配:设定一个检索特征,在量化后,对应于待检索特征在倒排检索中索引项Wi被确定,进一步索引项Wi所对应的一系列相关的索引特征会作为候选匹配结果,两个图像特征向量X和Y之间的匹配函数定义如下:fq(x,y)=σq(x),q(y)。

2.根据权利要求1所述的一种基于图像的大数据分析方法,其特征在于,所述降维处理的具体子步骤如下:

S1、针对已有的数据集P=(P1、PZ……Pn)通过公式 计算平均值;

S2、用原数据减去均值得到Pi′=pi-m,然后通过公式 计算协方差矩阵;

S3、计算协方差矩阵的特征值E1、E2……Em和特征向量EV1、EV2……EVm,进一步将特征值按照从大到小的顺序排列,得到E1′、E2′……Em′以及相应的特征向量EV1′、EV2′……EVm′;

S4、根据特征值的大小选取前32个,将原数据由原来的128维降低到新的32维,完成针对原数据降维处理;

3.根据权利要求2所述的一种基于图像的大数据分析方法,其特征在于,特征向量代表原始数据的分布方向,特征向量对应的特征值越大,该特征向量越重要。

4.根据权利要求1所述的一种基于图像的大数据分析方法,其特征在于,所述特征集离散化处理方法包括以下子步骤:

A1、从图库中提取大量特征集,利用K均值聚类对其作离散化处理,聚标记即是图像、图片的索引值,将特征集划分成K个离散的聚类;

A2、利用迭代的方式将每一个特征划分到距离其最近的聚类中,其中类间距离度量上采用单连接法,对任意两个聚类Ci、Cj,单连接法的计算公式为:dist(ci,cj)=min{dist(xi,xj)|xi∈ci,xj∈cj}。

5.根据权利要求4所述的一种基于图像的大数据分析方法,其特征在于,所述A1中K值数量取10000。

6.根据权利要求1所述的一种基于图像的大数据分析方法,其特征在于,所述步骤5中q为量化函数,将特征向量映射为离其最近的簇中心。