1.一种用于违规图片检测的方法,其特征在于,
违规图片检测的方法包括以下步骤:
步骤S1、数据接口模块获得用户发布图片数据,包括用户数据、图片数据、关联主题数据;
步骤S2、黑白名单过滤模块对用户发布图片数据进行黑白名单过滤,将对应结果输入违规决策模块执行第一违规判断操作,得到第一违规判断结果;若第一违规判断结果表征命中黑白名单,则通过数据接口模块输出第一违规判断结果;
步骤S3、若第一违规判断结果表征未命中黑白名单,则将用户发布图片数据输入图片预处理模块进行图片预处理操作,得到图片预处理结果;同时,将用户发布图片数据中的用户数据输入用户检测模块进行用户检测操作,得到用户检测结果;
图片预处理结果包括处理后的图片数据、图片分类结果;用户检测结果包括用户风险概率数值;
步骤S4、根据所述图片预处理结果中的图片分类结果进行操作:若图片分类结果为含文本类图片,则将图片预处理结果输入文本识别检测模块进行文本检测得到文本违规检测结果;若图片分类结果为非文本图片,则将图片预处理结果输入主题检测模块进行主题违规检测得到主题违规检测结果;
步骤S5、违规决策模块根据用户检测结果、文本违规检测结果、主题违规检测结果进行违规决策得到违规判定结果,并由数据接口模块输出;
其中,步骤S2中所述黑白名单过滤包括用户id黑白名单过滤、用户ip黑白名单过滤、图片黑白名单过滤;
步骤S4中所述主题检测模块通过以下方式实现主题违规检测:
根据图片预处理得到的图片分类结果匹配不同的检测模型,并将图片数据输入对应的检测模型进行检测,得到对应模型的违规检测结果,并拼装为违规检测结果列表;
根据违规检测结果列表计算主题违规风险概率数值,方法如下:
其中M为输入图片分类结果对应的检测模型集合, 为检测模型的绝对风险因数, 为对应检测模型的检测结果。
2.根据权利要求1所述的方法,其特征在于,
所述文本检测依靠违规文本数据库实现,所述违规文本数据库存储违规文本关键词;
所述主题违规检测依靠关联主题图片数据库实现,所述关联主题图片数据库存储关联主题的违规图片及主题标签;
所述黑白名单过滤依靠黑白名单数据库,所述黑白名单数据库用于存储用户id黑白名单、ip黑白名单及图片黑白名单。
3.根据权利要求1所述的方法,其特征在于,
所述用户id黑白名单过滤通过以下方式实现:将用户id作为关键字在黑白名单数据库中的用户id黑白名单列表中进行查询,并输出对应的查询结果,结果包含“0”、“1”、“2”,“0”表示用户id为白名单id,“1”表示用户id为黑名单id,“2”表示无查询结果;
所述用户ip黑白名单过滤通过以下方式实现:将用户ip作为关键字在黑白名单数据库中的ip黑白名单列表中进行查询,并输出对应的查询结果,结果包含“0”、“1”、“2”,“0”表示用户ip为白名单ip,“1”表示用户ip为黑名单ip,“2”表示无查询结果;
所述图片黑白名单过滤通过以下方式实现:将图片转化为灰度图并进行hash运算,得到图片关键编码,并以图片关键编码为关键字在黑白名单数据库中的图片黑白名单列表中进行查询,并输出对应的查询结果,结果包含“0”、“1”、“2”,“0”表示图片为白名单图片,“1”表示图片为黑名单图片,“2”表示无查询结果;其中hash运算采用MD5算法;所述图片黑白名单列表中存储有黑白名单图片关键编码及黑白名单标识,黑白名单图片关键编码同样通过灰度转化后进行hash运算得到。
4.根据权利要求1所述的方法,其特征在于,
步骤S3中所述图片预处理操作包括:图片滤波、图片增强、图像分类检测,具体步骤为:对输入图片按照图片编码方式进行读取并将色彩空间转化为RGB空间得到第一图片数据;
对第一图片数据进行图片滤波及图片增强处理,得到第二图片数据;对第二图片数据执行图片分类检测,得到图片分类数据。
5.根据权利要求4所述的方法,其特征在于,
所述图片滤波通过以下算法实现:对于输入图片转化为灰度图并按照预设的映射方式得到增维的三维矩阵;对三维矩阵按照预设变换方式得到增维度矩阵IX及权重矩阵EX;通过空间插值获得滤波后图像;
所述图片增强通过以下算法实现:
将图片(i,j)位置的像素点 按照如下方式进行变换,得到处理后的处理后位置的像素 :其中depth表示图片增强强度,中档增强时取depth=2,增强时取depth=2.5。
6.根据权利要求4所述的方法,其特征在于,
所述图片分类检测通过以下方式进行:
对第二图片数据进行图片特征提取得到第一图片特征数据,并输入已训练的第一图片分类模型,得到第一图片分类结果;其中第一图片分类模型用于区分图片是否包含文本;第一图片分类结果为“T”或“N‑T”,“T”表示图片包含文本,“N‑T”表示图片不包含文本;
当第一图片分类结果为“T”时,结束图片分类检测并输出包含第一图片分类结果的列表;当图片分类结果为“N‑T”时,将第一图片特征数据输入第二图片分类模型,得到第二图片分类结果,结束图片分类检测并将第一图片分类结果与第二图片分类结果进行合并输出;其中第二图片分类模型用于识别检测图片涉及的主题标签,第二图片分别类结果为包含图片主题标签字符串的列表。
7.根据权利要求6所述的方法,其特征在于,
所述第一图片分类模型通过以下方式得到:通过人工筛选方式取得第一模型原始数据,包括图片数据与图片是否包含文本的标签;将第一模型原始数据拆分为第一模型训练集和第一模型测试集;采用逻辑回归算法通过第一模型训练集训练第一图片分类模型并依靠第一模型测试集进行评估优化,输出满足召回率和准确率要求的第一图片分类模型;
所述第二图片分类模型为卷积神经网络分类器。
8.根据权利要求1所述的方法,其特征在于,
步骤S3中所述用户检测操作通过以下方式进行:
用户检测模块对输入的用户信息及设备环境信息进行特征提取,得到用户特征数据,并将用户特征数据输入至已训练的用户分析模型,得到用户风险概率数值。
9.一种用于违规图片检测的图片检测引擎,其特征在于,
图片检测引擎包括数据接口模块、黑白名单过滤模块、图片预处理模块、文本识别检测模块、主题检测模块、违规决策模块、用户检测模块、引擎数据库、引擎管理模块;
所述数据接口模块用于获取用户发布图片请求数据、从外部数据库获取用户信息数据、输出图片合规检验结果;所述黑白名单过滤模块用于用户发布图片的黑白名单过滤;所述图片预处理模块用于读取用户发布图片数据、进行图片格式转换、进行图片裁剪旋转变换、将图片根据内容分类;所述文本识别检测模块用于提取含文本类图片的文本内容并进行文本违规检测;所述主题检测模块用于根据用户发布图片请求数据中的关联主题类型对图片进行违规检测;所述用户检测模块用于根据用户行为数据计算用户风险概率;所述引擎数据库用于存储图片检测引擎所依赖的数据,包括违规文本数据库、关联主题图片数据库、黑白名单数据库;所述违规决策模块用于根据黑白名单过滤模块、文本识别检测模块、主题检测模块、用户检测模块的结果判断图片是否违规;所述引擎管理优化模块用于支持图片引擎的关键参数优化;
其中,所述主题检测模块通过以下方式实现主题违规检测:
根据图片预处理得到的图片分类结果匹配不同的检测模型,并将图片数据输入对应的检测模型进行检测,得到对应模型的违规检测结果,并拼装为违规检测结果列表;
根据违规检测结果列表计算主题违规风险概率数值,方法如下:
其中M为输入图片分类结果对应的检测模型集合, 为检测模型的绝对风险因数,为对应检测模型的检测结果。