1.基于机器学习的审批工作流数据智能筛查方法,其特征在于,包括:S10将从审批工作流数据中筛选的审批工作表作为样本;
S20根据获取到的所有样本之间的余弦距离选取预设邻域ε( );
S30基于预设邻域ε( )、最小邻域样本数阈值MinPts,利用DBSCAN算法来获取所述样本的核心对象以及所述核心对象在预设邻域ε( )范围下的样本数量M;
S40基于所述核心对象获取其在预设邻域ε(eps)中的密度分布表现,所述密度分布表现包括:样本密集程度、核心对象分布倾向特征程度、样本周期性分布程度;
S50基于所述密度分布表现获取核心对象的扩展判断值,根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域ε(eps),得到调整后的预设邻域 ;
S60基于所述调整后的预设邻域 、步骤S30获取的样本数量M,继续利用DBSCAN算法来获取所述样本的核心对象以及所述核心对象在调整后的预设邻域 下的样本数量M,基于所述样本数量M的大小判断样本是否异常。
2.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S20进一步包括:S210,获取任意两样本之间的同类别数据,计算两同类别数据之间的余弦距离;
S220,获取所述两样本的所有类别数据的余弦相似度,从而获取所述两样本的余弦相似度;
S230,获取所有样本之间的余弦距离;
S240,基于所有样本之间的余弦距离确定预设邻域ε( )。
3.如权利要求2所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S210进一步包括:S2100,获取每一样本的多种类别数据,将每一样本的多种类别数据转化为对应的文本向量;
S2110,计算选取的两样本的同种类别数据各自转化的文本向量的余弦距离,获取所述两样本的同种类别数据的余弦距离;
S2120,计算所述两样本的所有类别数据的余弦相似度,获取该两样本的余弦相似度。
4.如权利要求2所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S220进一步包括:S2200根据余弦相似度算法获取的同种类别数据的余弦相似度,从中选取余弦距离值最大的类别,记作标记类别;
S2210计算两样本所有的同类别数据的余弦距离的和与获取到的标记类别的权重的比值,得到两审批工作表之间的余弦距离。
5.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S40进一步包括S410,基于表征预设邻域ε( )内样本数量的权重系数、任意两个样本之间的平均余弦距离以及任意样本之间最大余弦距离获取核心对象在所述预设邻域ε( )内的样本密集程度,其中,所述权重系数为所述核心对象预设邻域ε( )内的样本所占的面积 与所述核心对象预设邻域ε( )的整体面积 的比值。
6.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S40进一步包括S420,基于各样本到核心对象的余弦距离、样本到核心对象的余弦距离的标准差、倾向系数获取核心对象分布倾向特征程度,所述倾向系数为所述核心对象的预设邻域ε(eps)内的一半面积范围内样本所占的面积与所述核心对象预设邻域ε(eps)内的一半面积的比值。
7.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述S40进一步包括S430:通过八邻域各方向上的相邻样本的周期权重和周期表现来确定各方向上的周期性分布程度,对各方向上的周期性分布程度筛选最大值,从而获取核心对象的样本周期性分布程度,所述相邻样本的周期权重为相邻样本的余弦距离差异以及两所述相邻样本与样本平均距离的差异确定的;
所述周期表现为两所述相邻样本在以当前方向的样本平均余弦距离为时所包含的样本点数量的比值。
8.如权利要求1所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述基于所述密度分布表现获取核心对象的扩展判断值,进一步包括:所述核心对象的扩展判断值公式如下:
;
表示第i个核心对象的扩展判断值; 表示第i个核心对象分布倾向特征程度;表示第i个核心对象的样本密集程度;表示第i个核心对象的样本周期性分布程度,为归一化函数。
9.如权利要求6所述的基于机器学习的审批工作流数据智能筛查方法,其特征在于,所述根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域ε(eps),得到调整后的预设邻域 ,包括:若扩展判断值大于判断值阈值,则比较核心对象分布倾向特征程度与预设核心对象倾向特征阈值,若核心对象分布倾向特征程度大于预设核心对象倾向特征阈值,则调整后的预设邻域的公式如下:;
若核心对象分布倾向特征程度小于或者等于预设核心对象倾向特征阈值,则调整后的预设邻域的公式如下:;
表示第i个核心对象的扩展判断值。
10.基于机器学习的审批工作流数据智能筛查系统,其特征在于,包括:第一预处理单元(300),将从审批工作流数据中筛选的审批工作表作为样本;
第二预处理单元(310),根据获取到的所有样本之间的余弦距离选取预设邻域;
筛选单元(320),基于预设邻域ε( )、最小邻域样本数阈值MinPts,利用DBSCAN算法来获取所述样本的核心对象以及所述核心对象在预设邻域ε( )范围下的样本数量M;
分析单元(330),基于所述核心对象获取其在预设邻域中的密度分布表现,所述密度分布表现包括:样本密集程度、核心对象分布倾向特征程度、样本周期性分布程度;
调整单元(340),基于所述密度分布表现获取核心对象的扩展判断值,根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域,获取调整后的预设邻域;
计算单元(350),基于所述调整后的预设邻域 、所述样本数量M,继续利用DBSCAN算法来获取所述样本的核心对象以及所述核心对象在调整后的预设邻域 下的样本数量M,基于样本数量M的大小判断样本是否异常。