利索能及
我要发布
收藏
专利号: 2018103534348
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种网络异常的检测定位方法,其特征在于,包括以下步骤:首先,将URL按照特殊字符进行划分,所述特殊字符指的是除字母、数字以外的字符;其次将划分后的URL使用word2vec进行词向量编码;然后,将词向量放至卷积层进行自动地特征处理;接着将卷积层结果与拥有序列注意力机制的注意力层相结合;最后将注意力层结果进行最大池化和全连接操作,得到最终的异常检测结果,同时注意力层的输出也用于对URL种的恶意代码进行定位;

所述将URL按照特殊字符进行划分具体包括步骤:首先,X=[x1,x2…xn]表示为一组URL的集合,集合其中的一条URL表示为xi=t1t2…tk…,tk表示在xi中的第k个单词.对于每一个xi而言,pi表示的是通过语言模型得到的序列概率;基于序列注意力机制的卷积神经网络模型的输出为Y'=[y'1,y'2…y'j…y'n],y'n表示X集合中第n个URL的预测标签,y'j表示X集合中第j个URL的预测标签,Y′它表示的是预测的标签,Y=[y1,y2…yj…yn]则表示的是原始的标签;

所述将划分后的URL使用word2vec进行词向量编码具体包括:对集合当中的每一条URL,采用的是word2vec中的CBOW模型,通过将训练得到的词向量作为下一层的输入,即xi可以通过谷歌研发的word2vec模型将单词转换为词向量,即xi=[v1,v2…vk…];

所述将词向量放至卷积层进行自动地特征处理具体包括:卷积层接受词嵌入层的词向量作为输入,一个卷积层中可以包含多个大小不同的滑动窗口,使用这些滑动窗口来提取特征并且以此方式来防止过拟合,每一个滑动窗口对应着一个卷积滤波器,H=[h1,h2…hk…]表示的是不同大小的卷积滤波器,重新定义了一个连接符号 的操作:假定卷积滤波器f,对应的滑动窗口大小为h,在xi中第k个特征是通过如下公式产生的:将所有的特征连接起来,可以得到一个特征图所述将卷积层结果与拥有序列注意力机制的注意力层相结合,具体包括:注意力层位于卷积层与池化层之间,当对当前单词的三个上下文(SA‑CNN‑3)和五个上下文(SA‑CNN‑5)使用序列注意力机制时,首先,在其中一条URL中,即在xi中,词向量vk的注意力值计算方式为:

在此处引入一个外部的语言模型,利用事先给定的URL来训练得到语言模型LSTM,对于任意一条URL xi中的每一个tk都有pi,k=pLSTM(tk|t1…tk‑1).由此,每个词向量vk的注意力值可重新被计算为:

ai,k=pi,k·ai,k‑1+(1‑pi,k)·ai,k将训练得到的最终的注意力值与卷积层的结果相结合得到如下公式:其中c′i,k=ai,k·ci,k;

所述将注意力层结果进行最大池化和全连接操作,得到最终的异常检测结果,具体包括:采用最大池化,当h=hi时,得到pooli=max{c′i,1,c′i,2…c′i,m}; 最终,池化层的结果为作为模型中的最后一层,全连接层使用的是softmax函数,根据函数y′i=max{POOL}得到预测的标签,最终结果为

2.根据权利要求1所述的一种网络异常的检测定位方法,其特征在于,所述特殊字符集合如下:

()[]|@+‑=:/;,^<>*!?{}#&“.”’%,并使用它们作为划分URL的依据,利用空格对其分割。

3.一种基于前述权利要求1‑2任一项的网络异常的检测定位系统,其特征在于,包括:预处理模块,用于将URL按照特殊字符进行划分处理,所述特殊字符指的是除字母、数字以外的字符;对URL进行编码训练的;自动提取URL特征的卷积层;序列注意力机制所在的注意力层;URL特征处理的池化层;得到URL检测结果的全连接层;

词嵌入层,用于将划分后的URL使用word2vec进行词向量编码;

卷积层,用于将词向量进行自动地特征处理;

注意力层,基于序列注意力机制;

池化层,用于将注意力层结果进行最大池化;

全连接操层,用于得到最终的异常检测结果,同时注意力层的输出也用于对URL种的恶意代码进行定位。