1.一种基于几何向量的对抗样本生成方法,其特征在于,包括如下步骤:步骤1,对合法域名数据集和DGA域名数据集进行数据预处理;
步骤2,在数据预处理后进行模型预训练:初始化ATN网络的生成网络和目标网络,使生成网络在合法域名数据集上预训练,目标网络在合法域名数据集和DGA域名数据集上预训练;
步骤3,重复步骤(a)‑(f),直到收敛,得到DGA域名对抗样本:(a)将合法域名输入ATN网络生成合法域名对抗样本,并得到扰动损失;
(b)将合法域名和以及合法域名对抗样本输入噪声扰动方向函数得到噪声;
(c)将噪声和DGA域名输入扰动网络得到DGA域名对抗样本;所述扰动网络为基于几何向量的扰动网络;步骤(c)的计算公式如下:M′=R(M,Z)=|2X′‑M+Z|%|V|
其中,M′表示DGA域名对抗样本,M表示DGA域名,R表示扰动网络,Z表示噪声,|V|表示域名数据字符字典V的大小;
(d)将DGA域名对抗样本输入目标网络,得到目标网络损失;
(e)利用扰动损失和目标网络损失得到目标损失函数;
(f)通过最小化目标损失函数更新ATN网络。
2.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤1的方法为:步骤1.1,对合法域名数据集和DGA域名数据集中的域名数据建立字符字典,并通过one‑hot编码,得到编码后的合法域名数据向量和DGA域名数据向量;
步骤1.2,对合法域名数据集和DGA域名数据集中的域名数据以数据长度最长为准,对不足长度的域名数据进行数字0填充。
3.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤2中,生成网络使用极大似然估计在合法域名数据集上预训练。
4.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤2中,目标网络使用最小化交叉熵在合法域名数据集和DGA域名数据集上预训练。
5.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤(a)中所述扰动损失为ATN网络生成合法域名对抗样本的损失,即目标网络对产生的合法域名对抗样本的加权平均,其计算公式如下:其中,LG表示扰动损失,GD,θ表示ATN网络,θ为ATN网络的参数向量,X表示合法域名,Γ表示合法域名数据集,D表示目标网络。
6.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤(b)中所述噪声扰动方向函数的计算公式如下:Z(X,GD,θ(X))=X‑GD,θ(X)=X‑X′其中,Z为噪声,X表示合法域名,X′表示合法域名对抗样本,GD,θ表示ATN网络,θ为ATN网络的参数向量。
7.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤(d)中所述目标网络损失为判断输入DGA域名数据生成的DGA域名对抗样本的概率,其计算公式如下:其中,LD表示目标网络损失,M表示DGA域名,T表示DGA域名数据集,R表示扰动网络,X表示合法域名,Z表示噪声,D表示目标网络。
8.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤(e)中所述目标损失函数的计算公式如下:其中,L表示目标损失函数,LG表示扰动损失,LD表示目标网络损失,GD,θ表示ATN网络,θ为ATN网络的参数向量,X表示合法域名,M表示DGA域名,R表示扰动网络,Z表示噪声;β为权重系数,以平衡扰动损失和目标网络损失,β∈(0,1)。
9.根据权利要求1所述的基于几何向量的对抗样本生成方法,其特征在于,步骤(f)中通过最小化目标损失函数更新ATN网络的参数向量,其计算公式如下:其中,θ表示ATN网络的参数向量,L表示目标损失函数,α为学习率。