1.一种基于三通道马尔可夫图的恶意文档检测方法,其特征在于:将恶意文档转化为三种单通道马尔可夫图,再将三种单通道图合成三通道马尔可夫彩色图,使用结合迁移学习的EfficientNet‑B0模型对马夫彩色图进行训练和测试;包括以下步骤:步骤1、统计文档的字节值出现次数;
步骤2、计算字节值的转移概率;
步骤3、计算三种字节值之间的转移矩阵;
步骤4、将三个转移矩阵转化为三个单通道马尔可夫图;
步骤5、将三个单通道马尔可夫图合成一个三通道马尔可夫彩色图;
步骤6、使用结合迁移学习的EfficientNet‑B0模型对三通道马尔可夫彩色图进行训练和测试;
更具体的步骤为:
步骤1、读取文档的字节流,将其视作一个随机过程,每个字节值作为一种特定的状态,即字节Bi∈{0,1,.,N},其中,N表示恶意文档字节值;遍历文档的所有字节的取值,统计每种取值出现的次数;
步骤2、若用Pi,j表示字节Bi后续第一个字节为Bj的转移概率,计算各个状态之间相互转移概率,具体计算公式如下:其中,frequency(i,j)表示字节Bi后续第一个字节为Bj的出现次数;同时,改进上述公式,若frequency(i,j)表示字节Bi后续第二个字节为B j的出现次数,可计算出字节Bi后续第二个字节为Bj的转移概率,设为Mi,j,同理,可计算出字节Bi后续第三字节为B j的转移概率,设为Ni,j;
步骤3、通过各个状态间的转移概率,计算出M1、M 2、M 3三个状态转移矩阵,即:步骤4、每一个矩阵中的值对应一张图像的像素点值,将三个转移矩阵转化为三个单通道马尔可夫图;
步骤5、将三个单通道马尔可夫图分别填充R、G、B三个通道,合成一个三通道马尔可夫彩色图;
步骤6、对EfficientNet‑B0模型进行适当的改进,将其全连接层的输出改为2,以适用恶意文档的二分类检测;在模型的训练前,加载ImageNet权重,并删除全连接层权重,再进行训练及测试;
所述步骤6最后进行预测分类。