利索能及
我要发布
收藏
专利号: 2024111379091
申请人: 三峡大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于Hash函数和FPN‑Transformer的恶意代码分类方法,其特征在于,使用哈希函数对待分类的代码文件数据进行压缩处理,降低特征数据的维度并减少噪声;将特征金字塔网络FPN和Transformer模型相结合,构建FPN‑Transformer模型,为多层回归特征提取模型提供多层次和多视角的特征数据;利用多层回归特征提取模型对FPN‑Transformer模型提取的不同层次的特征进行综合和融合,根据融合结果输出最终的代码分类结果;

所述恶意代码分类方法包括以下步骤:

步骤1:数据预处理,利用自然语言处理模型从待分类的代码文件的代码中提取初步的特征数据,捕获代码的语义和结构信息;

步骤2:对步骤1中获得的特征数据进行哈希随机压缩处理,降低特征数据的维度并减少噪声;

步骤2.1:使用哈希函数将预处理后的特征值映射到哈希函数空间;

步骤2.2:根据预设的阈值筛选得到重要特征,减少无关特征的影响;

步骤3:使用FPN‑Transformer模型对压缩后的特征数据进行深层次分析和特征提取;

步骤3.1:将输入样本特征数据转换为嵌入向量;

步骤3.2:对嵌入向量进行不同大小的平均池化操作,生成多组特征映射数据;

步骤3.3:将步骤3.2得到的多组特征映射数据在特征维度上拼接在一起,形成一个特征补丁;

步骤3.4:将步骤3.3得到的特征补丁输入编码器进行处理;

步骤3.4.1:利用多头注意力机制单元计算输入特征之间的相关性,生成注意力权重矩阵;

步骤3.4.2:利用前馈神经网络会对多头注意力机制单元输出的特征进行非线性变换;

步骤3.4.3:对前馈神经网络输出的特征数据进行归一化处理;

步骤3.5:将编码器输出的特征数据输入解码器进行处理,解码器的数据处理过程与步骤3.4相同,得到多层次和多视角的特征数据;

步骤4:将步骤3中得到的特征数据通过多层回归特征提取模型进行进一步的融合和分类处理;

步骤5:根据多层回归特征提取模型的输出结果,判断代码文件中是否存在恶意代码,并针对恶意代码得到其所属的恶意代码家族。

2.根据权利要求1所述的恶意代码分类方法,其特征在于,所述FPN‑Transformer模型,具体包括多个平均池化层、M个编码器和M个解码器,其中M为编码器的数量,所述编码器包括依次连接的输入嵌入层、多头注意力单元、归一化层、前馈神经网络和归一化层,所述解码器的结构与编码器相同;带有自注意力机制的多头注意力单元和前馈神经网络用于特征的转换和增强。

3.根据权利要求2所述的恶意代码分类方法,其特征在于,所述多层回归特征提取模型,具体包括并行的通道注意力模块和空间注意力模块、线性层和回归层以及自相关矩阵分类器,所述通道注意力模块包括输入嵌入层、并行的平均池化层和最大池化层、共享多层感知器;所述空间注意力模块包括输入嵌入层、并行的平均池化层和最大池化层,以及卷积层;

通道注意力模块、空间注意力模块与线性层、回归层结合,用于捕捉恶意代码特征的多尺度信息,通道注意力模块的共享多层感知器与回归层结合,用于增强特征表达的丰富性和鲁棒性;

自相关矩阵分类器利用自相关矩阵来评估和加强分类特征之间的关系,通过自相关性来优化特征组合,提高分类的准确性和鲁棒性。

4.根据权利要求3所述的恶意代码分类方法,其特征在于,步骤1具体包括以下子步骤:步骤1.1:采用CodeBERT模型从代码文件中提取特征数据,包括抽象语法树AST、节点Node、代码Code、熵Entropy;

步骤1.2:清除特征数据中的噪音和无关信息,删除空值或异常值;

步骤1.3:将特征数据进行标准化或归一化处理,以保证不同特征之间的可比性;归一化所使用公式如下,其中 为均值, 为标准差:;

式中 为均值, 为标准差, 、 分别为归一化处理前、后的特征数据;

步骤1.4:选择对分类任务有用的特征数据,去除冗余特征数据。

5.根据权利要求4所述的恶意代码分类方法,其特征在于,所述步骤2.1,具体包括以下子步骤:步骤2.1.1:选取合适的哈希函数进行数据预处理,选取的哈希函数具备高效映射和低冲突特性;

步骤2.1.2:将步骤1得到的特征数据 分割为多个小块 ,利用步骤2.1.1选取的哈希函数对每个小块 进行随机映射和压缩,哈希函数为:;

式中h表示哈希函数, i为特征向量,i为随机向量, 为质数, 为哈希空间的大小;

d表示特征维度大小。

6.根据权利要求5所述的恶意代码分类方法,其特征在于,所述步骤2.2,具体包括以下子步骤:步骤2.2.1:根据特征值分布、特征重要性度量设定阈值σ;

步骤2.2.2:将低于阈值σ的特征进行保留,其他特征丢弃,计算式为:;

式中 表示筛选得到的哈希特征数据。

7.根据权利要求6所述的恶意代码分类方法,其特征在于,所述步骤4具体包括:

1)使用通道注意力模块从FPN‑Transformer模型输出的特征数据中提取多尺度特征信息,生成通道注意力特征;

1.1)通过输入嵌入层,将输入特征表示转换为嵌入向量;

1.2)使用平均池化AvgPool和最大池化MaxPool操作,生成两组特征映射;

1.3)将池化后的特征输入共享多层感知器,进行特征变换;

1.4)将共享多层感知器变换后的特征通过逐元素加法和逐元素乘法操作进行融合,生成通道注意力特征;

2)使用空间注意力模块从FPN‑Transformer模型输出的特征数据中提取多尺度特征信息,生成空间注意力特征;

2.1)使用输入嵌入层将输入特征表示转换为嵌入向量;

2.2)使用平均池化AvgPool和最大池化MaxPool操作,生成两组特征映射;

2.3)将池化后的特征输入卷积层Conv,进行特征卷积操作;

2.4) 将卷积后的特征通过逐元素加法和逐元素乘法操作进行融合,生成空间注意力特征;

3)将通道注意力特征和空间注意力特征进行融合,生成最终的注意力特征表示;使用线性层对融合特征进行线性变换;将线性变换后的特征输入回归层,生成自相关矩阵。

8.根据权利要求7所述的恶意代码分类方法,其特征在于,自相关矩阵分类器的数学关系式为:;

式中 表示标签空间中的初始化参数, 表示标签空间中另一个维度中的参数,表示克罗内克δ函数, 用于区分不同类别的标签表示, 和 表示标签空间中两个向量在高维空间中的相似度或者角度关系。