利索能及
我要发布
收藏
专利号: 2024111400872
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,包括以下步骤:(1)将可执行文件上传到沙盒中获取的可执行文件数据集并分为训练集和测试集;

(2)利用三种不同的方法P‑Mean、WTP、FastText提取文本、交互及行为语义信息;包括以下步骤:(21)采用Power Means方法通过三个阶段构建文本字符串向量:词嵌入、统计特征计算及特征连接;具体如下:设每个API及其参数为一个文本字符串S则第i (i∈[1,N])个样本中有k个API调用,公式如下: ;

其中, 代表第i个样本, 代表第k个字符串,而每个字符串包含四个单词;

在词嵌入阶段,将API及其参数的文本字符串S中的每个词转换为向量表示形式,具体如下:将训练集中获取的所有API及其参数序列作为构建语料库的基础,采用word2vec模型将每个文本字符串 所包含的应用程序接口名API_name、调用函数名Call_name、函数返回值Ret_value及额外参数信息exinfo四类信息表示为一维向量 ,j∈[1,4],计算统计特征 ( ),公式如下:;

其中, 代表样本的第k个字符串,变量 为统计特征类型,且p为1表示算术平均数、p为﹢∞和﹣∞分别代表最大值和最小值, 代表第k个字符串的第j个单词的向量表示,j∈[1,4];

将统计特征向量相连形成文本字符串的的嵌入标识 ,公式如下:其中,p1、p2、p3分别代表p=1、p=﹢ 、p=‑ ;

(22)将SIF算法中权重计算方法替换为TFIDF方法即WTP算法评估每个文本字符串S中API_name、Call_name、Ret_value及exinfo特征在文档中的重要性,包括:词嵌入、权值分配和主成分去除,得到最终的差异化向量表示;

(23)利用FastText 算法对文本字符串S中每个子序列及其N‑grams的嵌入进行学习,将S中的每个单词转换为稠密的向量表示 ,j [1,4];得到富含丰富语义信息的向量嵌入表示 ,公式如下:;

其中, 代表第k个字符串中包含的单词个数, 表示第K个字符串中的第j个单词,j∈[1,4];

(24)通过采用WTP、P‑Mean、FastText提取的API及其参数间的交互信息及文本字符串S间的行为语义嵌入到3×k×256的向量 中,公式如下: r∈[1,3];

其中, 代表第k个字符串的第r种向量表示;

(25)设三种包含不同语义信息的矩阵分别记为 、 、 ,对矩阵 、 、进行归一化处理,将特征值扩展到0至255的范围,生成矩阵 ,将调整后的三个矩阵 映射到RGB颜色空间的三个通道,创建尺寸为k×256×3的彩色图像;

其中, 代表P‑Means、WTP、FastText三种方法得到的归一化后的矩阵;

(3)使用双三次插值算法将可执行程序的RGB图像统一至256×256×3,保留图像细节;

(4)将步骤(3)得到的RGB图像输入到ResNet50网络中进行训练和识别,输出可执行程序RGB图像的分类预测结果。

2.根据权利要求1所述的一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,步骤(1)具体如下:数据集包括文件系统操作信息、网络通信信息和注册表更改信息,其中,训练集总共包含Windows PE文件的20K 执行跟踪软件,其中10K是善意软件,其他是恶意软件。

3.根据权利要求1所述的一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,步骤(22)中,词嵌入具体如下:利用Word2Vec方法将每个文本字符串S中的单词映射为一维词向量 ,j ;捕捉单词的语义信息。

4.根据权利要求1所述的一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,权值分配具体如下:采用词频逆文档频率TFIDF算法对每个单词向量分配权重,公式如下: ;

其中, 指某个字符串S中的第j个单词;d指单个动态行为报告; 是单词 在报告d中的频率,即单词 在报告d中出现的次数除以d中的总词数;

是单词 的逆文档频率,即语料库中动态行为报告总数除以包含单词的报告数的对数;

使用TFIDF权重对包含API及其参数的字符串S中的单词进行加权,计算S的向量表示,公式如下:;

其中, 代表第k个字符串中包含的单词个数, 表示第K个字符串中的第j个单词,j∈[1,4]。

5.根据权利要求1所述的一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,主成分去除具体如下:采用主成分分析算法PCA去除共同特征,放大字符串S间的差异,得到最终的差异化向量表示,公式如下:‑ ;

其中,共同特征为 ,原始向量为 ;

每个API调用及其参数信息都将以256维向量的形式呈现。

6.根据权利要求1所述的一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,步骤(3)中,任意一个像素点(p, q)的双三次插值是通过计算矩形网格中最近的16个样本点的加权平均值得到,需要两个计算函数,分别 和 ;

每个方向上的插值函数公式如下:

其中,p是像素点(p, q)与最近的16个样本点之间的距离,为1或0.5;

对于插值像素点(p, q)选择一个近似4x4的点并计算加权和,最终结果 F(p,q)即为插值点(p,q)的像素值,计算公式如下:;

其中,p, q是浮点数。