利索能及
我要发布
收藏
专利号: 2024111400938
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于增强语义API序列特征的动态恶意软件检测方法,其特征在于,包括以下步骤:(1)将可执行文件上传到沙盒中获取包含API序列及其参数的动态行为报告;随机选取不重复的恶意软件和善意软件的动态行为报告作为实验数据,并将其训练集和测试集;并进行预处理;

(2)采用鲁棒优化的BERT预训练模型RoBERTa获取上下文语义信息;具体如下:将API序列的长度规范为RoBERTa的最大输入长度512,得到序列;

并采用注意力掩码标记进行符号填充;对API序列进行训练获取API调用间语义特征映射图,公式如下:;

其中, 为RoBERTa模型

提取的API调用序列s对应API的语义特征;

通过密集层将API语义特征图C映射到信息空间:

其中, 为sigmoid激活函数, 和 分别是神经网络的权重矩阵和偏置向量;

为API序列语义特征的映射矩阵;

(3)通过变分自编码器对API调用频率进行采样和编码,以获取全局API调用特征的通用表示,从而捕捉系统中API调用的行为模式;包括以下步骤:(31)抽取训练集中API调用全局频率特征即统计单个API在恶意或良性程序上的出现次数并除以总次数进行归一化;将每个软件的API调用序列对应的频率矩阵输入至变分自动编码器VAE中进行编码,将可执行程序的API频率特征映射到潜在空间的向量表示中,对API调用全局特征的提取和挖掘;

(32)将训练集中所有可执行程序的API调用序列生成的统计向量,记为 ;其中,为不同程序API序列的统计向量,总数为N;VAE的编码器对于输入的统计向量   产生潜在变量  的概率分布   ,其中,   是包含了所有在编码过程中需要学习的权重和偏置的编码器参数集;利用重参数化方法采样得到潜在变量值 ;

(33)将采样得到的潜在变量值   通过解码器映射回输入空间进行反向传播,得到重建的概率分布   ;损失函数公式如下:;

其中,期望项 用来衡量生成数据的能力,  是给定输入  时潜在变量 的后验分布;KL项衡量了后验分布  与先验分布   之间的差异,用以确保学到的潜在API表示接近于先验分布;通过最小化两个损失项使得潜在的API全局表示   更接近于先验分布   ,使编码器生成能够表示API全局特征信息的潜在向量;

(34)利用重参数化方法拟合API序列的全局特征分布,公式如下:;

其中, 为API全局特征的多元高斯先验分布,  表示分布均值,   表示标准差,  表示协方差矩阵;

(4)基于门控机制的多模态权重控制模块调节各模态特征权重,使语义特征和全局特征间进行交互,生成语义增强的API序列特征;具体如下:将通过VAE编码器得到的可执行程序全局信息的潜在向量表示 投影到与语义特征同等维度大小的信息空间中,获得全局特征的向量表示  ;利用门控机制的AdaGate函数融合语义信息   和全局信息   构建多模态特征权重控制模块,以动态调整模态间特征权重;利用全局特征获得增强语义的API序列特征 ,公式如下:;

其中   表示激活函数,   代表逐元素乘积;   是语义信息   经过线性层得到的概率表示;

通过采用门控机制中的Valve函数动态调整全局特征信息,去除全局信息   中对分类置信度较低的API调用,公式如下:对于每个API的特征  ,

其中,Valve函数为全局特征信息动态调整函数,   为置信度阈值,用于调节全局信息与API特征 的融合程度;具体而言,若   = 0 ,所有全局信息将会被丢弃;而如果   = 

0.5 ,则接受所有全局信息;

(5)采用多头注意力机制构建基于增强语义API序列特征的检测模型;包括以下步骤:(51)通过多模态融合特征   生成初始查询、键和值;其中,Q是查询矩阵,K是键矩阵,V是值矩阵;

(52)利用线性层变换生成不同的特征头  ,公式如下:;

其中,h表示第h个特征头, 分别是第h个头的查询权重矩阵、键权重矩阵和值权重矩阵;

(53)将矩阵Q、K和V与每个不同特征头相乘,得到API序列特征的不同注意力权重,公式如下:;

其中, 、 和 分别表示不同特征头的查询、键和值表示;

(54)分别计算每个头的注意力结果,公式如下:

其中, Softmax是激活函数,Attention是第i个头的注意力结果;

(55)将所有注意力头的注意力结果拼接,并乘以权重矩阵   以获取增强语义API序列的特征表示,公式如下:;

其中, Concat(⋅) 表示将所有头的注意力结果拼接;拼接后的注意力结果通过一个线性变换权重矩阵 ,得到最终的多头注意力输出 ;

(56)将多头注意力输出的增强语义API序列特征通过池化层降维后输入至全连接神经网络,以构建恶意软件的检测模型。

2.根据权利要求1所述的一种基于增强语义API序列特征的动态恶意软件检测方法,其特征在于,步骤(1)预处理具体如下:采用布谷鸟沙盒抓取的公开API、微软公开的Windows系统API以及训练集中包含的API构建字典,从而将API序列转换为向量表示;对收集到的动态行为报告通过数据预处理的算法进行预处理,去除其所包含的冗余信息。