1.一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于,所述基于网络威胁情报分析的攻击场景图生成方法,该方法包括:S1,采集网络威胁情报信息,并通过预训练的深度学习模型进行实体识别,所述模型基于改进的BERT‑BiLSTM‑CRF结构,在模型输入阶段,结合正则表达式对特定模式的实体进行匹配与标准化处理,并生成BIO标注序列输入BERT‑BiLSTM‑CRF模型;其中,BERT模块通过预训练生成词向量,并结合双向LSTM和CRF进行实体识别;
S2,对已识别的威胁实体进行核心指代解析,其中采用CR‑M‑SpanBERT模型捕获实体间的语义上下文依赖关系;
S3,利用依存解析技术提取文本中的双向上下文语义依赖关系,获取与威胁实体相关的主语、动词、宾语等五元组数据,并结合RoBERTa‑BiGRU生成嵌入表示;
S4,使用BERT‑RE模型提取三元组为构建出最终的网络威胁相关的攻击场景图(ASG)做准备,包括:S4.1,接收来自S3的输出五元组嵌入表示,包括主语S、谓语P、宾语O、上下文条件C及时间标记T;
S4.2,对五元组基于上下文条件C和时间标记T进行语义过滤,保留高置信度的实体关系数据;
S4.3,利用BERT‑RE模型对每个五元组进行关系预测,首先使用BERT的嵌入层生成输入文本的语义特征,并独立优化主语、谓语及宾语的嵌入表示,以确保实体关系的精确性,接着,采用SoftMax分类器对所有可能的关系进行打分,并通过交叉熵损失函数对关系进行优化,交叉熵损失函数的目标是最大化正确关系的概率,从而提升关系分类的准确性,最终,输出已分类的三元组集合,并标注每个三元组的关系类型;
S4.4,结合五元组嵌入对三元组预测结果进行优化,消除冗余和矛盾数据;
S4.5,经过优化后的三元组集合将作为攻击场景图生成的基础输入,进入下一步的图结构构建,在此步骤中,我们将从S4生成的三元组集合中提取节点集合V和边集合E,并将这些三元组映射为图中的节点和边,最终构建出攻击场景图(ASG)的初步结构;
S5,攻击场景图(ASG)生成。
2.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S1中在模型输入阶段,结合正则表达式对网络威胁情报中特定模式的实体进行匹配与标准化处理,并生成BIO标注序列输入BERT‑BiLSTM‑CRF模型,而对于BERT‑BiLSTM‑CRF模型,其包括BERT模块,LSTM模块和CRF模块;
具体地,在该模型中利用BERT预训练获得的词向量作为输入信息,并结合双向LSTM(长短期记忆)和CRF识别输入信息中的实体。
3.根据权利要求2所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S1中BERT模型通过以下过程完成预训练:首先,对大规模网络威胁情报语料库进行掩蔽语言模型(MaskedLanguageModel,MLM)训练;
对于给定的网络威胁情报文本序列X={x1,x2,…,xn},随机掩蔽15%的词汇,生成掩蔽序列Xmask,训练目标为最大化被掩蔽词汇xi的条件概率,通过上下文语义预测被掩蔽的词,从而增强模型对网络安全领域专有名词的理解;
P(xi|Xmask)=softmax(Wh·hi+bh)
接着,利用下一句预测(NextSentencePrediction,NSP)任务训练模型,NSP任务通过给定两个句子S1和S2,预测S2是否为S1的逻辑后续句,其损失函数为:其中,yi表示是否为正样本,Pi为BERT模型的分类器输出,使其能够学习事件间的逻辑关系;
最后,使用预训练完成的BERT模型作为特征提取器,生成网络威胁情报中词汇的上下文语义表示,表示为高维向量。
4.根据权利要求2所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于,S1中,双向LSTM模块通过以下过程捕获语义信息:时间步依赖建模:双向LSTM模块将BERT模型生成的上下文向量作为输入,逐步处理序列中的每一个词,通过前向和后向传播同时建模短期和长期的语义依赖关系;
信息增强机制:双向LSTM使用遗忘门、输入门和输出门来筛选与网络威胁情报相关的关键特征,抑制不相关的噪声信息;
输出特征表示:最终将LSTM的前向和后向隐藏状态向量拼接成一个综合语义表示,用于进一步的实体识别,公式如下所示:ft=σ(Wf·[ht‑1,xt]+bf),
it=σ(Wi·[ht‑1,xt]+bi),
Ot=σ(Wo·[ht‑1,xt]+bo),
ht=Ot*tanh(Ct).
这里,ft,it,Ot分别为遗忘门、输入门和输出门的激活值,σ为Sigmoid激活函数。
5.根据权利要求2所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S1中条件随机场(CRF)模块用于对输出特征进行序列标注,具体过程包括:评分函数,给定输入特性序列X={x1,x2,…,xn}和对应的标签序列Y={y1,y2,…,yn},CRF的评分函数为:其中,Pi·yi表示当前输入特征的得分,Ayi‑1·yi表示相邻标签间的转移得分;
归一化概率计算,通过Softmax计算标签序列的归一化概率:
最后,解码优化,通过Viterbi算法找到最优标签路径:
最后使用CRF层结合正则表达式特征和BERT向量,输出优化的实体识别结果输出实体标签,最终输出网络威胁情报中的关键实体及其类别。
6.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S2中CR‑M‑SpanBERT模型通过输入准备阶段,上下文依赖建模阶段,Mention表示生成阶段,指代关系判别阶段,和输出阶段来实现核心指代解析,此阶段识别并校正BERT‑BiLSTM‑CRF模型中可能存在的错误标注或语义不匹配情况。
7.根据权利要求6所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S2中CR‑M‑SpanBERT通过以下过程完成输入准备和上下文依赖建模阶段的工作:在输入准备阶段,CR‑M‑SpanBERT接受来自步骤S1的输出结果,包括已识别的威胁实体及其初始上下文嵌入表示,威胁实体及其对应的上下文信息将被组织为候选mention集合,作为CR‑M‑SpanBERT的输入;
在上下文依赖建模阶段,首先使用多重嵌入技术将每个mention的上下文信息转化为高维向量表示,然后,进行语义嵌入,句法嵌入和位置嵌入,语义表征是利用威胁情报领域专用的SpanBERT预训练模型,为每个mention生成语义表征,句法嵌入是根据步骤S1提供的句法依赖关系,生成mention的句法上下文信息,位置嵌入则是编码mention在文本中的相对位置,以反映其与其他实体的关系;
通过自注意力机制,CR‑M‑SpanBERT将这些不同维度的信息进行融合,从而更准确地捕捉实体间的语义依赖关系。
8.根据权利要求6所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S2中CR‑M‑SpanBERT通过以下过程完成Mention表示生成和指代关系判别阶段的工作;
在Mention表示生成中,基于自注意力权重,为每个mention生成上下文感知的嵌入表示,具体过程通过以下公式实现:Zmention=Φc(Zsemantic,Zsyntactic,Zpositional)其中,Zsemantic,Zsyntactic和Zpositional分别表示语义,句法和位置嵌入,Φc为多重嵌入融合函数。
9.根据权利要求8所述的攻击场景图(ASG)生成方法,其特征在于S2中指代关系判别阶段的工作流程如下:首先构造候选mention对,通过前馈神经网络(FFNN)对每对mention的指代可能性进行评分,FFNN的输入包括每对mention的语义特征、句法信息以及上下文嵌入信息,通过这些特征,FFNN生成指代得分,用于评估候选mention对是否指代同一实体,接着,结合注意力机制,筛选出每个mention的最佳指代实体,具体过程包括:计算指代得分,为mention对生成指代得分,公式如下:
软注意力优化,使用softmax归一化指代得分,选出最有可能的指代实体;
监督学习优化,使用交叉熵损失函数训练模型,使得正确指代关系得分最高。
10.根据权利要求6所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S2中CR‑M‑SpanBERT通过以下过程完成输出过程:输出包括每个威胁实体及其指代关系链,供后续依存解析步骤使用。
11.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S3中依存解析技术通过以下过程提取文本中的双向上下文语义依赖关系:接收来自S2的威胁实体及其指代链,通过依存解析技术对威胁实体间的上下文依赖关系进行分析,提取主语、谓语、宾语的双向语义依赖;
结合上下文条件C和时间标记T,输出五元组数据(S,P,O,C,T),其中,S表示主语,P表示谓语,O表示宾语;
使用RoBERTa‑BiGRU模型生成五元组嵌入,捕获上下文语义特征,作为后续步骤的输入。
12.根据权利要求11所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S3中双向上下文语义依赖关系结合RoBERTa‑BiGRU模型生成嵌入表示的具体步骤包括:将五元组数据(S,P,O,C,T)转换为序列化文本,输入到RoBERTa模型,利用RoBERTa生成每个Token的上下文嵌入表示,捕获五元组中的语义关系,使用BiGRU对RoBERTa的输出嵌入F进行双向处理,分别提取文本的前向和后向依赖信息,将BiGRU的前向隐藏状态hi 与后向隐B F B藏状态hi拼接,生成综合语义表示hi=[hi||hi],通过门控机制进一步筛选与威胁实体相关的特征,抑制无关的噪声信息。
13.根据权利要求11所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S3中生成的五元组嵌入表示用于以下关系优化:对每个五元组的主语S、谓语P和宾语O进行嵌入向量相似度计算,基于上下文条件C和时间标记T的嵌入,对实体关系进行加权分析,输出最终优化后的五元组嵌入,作为步骤S4中BERT‑RE模型的输入。
14.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法,其特征在于S5攻击场景图的生成过程具体步骤如下:图结构初始化步骤,从S4生成的三元组集合(EntityHead,Relation,EntityTail)中提取节点集合V和边集合E,将三元组中的主语EntityHead和宾语EntityTail映射为节点,将三元组中的关系Relation映射为边,并附带关系类型作为边的属性;
使用BERT‑RE模型输出的嵌入向量初始化节点和边的属性,对节点,结合上下文信息生成高维嵌入表示,对边,利用关系类型的嵌入向量化处理,捕捉节点间的语义关联;
消息传递与嵌入优化步骤,采用消息传递网络(MPNN)对图结构进行迭代优化,通过节点和边的消息传递机制捕捉全局语义一致性,节点更新公式如下:(l)
其中,hi 表示节点i在第l层的嵌入,N(i)表示节点i的邻居节点,eij表示边的嵌入,f表示节点嵌入更新函数,g表示消息传递函数,用于生成从邻居节点j向节点i传递的消息,消息传递的更新过程包括对每条边eij,计算其嵌入向量,以及对节点i,聚合来自邻居节点的所有消息;
全局图优化步骤,通过若干层消息传递后,生成节点集合V和边集合E的最终嵌入表示,优化目标是最小化节点和边的嵌入损失函数:其中Loss是关系预测的损失函数,f是节点和边的组合函数,用于生成关系预测值,Relation是边的真实关系标签;
图后处理与可视化步骤,对生成图的节点和边属性进行校准,确保其符合网络安全领域的语义规则,使用图可视化工具将生成的攻击场景图展示给用户,便于理解和分析。