买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度学习与自然语言处理的网络威胁情报分析攻击场景图(ASG)生成方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度学习与自然语言处理的网络威胁情报分析攻击场景图(ASG)生成方法

￥30000

专利号： 2025100757950

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，所述基于网络威胁情报分析的攻击场景图生成方法，该方法包括：S1，采集网络威胁情报信息，并通过预训练的深度学习模型进行实体识别，所述模型基于改进的BERT‑BiLSTM‑CRF结构，在模型输入阶段，结合正则表达式对特定模式的实体(如时间、IP地址、哈希值)进行匹配与标准化处理，并生成BIO标注序列输入BERT‑BiLSTM‑CRF模型；其中，BERT模块通过预训练生成词向量，并结合双向LSTM和CRF进行实体识别。

S2，对已识别的威胁实体进行核心指代解析，其中采用CR‑M‑SpanBERT模型捕获实体间的语义上下文依赖关系；

S3，利用依存解析技术提取文本中的双向上下文语义依赖关系，获取与威胁实体相关的主语、动词、宾语等五元组数据，并结合RoBERTa‑BiGRU生成嵌入表示；

S4，使用BERT‑RE模型提取三元组为构建出最终的网络威胁相关的攻击场景图(ASG)做准备；

S5，攻击场景图(ASG)生成。

2.根据权利要求1所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S1中，在模型输入阶段，结合正则表达式对网络威胁情报中特定模式的实体(如时间、IP地址、哈希值)进行匹配与标准化处理，并生成BIO标注序列输入BERT‑BiLSTM‑CRF模型，而对于BERT‑BiLSTM‑CRF模型，其包括BERT模块，LSTM模块和CRF模块；

具体地，在该模型中，利用BERT预训练获得的词向量作为输入信息，并结合双向LSTM(长短期记忆)和CRF识别输入信息中的实体。

3.根据权利要求2所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S1中，BERT模型通过以下过程完成预训练：首先，对大规模网络威胁情报语料库进行掩蔽语言模型(Masked Language Model,MLM)训练；

对于给定的网络威胁情报文本序列X＝{x1,x2,…,xn}，随机掩蔽15％的词汇，生成掩蔽序列Xmask。训练目标为最大化被掩蔽词汇xi的条件概率，通过上下文语义预测被掩蔽的词，从而增强模型对网络安全领域专有名词的理解；

P(xi|Xmask)＝softmax(Wh·hi+bh)

接着，利用下一句预测(Next Sentence Prediction,NSP)任务训练模型，NSP任务通过给定两个句子S1和S2，预测S2是否为S1的逻辑后续句。其损失函数为：其中，yi表示是否为正样本，Pi为BERT模型的分类器输出。使其能够学习事件间的逻辑关系，例如攻击路径、威胁事件的因果链条等；

最后，使用预训练完成的BERT模型作为特征提取器，生成网络威胁情报中词汇的上下文语义表示，表示为高维向量。

4.根据权利要求2所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S1中，双向LSTM模块通过以下过程捕获语义信息：时间步依赖建模：双向LSTM模块将BERT模型生成的上下文向量作为输入，逐步处理序列中的每一个词，通过前向和后向传播同时建模短期和长期的语义依赖关系；

信息增强机制：双向LSTM使用遗忘门、输入门和输出门来筛选与网络威胁情报相关的关键特征，抑制不相关的噪声信息。例如，在处理含有时间标记的威胁情报时，可优先关注“攻击时间”和“漏洞发现日期”；

输出特征表示：最终将LSTM的前向和后向隐藏状态向量拼接成一个综合语义表示，用于进一步的实体识别，公式如下所示：ft＝σ(Wf·[ht‑1,xt]+bf),

it＝σ(Wi·[ht‑1,xt]+bi),

Ot＝σ(Wo·[ht‑1,xt]+bo),

ht＝ot*tanh(Ct).

这里，ft,it,ot分别为遗忘门、输入门和输出门的激活值，σ为Sigmoid激活函数，W和b是对应的权重矩阵和偏置。

5.根据权利要求2所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S1中，条件随机场(CRF)模块用于对输出特征进行序列标注，具体过程包括：评分函数，给定输入特性序列X＝{x1,x2,…,xn}和对应的标签序列Y＝{y1,y2,…,yn}，CRF的评分函数为：其中，Pi·yi表示当前输入特征的得分，Ayi‑1,yi表示相邻标签间的转移得分；

归一化概率计算，通过Softmax计算标签序列的归一化概率：

最后，解码优化，通过Viterbi算法找到最优标签路径：

最后使用CRF层结合正则表达式特征和BERT向量，输出优化的实体识别结果输出实体标签，最终输出网络威胁情报中的关键实体及其类别。

6.根据权利要求1所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S2中，CR‑M‑SpanBERT模型通过输入准备阶段，上下文依赖建模阶段，Mention表示生成阶段，指代关系判别阶段，和输出阶段来实现核心指代解析，此阶段识别并校正BERT‑BiLSTM‑CRF模型中可能存在的错误标注或语义不匹配情况，从而提高了实体识别的准确性。

7.根据权利要求6所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S2中，CR‑M‑SpanBERT通过以下过程完成输入准备和上下文依赖建模阶段的工作：在输入准备阶段，CR‑M‑SpanBERT接受来自步骤S1的输出结果，包括已识别的威胁实体及其初始上下文嵌入表示。威胁实体及其对应的上下文信息将被组织为候选mention集合，作为CR‑M‑SpanBERT的输入；

在上下文依赖建模阶段，首先使用多重嵌入技术将每个mention的上下文信息转化为高维向量表示，然后，进行语义嵌入，句法嵌入和位置嵌入，语义表征是利用威胁情报领域专用的SpanBERT预训练模型，为每个mention生成语义表征，句法嵌入是根据步骤S1提供的句法依赖关系(如主谓宾结构)，生成mention的句法上下文信息，位置嵌入则是编码mention在文本中的相对位置，以反映其与其他实体的关系；

通过自注意力机制，CR‑M‑SpanBERT将这些不同维度的信息进行融合，从而更准确地捕捉实体间的语义依赖关系。

8.根据权利要求6所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S2中，CR‑M‑SpanBERT通过以下过程完成Mention表示生成和指代关系判别阶段的工作；

在Mention表示生成中，基于自注意力权重，为每个mention生成上下文感知的嵌入表示，具体过程通过以下公式实现：Zmention＝Φc(Zsemantic,Zsyntactic,Zpositional)其中，Zsemantic，Zsyntactic和Zpositional分别表示语义，句法和位置嵌入，Φc为多重嵌入融合函数。

9.根据权利要求8所述的攻击场景图(ASG)生成方法，其特征在于，S2中，指代关系判别阶段的工作流程如下：首先构造候选mention对，通过前馈神经网络(FFNN)对每对mention的指代可能性进行评分，FFNN的输入包括每对mention的语义特征、句法信息以及上下文嵌入信息，通过这些特征，FFNN生成指代得分，用于评估候选mention对是否指代同一实体，接着，结合注意力机制，筛选出每个mention的最佳指代实体，具体过程包括：计算指代得分，为mention对生成指代得分，公式如下：

软注意力优化，使用softmax归一化指代得分，选出最有可能的指代实体；

监督学习优化，使用交叉熵损失函数训练模型，使得正确指代关系得分最高。

10.根据权利要求6所述的，一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S2中，CR‑M‑SpanBERT通过以下过程完成输出过程：输出包括每个威胁实体及其指代关系链。例如，将“它”和“恶意软件名称”关联起来，生成清晰的语义链条，供后续依存解析步骤使用。

11.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S3中，依存解析技术通过以下过程提取文本中的双向上下文语义依赖关系：接收来自S2的威胁实体及其指代链，通过依存解析技术对威胁实体间的上下文依赖关系进行分析，提取主语、谓语、宾语的双向语义依赖；

结合上下文条件(C)和时间标记(T)，输出五元组数据(S,P,O,C,T)，其中，S表示主语(如攻击者)，P表示谓语(如“利用”或“攻击”)，O表示宾语(如漏洞或目标)；

使用RoBERTa‑BiGRU模型生成五元组嵌入，捕获上下文语义特征，作为后续步骤的输入。

12.根据权利要求11所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S3中，双向上下文语义依赖关系结合RoBERTa‑BiGRU模型生成嵌入表示的具体步骤包括：将五元组数据(S,P,O,C,T)转换为序列化文本，输入到RoBERTa模型，利用RoBERTa生成每个Token的上下文嵌入表示，捕获五元组中的语义关系，使用BiGRU对RoBERTa的输出嵌入F进行双向处理，分别提取文本的前向和后向依赖信息，将BiGRU的前向隐藏状态(hi)与后向B F B隐藏状态(hi)拼接，生成综合语义表示(hi＝[hi ||hi])，通过门控机制进一步筛选与威胁实体相关的特征，抑制无关的噪声信息。

13.根据权利要求11所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S3中，生成的五元组嵌入表示用于以下关系优化：对每个五元组的主语(S)、谓语(P)和宾语(O)进行嵌入向量相似度计算，基于上下文条件(C)和时间标记(T)的嵌入，对实体关系进行加权分析，输出最终优化后的五元组嵌入，作为步骤S4中BERT‑RE模型的输入。

14.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S4，从输入的五元组中提取出更为简洁的三元组(如：“攻击者‑利用‑漏洞”)，从而形成最终的攻击场景图的基础数据。BERT‑RE模型通过以下步骤提取三元组并生成关系数据：接收来自步骤S3的输出五元组嵌入表示(包括主语S、谓语P、宾语O、上下文条件C及时间标记T)，对五元组基于上下文条件(C)和时间标记(T)进行语义过滤，保留高置信度的实体关系数据；

利用BERT‑RE模型对每个五元组进行关系预测，将五元组映射到三元组(EntityHead,Relation,EntityTail)，其中，EntityHead是主语S，Relation是谓语P，EntityTail是宾语O；

结合五元组嵌入对三元组预测结果进行优化，消除冗余和矛盾数据；

输出最终的三元组集合，作为攻击场景图生成的基础。

15.根据权利要求14所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S4，BERT‑RE模型的关系预测包括以下细节：利用BERT‑RE的嵌入层生成输入文本的语义特征，对主语、宾语及谓语的嵌入表示进行独立优化，确保实体关系的精确性，采用SoftMax分类器对所有可能关系进行打分，使用交叉熵损失函数对正确关系打分优化，输出已分类的三元组集合，并标注关系类型(如“攻击”、“利用”、“关联”等)。

16.根据权利要求1所述的一种基于网络威胁情报分析的攻击场景图(ASG)生成方法，其特征在于，S5，攻击场景图的生成过程具体步骤如下：图结构初始化步骤，从S4生成的三元组集合(EntityHead,Relation,EntityTail)中提取节点集合V和边集合E，将三元组中的主语(EntityHead)和宾语(EntityTail)映射为节点，将三元组中的关系(Relation)映射为边，并附带关系类型作为边的属性；

使用BERT‑RE模型输出的嵌入向量初始化节点和边的属性，对节点，结合上下文信息(如攻击者、目标、漏洞等特定语义角色)生成高维嵌入表示，对边，利用关系类型的嵌入向量化处理，捕捉节点间的语义关联；

消息传递与嵌入优化步骤，采用消息传递网络(MPNN)对图结构进行迭代优化，通过节点和边的消息传递机制捕捉全局语义一致性，节点更新公式如下：(l)

其中，hi 表示节点i在第l层的嵌入，N(i)表示节点i的邻居节点，eij表示边的嵌入，f表示节点嵌入更新函数，g表示消息传递函数，用于生成从邻居节点j向节点i传递的消息，消息传递的更新过程包括对每条边eij，计算其嵌入向量，以及对节点i，聚合来自邻居节点的所有消息；

全局图优化步骤，通过若干层消息传递后，生成节点集合V和边集合E的最终嵌入表示，优化目标是最小化节点和边的嵌入损失函数：其中Loss是关系预测的损失函数，f是节点和边的组合函数，用于生成关系预测值，Relation是边的真实关系标签；

图后处理与可视化步骤，对生成图的节点和边属性进行校准，确保其符合网络安全领域的语义规则，使用图可视化工具(如Graphviz或NetworkX)将生成的攻击场景图展示给用户，便于理解和分析。