利索能及
我要发布
收藏
专利号: 2025106014754
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于VAE与子集和的Tor匿名网络的流关联方法,其特征在于,包括以下步骤:步骤1,采集Tor匿名网络中指定中继节点上的流量,初步识别流量的类型,所述类型包括入口流量和出口流量,其中入口流量和出口流量分别表示进入Tor网络的流量与离开Tor网络的流量,对入口流量和出口流量按照五元组形式划分网络流并分别保存为FI和FE,其中五元组是指:源IP地址、目的IP地址、源端口、目的端口和协议类型,判定具有相同五元组的流量是同一条流量;

步骤2,分别提取按照五元组划分后的入口流量FI的包绝对时间特征TI和包大小特征SI,以及按照五元组划分后的出口流量FE的包绝对时间特征TE和包大小特征SE;

步骤3,利用包绝对时间特征TI和TE,对入口流与出口流对进行初步筛选,针对每条入口流,根据包绝对时间特征,将包绝对时间特征与在相同时间段内开始和结束的出口流进行匹配,从而得到潜在的关联流对PIE;

步骤4,将潜在的关联流对PIE进行时隙划分,设置时隙长度为T,将原始时长为t的关联流对PIE根据时隙T划分为 个时隙,统计每个时隙内数据包的数量与大小,得到入口流时隙包数量序列为 入口流时隙包大小序列为 出口流时隙包数量序列为 出口流时隙包大小序列为 构造入口流时隙包特征矩阵 和出口流时隙包特征矩I

阵 利用变分自编码器进行特征提取,得到入口流特征序列F和出口流特征序E

列F;

I E

步骤5,将入口流特征序列F和出口流特征序列F 输入关联分析器,通过滑动窗口与基于动态规划的子集和算法完成Tor匿名网络的入口流量与出口流量的关联,包括:在每个滑动窗口内,对于第一个窗口,得到:其中,nums为每个窗口内入口流特征序列的特征集合,target为每个窗口内潜在关联的出口流特征序列数据的和, 和 分别为每个窗口内入口流特征序列的第j个数据与潜在关联的出口流特征序列的第j个数据;

对于每个滑动窗口内的入口流特征集合 判断是否存在一个子集 使得子集nums′的元素和等于潜在关联的出口流特征的总和target,如果存在,则返回向量 F为子集nums′中元素组成的向量,如果不存在,则无需返回值:当

将是否存在一个子集 使得子集nums′的元素和等于潜在关联的出口流特征的总和target,转变为:是否存在一个子集 使得子集nums′的元素和在(target‑Δ,target+Δ)之间,如果存在,则返回向量 T′为子集nums′中元素组成的向量,如果不存在,则无需返回值:当

其中Δ为一个常量。

2.根据权利要求1所述的方法,其特征在于,步骤1包括:抓取原始流量,按照五元组形式对原始流量进行划分并根据所获取的经过指定中继节点的流量的大小、IP地址、协议和端口中的一项或两项以上信息识别流量的类型。

3.根据权利要求2所述的方法,其特征在于,步骤2中,提取数据包到达时间、包发出时间和数据包大小,得到入口流包绝对时间特征TI、包大小特征和出口流包绝对时间特征TE和包大小特征SE。

4.根据权利要求3所述的方法,其特征在于,步骤3包括:分析入口流与出口流中每个包绝对时间戳,得到:TI=[TI1,TI2···TIn],

TE=[TE1,TE1···TEn],

其中TIn为入口流包绝对时间特征的第n个包绝对时间戳,TEn为出口流包绝对时间特征的第n个包绝对时间戳;

通过入口流与出口流的包绝对时间特征的第一个包绝对时间戳的绝对差值以及第n个包绝对时间戳的绝对差值与固定阈值Δt的比较,如果两个绝对差值都小于等于Δt,则判断为潜在关联流对PIE,否则不为潜在关联流对,公式为:|TI1‑TE1|≤Δt,

|TIn‑TEn|≤Δt,

其中,Δt为固定阈值,用于判断两条流是否可能为一条流。

5.根据权利要求4所述的方法,其特征在于,步骤4包括:对特征矩阵进行填充,以确保每个特征矩阵具有固定的长度x,其中x是所有时隙数量的最大值nmax,x=nmax,特征矩阵表示为:其中, 分别表示入口流每个时隙的包数量和包大小, 分别表示每个出口流每个时隙的包数量与包大小。

6.根据权利要求5所述的方法,其特征在于,步骤4还包括:I E

以X表示X、X 中的任意一个,利用变分自编码器VAE对X提取特征,学习潜在变量的后验分布

2 2

其中X为输入,Z为潜在变量,为编码器的参数,N(μ,σ)是具有均值为μ和方差为σ的正态分布;

2

根据长短期记忆网络LSTM提取的隐藏状态计算均值μ和方差σ:ht=LSTM(Xt,ht‑1),

μ=WμhT+bμ,

2

logσ=WσhT+bσ,

2

σ=exp(0.5·logσ),

其中,ht是长短期记忆网络的隐藏状态,表示输入序列到当前时间步t的特征信息,Xt是当前时刻t输入的数据,ht‑1是前一时刻t‑1的隐藏状态,hT是LSTM处理完所有时间步后最终2

的隐藏状态,Wμ、Wσ是全连接层的权重矩阵,bμ、bσ是偏置项,函数exp(0.5·logσ)用于计算标准差;

计算重参数化技巧生成潜在变量Z:

Z=μ+σ·∈,∈~N(0,I);

其中,∈是标准正态分布随机噪声;σ是从标准正太分布中采样得到的随机噪声;

采用泊松采样使生成的潜在变量Z输出为整数Z′:Z′=Poisson(|Z|),

其中,Poisson(|Z|)是对潜在变量Z的绝对值进行泊松采样;

VAE解码器重构流量数据:

从潜在变量Z还原输入特征:

2

pθ(X|Z)=N(X;gθ(Z),σ),

其中,pθ(X|Z)是在给定潜在变量Z的情况下,解码器生成数据X的概率分布;N(X;gθ(Z),

2 2

σ)是一个正态分布;gθ(Z)为VAE解码器的预测值,方差σ表示重构值的波动范围;

VAE编码器通过最小化重构误差和KL散度进行优化:L=Lrec+βDKL,

2

Lrec=‖X‑X′‖,

其中,L为VAE编码器的总损失函数,Lrec为重构误差, 是KL散度,p(Z)是潜在变量Z的先验分布,为标准正态分布N(0,I),μi和 分别表示VAE编码器输出的潜在变量分布的均值和方差,d为潜在空间维度,β为KL散度的权重;

I E

得到入口流特征序列F和出口流特征序列F:

其中, 和 分别表示入口流特征矩阵生成潜在变量绝对值的第d个数据与出口流特I E征矩阵生成潜在变量绝对值的第d个数据;F与F为关联分析器的输入。

I

7.根据权利要求6所述的方法,其特征在于,步骤5包括:对于入口流特征序列F和出口E I E流特征序列F,基于得到的潜在关联流对PIE,将每条入口流特征序列F 与出口流特征序列F中潜在关联的出口流特征序列FE′进行关联分析,给定大小为j的滑动窗口,j

当入口流与潜在关联的出口流在滑动窗口内存在解时,分配得分为1,表示滑动窗口内的流对具有相似性;如果未能找到解,则分配得分为‑1,表示滑动窗口的流对不具备相似性;

当入口与潜在关联的出口流在滑动窗口内均未发送或接收数据包时,或者如果入口接收到的包并未由出口流发送,则分配得分为0,表示无法判定滑动窗口内的流对相似性,得分公式如下:其中,scores[i]为窗口得分,i为窗口索引;

在完成所有窗口的分数计算后,进行分数的调整处理,最终,依据调整后的分数重新计算权重,使用以下公式进行得分加权和调整:其中,scores′[i]为经过加权过后的窗口得分,K为影响具有相同分数的连续窗口的重要性的参数,c(s,i)为辅助函数,用于对窗口索引i左侧连续得分值s进行计数;

在得到加权得分后,根据窗口数量得到最终得分S:其中,scores′[i]为加权过后的窗口得分,p为窗口数量;

在获得所有窗口的最终得分后,取平均窗口分数得到最终相似分数,选取得分最高的入口流与潜在关联的出口流对作为最终关联流对;对于最终关联流对,通过与预设的阈值thr进行比较,如果得分大于或等于阈值,则判定为一组有效的关联流对;具体地,如果得分超过阈值,表明入口流与潜在关联的出口流之间存在显著的相关性,因此被判定为一个有效的关联流对;否则,如果得分低于阈值,则表明流对之间的关联性不足,因此被排除,无法判定为一组关联流对。

8.一种基于如权利要求1~7任一项所述的方法实现的VAE与子集和的Tor匿名网络的流关联系统,其特征在于,包括:流量采集模块,用于采集Tor匿名网络中指定中继节点上的流量,初步识别入口流量还是出口流量,其中入口流量和出口流量分别表示进入与离开Tor网络的流量,并对入口流量和出口流量按照五元组形式划分网络流并分别保存为FI和FE,其中五元组是指:源IP地址、目的IP地址、源端口、目的端口和协议类型,具有相同五元组的流量被认为是同一条流量;

特征提取模块,用于分别提取按照五元组划分后的入口流量FI的包绝对时间特征TI和包大小特征SI,以及按照五元组划分后的出口流量FE的包绝对时间特征TE和包大小特征SE;

初筛模块,用于,利用包绝对时间特征TI和TE,对入口流与出口流对进行初步筛选,针对每条入口流,根据包绝对时间特征,将包绝对时间特征与在相同时间段内开始和结束的出口流进行匹配,从而得到潜在的关联流对PIE;

时隙划分与特征提取模块,用于将得到的潜在关联流对PIE进行时隙划分,设置时隙长度为T,将原始时长为t关联流对PIE根据时隙T划分为 个时隙,统计每个时隙内数据包的数量与大小,得到入口流时隙包数量序列为 包大小序列为 出口流时隙包数量序列为 包大小序列为 构造特征矩阵: 和 利用变分自编码I E

器进行特征提取,得到入口流特征序列F ,出口流特征序列F;

I E

关联分析模块,用于将得到的入口流特征和出口流特征F和F 输入关联分析器,通过滑动窗口与基于动态规划的子集和算法完成Tor匿名网络的入口流量与出口流量的关联。

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的方法的步骤。

10.一种存储介质,其特征在于,存储有计算机程序或指令,当所述计算机程序或指令在计算机上运行时,执行如权利要求1至8中任一项所述的方法的步骤。