1.一种采样受限主动学习的溯源方法,其特征在于,包括如下步骤:
S100:使用多个已经人为给定了标记的数据作为初始训练集,学习一个初始的分类器;
S200:溯源代理在当前位置使用分类器预测各个动作的概率分布,进而随机游走,直至达到源节点位置,移动期间接收到的网络流量被存储下来作为下一次学习的未标记样本集;
S300:在下一次随机游走的开始阶段,溯源代理使用双层采样算法对无标记的数据集进行采样,选择出k个价值最大的样本;
S400:溯源代理凭借对系统的认知并对样本进行有效标记,并将其加入训练集,并重新学习得到一个新的分类器;重复步骤S100-S400,直至溯源代理随机游走的次数到达迭代次数上限。
2.根据权利要求1所述的采样受限主动学习的溯源方法,其特征在于,所述步骤S200中,溯源代理对节点的状态信息是未知的,准确标定标签需要消耗溯源代理大量资源;目标是利用网络的流量数据、通过随机游走的方式来实现从初始位置到达目标位置的步长最小化,其形式化定义为:式1中,D()表示初始位置到目标位置的期望步长,f和X分别为流量数据的分类器和网络流量的样本集,X′表示X的分类器在每次迭代过程中所能采集到的训练样本,argminX′表示达到最小值的X,Imax和k分别表示随机游走的迭代次数和每次迭代标记的数据量。
3.根据权利要求1所述的采样受限主动学习的溯源方法,其特征在于,所述步骤S300采样主动学习的第一层将样本的不确定性和代表性作为样本价值的估计标准,其中样本的不确定性采用样本信息熵计算得到,样本的代表性采用样本密度进行评估;第二层采样对第一层采样的候选样本进行聚类,然后以簇为单位,对样本的不确定性进行重新排序,从而选择出k个价值最大的预测集样本。
4.根据权利要求2所述的采样受限主动学习的溯源方法,其特征在于,所述溯源代理的随机游走行为采用ε-贪心策略;在算法对参数ε的设置上,首先从较大值开始,并逐渐减少它,使溯源代理最终能以较大的概率充分利用流量判别分类器对网络流量的判定结果。
5.根据权利要求1所述的采样受限主动学习的溯源方法,其特征在于,采用基于不确定性权重和代表性相结合的加权方法解决主动学习可能选出离群点的问题,其样本权重形式化定义为:w(x)=α×H(x)+β×R(x)+(1-α-β)×C(x) (式2)式2中,H(x)为样本x的信息总量,R(x)为样本x的代表性,反映该样本与样本集合中的其他样本的相似度,C(x)为样本对整体空间的覆盖率,w(x)表示样本的信息度,α,β为经验值。
6.根据权利要求5所述的采样受限主动学习的溯源方法,其特征在于,α∈[0,1],β∈[0,1],β+α≤1,当α=1时,未标记样本的权重评估仅考虑样本的代表性,当β=1时,算法为基于代表性的采样算法;
样本代表性反映该样本与样本集合中的其他样本的相似度,样本密度衡量样本的代表性,其样本代表性形式化定义为:Sim(x,si)=0.5+0.5×rp(xi,xj) (式4)
式4中,rp(xi,xj)表示样本xi和xj的皮尔逊相关系数,Sim(x,si)表示标准化到[0,1]的样本相似度, 表示与样本x相似度最高的K个样本;样本对样本整体空间的覆盖率反应了该样本与其整体样本集合中其他样本的差异性,采用余弦相似度用来评估样本间的差异性;针对样本xi和xj,首先计算两个样本与训练集的皮尔逊相关系数,再对两者的系数向量计算其余弦相似度,则样本差异性形式化定义为:式5中,
式6中,L为样本训练集,Sim(xi,L)表示样本xi与训练集L的相似度,
表示与样本x余弦相似度最低的k个样本。
7.根据权利要求6所述的采样受限主动学习的溯源方法,其特征在于,为解决信息冗余的问题,采用基于多样性和代表性的双层采样的方法;在第一层采样的基础上,根据w(x)的数值大小对为标记的样本进行排序,从中选择权重最大的N个未标记样本作为第二层采样的候选样本,如下列公式:式7中,w(x)表示样本信息度,argmax表示寻找具有最大评分的参量,Ucandidates为符合条件的样本的最大x值。
8.根据权利要求7所述的采样受限主动学习的溯源方法,其特征在于,得到N个候选样本之后,为确保样本的信息度,第二层采样算法依次采用样本多样性聚类和不确定性权重排序两个步骤,步骤具体如下:(1)多样性聚类,使用k-means聚类算法对候选样本集合进行聚类,得到K个不同的簇XC={xc1,xc2,…,xck};
(2)不确定性权重排序:根据多样性聚类获得K个不同的簇,以簇为单位,对每一个簇中的样本按照不确定性进行排序,从每个簇中选择不确定性最大的一个样本形成最终的被选样本集合ΔL,如式所示:ΔL=∪xc∈XCargmaxH(xi),xi∈xc (式8)
式8中,样本的不确定性H(xi)采用信息熵的估计方法,ΔL为被选样本集合。