利索能及
我要发布
收藏
专利号: 202111412707X
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于霍夫丁树的多标签流数据分类方法,其特征在于包括以下步骤:S01.定义样本集 表示d维样本空间,Y={y1,y2,...,yq}表示标签空间,其中q>1;

则一条多标签实例可以用(x,y)表示,其中x=(x1,...,xd)∈χ是一个d维特征向量,y是对应标签向量且y∈Y;

S02.定义一个包含n条实例的多标签数据集D={(xi,yi)|1≤i≤n};

S03.获取当前到达的实例的特征向量x=(x1,...,xd)和标签向量y=(y1,y2,...,yq);

S04.获取特征向量的长度为d,计算分配给每个基分类器的特征数量S05.用矩阵H存放为每个基分类器划分的特征值在特征向量中对应的下标;

S06.定义该实例的任意特征至少被基分类器选中一次的概率p,定义用户期望任意特征至少被基分类器选中一次概率最小值为Pmin;

S07.根据特征向量长度 和Pmin计算级联结构中基分类器的数量γ;

S08.初始化γ个经过特征划分的基分类器:VFDT1、VFDT2……VFDTγ;

S09.用未经特征划分特征向量初始化一个完整的基分类器VFDTall;

S10.将步骤S08和S09初始化的γ+1个基分类器视为一个整体,将其作为基本单元,称为VFDT‑Forest;

S11.将步骤S08、S09和S10重复δ次,即初始化δ个互不相同的基本单元:VFDT‑Foresti,其中1≤i≤δ,他们构成分层式模型的第一层layer1;

S12.执行S11初始化layer2;至此,分层式多标签流数据模型初始化完成,开始训练;

S13.训练时,新实例到达,将其特征向量x和标签向量y传入同一层的δ个基本单元,每个基本单元做增量式学习,每一层训练时进行三折交叉验证,得到每个当前层的权值θj;

S14.预测时,新实例到达,将其特征向量x和标签向量y传入同一层的δ个基本单元,每个基本单元针对当前实例给出一个标签预测值S15.当前层的阈值θj施加到当前层各基本单元的预测值 上,再与原始特征向量y拼接,作为新的特征向量,和标签向量y一起传入下一层;

S16.预测时,计算并记录每一层的预测精度,若最近三层的精读没有明显提升,则取当前层的预测值最为模型针对当前实例的最终预测值,以此控制模型层数。

2.根据权利要求1所述的基于霍夫丁树的多标签流数据分类方法,其特征在于:步骤S04~S08中所述的计算基分类器的数量并划分特征值的具体步骤如下所述:①步骤S03中获取了当前到达的实例的特征向量x和标签向量y,用户定义一个常量Pmin,表示用户期望任意特征至少被基分类器选中一次概率最小值;

②获取特征向量的长度为d,初始化基分类器的数量γ=1,特征值下标数组H;

③利用一下公式计算任意特征至少被某个基分类器选中一次的概率:④利用while循环:当P

⑤初始化一个特征值数组cur,从特征向量x中连续不放回的随机抽取 个特征,将其下标存入cur中;

⑥针对④中的γ个基分类器都做⑤,将每趟得到的cur数组依次存入矩阵H中;

⑦完成④和⑥后得到基分类器数量和各自对应的划分的特征值下标数组H。

3.根据权利要求1所述的基于霍夫丁树的多标签流数据分类方法,其特征在于:步骤S10中初始化的VFDT‑Forest作增量学习并在预测时得到预测值的具体步骤如下所述:①实例到达后,初始化一个长为L的队列数组Q=(q1,q2,...,qL),其中L是每条实例的标签数量;

②Q中每个元素都是一个队列,用来暂存每个标签最近λ个预测值,当新实例到达时,队尾记录将被移除,新预测值被添加到队首;

③预测时队列会累加每个基分类器针对各个标签的最近λ个预测值,如果累加比例为r(r∈(0,1])的元素既得到正确的结果,则说明基分类器的预测效果足够准确;

④对n个基分类器的预测值使用投票法,得到每个标签预测值,否则采用VFDTall的预测值作为当前实例当前标签的预测值。