1.一种基于深度强化学习的特征选择方法,其特征在于,以数字化图像作为样本进行处理,包括如下步骤:步骤1、获取数据集,得到初始特征空间;
步骤2、根据ε‑greedy策略对初始特征空间中的特征进行动作选择,得到当前特征子集;
步骤3、将当前特征子集送入分类器进行评估,进入下一特征的选择;
所述步骤3包括:
将当前特征子集送入K近邻分类器中,根据预测的分类标签与数据集实际分类标签C的对比结果得到分类准确率,计算奖励rt,再对下一特征st+1进行选择动作,奖励的具体设置如下:R={r1,r2,...,rt,...,rn}
R表示一轮特征选择结束时所得到的奖励集合,n为奖励的数量,rt为特征st经过动作at后得到的评估奖励:其中,acc(st)是选择t次后特征子集的准确率,maxacc(st‑1)表示在t‑1次特征选择过程中的历史最高准确率,ra=0.5,rb=‑0.1,rc=‑5为对应情况下的奖励值,Fitness(st)表示为:α是与分类性能相关的参数,α=0.99,γR(D)表示分类器的分类误差,C,R分别表示数据集的初始特征数与所选特征数;
步骤4、运用深度强化学习方法优化动作选择策略;
步骤5、重复执行步骤2‑‑‑步骤4,输出最优特征子集SBest以及该特征子集的分类准确率。
2.根据权利要求1所述的一种基于深度强化学习的特征选择方法,其特征在于:所述步骤1包括以下步骤:步骤1.1、从上位机中收集数据样本,整理每个数据样本的特征信息,并给每个样本标记分类标签,然后将特征信息和分类标签设置为数据集,进行预处理,去除每个样本的序号、删除数据集中包含缺失值的样本,获得预处理后的数据集;
步骤1.2、预处理后的数据集包括:初始特征空间和分类标签,表示如下:Dataset={S,C},
其中,Dataset为给定数据集中特征空间和分类标签的集合,S表示初始特征空间,C表示数据集对应的分类标签;
对S中的所有特征编号,S={s1,s2,...,st,...,sn},st为初始特征空间中的第t个特征(t=1,2,...,n),n为初始特征空间中所含特征总数。
3.根据权利要求2所述的一种基于深度强化学习的特征选择方法,其特征在于:所述步骤2包括以下步骤:步骤2.1、从初始特征空间S中取出特征st,根据ε‑greedy策略以ε∈{0.1,1}的概率随机选择或以1‑ε的概率根据评估网络输出的动作值函数对特征st进行动作at;ε初始设置为1,每轮特征选择结束后,以ε=0.97ε的速度进行衰减,ε=0.1时,停止衰减;动作空间表示为:A={a1,a2,...,at,...,an}
其中,A为对所有特征进行选择的动作集合,n为动作的数量,at=1表示保留特征st,at=0表示删除特征st;
步骤2.2、更新初始特征空间S中的特征st的状态,得到当前特征子集,特征st被删除时,表示为st=0,保留时为st=1。
4.根据权利要求3所述的一种基于深度强化学习的特征选择方法,其特征在于:所述步骤4包括如下步骤:步骤4.1、初始化特征空间,根据实际容量初始化经验回放池,并随机初始化深度强化‑学习方法DQN模型中Q网络的网络参数:评估网络的参数θ和目标网络的参数θ,包括学习率β、折扣因子γ以及Q网络结构和参数;
步骤4.2、将步骤S2、S3中的四个参数当前特征st、动作at、奖励rt、下一特征st+1,作为经验序列(st,at,rt,st+1)存入经验回放池;
步骤4.3、当经验回放池中的数据达到最大容量capacity=2000时,随机取出32条经验序列(sj,aj,rj,sj+1),将特征sj经过选择后得到的候选特征子集作为向量输入评估网络,得到对应动作aj的Q值Q(sj,aj;θ),θ为评估网络的参数总和;将特征sj+1经过选择后得到的候选特征子集输入目标网络,并对比所有得到的Q值大小,选择最大Q值‑
θ为目标网络的参数总和,计算目标网络的估计值yj:其中,折扣因子γ=0.995,当j+1为终止时刻,代表sj+1为特征空间中最后一个待选特征;当j+1非终止时刻,代表sj+1并非特征空间中最后一个待选特征;
步骤4.4、根据随机梯度下降法,求得损失函数:
2
L(θ)=(yj‑Q(sj,aj;θ))
更新评估网络参数θ:
其中学习率β=0.001;
‑
将评估网络中的参数θ复制给目标网络的参数θ。
5.根据权利要求4所述的一种基于深度强化学习的特征选择方法,其特征在于:所述步骤5包括如下步骤:重复执行步骤2‑‑‑步骤4,训练深度强化学习方法至少500轮后停止,选择训练中得到的最高奖励值所在轮次获得的的特征子集作为最优特征子集SBest:SBest={s1,s2,...,sm}(m≤n)其中,m为所选特征个数,sm为保留的第m个特征;
在上位机中输出所选的最优特征子集和该特征子集的分类准确率。