1.一种深度强化学习与进化计算引导的煤矸智能洗选方法,其特征在于,包括以下步骤:S1、智能感知需要在跳汰机的关键控制环节安装不同类型的传感器,实现控制数据的全方位实时采集,各传感器保持同步信息采集频率;
S2、将采集的数据通过OPC协议汇聚在数据服务器中,采样频率设定为f,1秒内共采集f条数据,每条数据包含32个数值,分别来自精煤灰分仪,风压、水压、液压缸,中煤与矸石闸门,浮标配重,煤矸石斗提量和浮标值;
当通信良好、汇聚的数据量高于32*f个采样数值的1/2时,采用深度强化学习生成跳汰机运行的调控策略,同时根据斗提带料高度、浮标变化幅度、闸门开度判断跳汰机是否存在超载、洗选压实与飘花、卡闸门的报警信息;当通信堵塞、汇聚的数据量低于或等于32*f个采样数值的1/2时,采用差分进化算法生成跳汰机运行的调控策略,并反馈网络通信问题的报警信息;当发现网络问题后,采用声光报警器报警,通知跳汰机司机处理网络问题;
S3、通过OPC协议将调控策略回传给控制端,实现跳汰机的自动化运行。
2.根据权利要求1所述的一种深度强化学习与进化计算引导的煤矸智能洗选方法,其特征在于,步骤S1中,跳汰机的关键控制环节安装不同类型的传感器,具体为:精煤灰分实时监测部分采用精煤灰分仪,风压、水压、液压缸采用压力计,中煤与矸石闸门开度采用光电闸门开度传感器,浮标配重采用压力传感器,煤矸石斗提量采用机器视觉摄像头,浮标处采用高度传感器。
3.根据权利要求1所述的一种深度强化学习与进化计算引导的煤矸智能洗选方法,其特征在于,步骤S2中,当通信良好、汇聚的数据量高于32*f个采样数值的1/2时,采用深度强化学习生成跳汰机运行的调控策略,包括以下步骤:将跳汰机的控制参数记为 ,包括/>时刻的精煤灰分、给料频率、水压、风压、风阀调整、液压缸、中煤/矸石阀门开度、浮标配重参数;调控参数的动作记为/>,/>是给料频率、水压、风压、风阀调整、液压缸、中煤/矸石阀门开度、浮标配重参数的单次调整量组成的集合;执行/>后带来的精煤灰分变化量记为/>;由于跳汰机的运行过程具有惯性,需要在执行/>的/>分钟后统计/>,其中/>;
采用深度强化学习中的典型模型深度Q-学习网络构建与/>的映射关系,具体如下:获取训练数据,数据来源于跳汰司机和跳汰机运行过程中自动采集的数据;
首先,从获取训练数据中随机选取/>个样本并归一化作为训练样本,初始化训练参数,包括典型模型深度Q-学习网络的权重/>和偏置项/>、最大训练次数/>、隐含层及其神经元数量和网络学习速率/>,隐含层之间通过sigmoid函数连接,输出层的激励函数为线性函数,第/>个隐含层表示为/>;
然后,对于训练样本,通过前向传播获得训练样本的预测值,计算预测误差/>,并沿预测误差负梯度方向调整网络的权重/>和偏置项/>;/>为权值/>和偏置项/>合称;
其中,,/>,/>为Q-学习网络的输出,表示第/>层向第/>层的输入,/>和/>表示第/>层节点的权重和偏置值,为参与训练的样本总量,/>为Q-学习网络推断的策略预期效果值;当/>满足要求或训练次数达到/>时,停止Q-学习网络的训练;
典型模型深度Q-学习网络训练完成后,将时刻的运行状态/>作为典型模型深度Q-学习网络的输入,得到不同调控动作的性能预测值/>;
对于所有,记性能预测值最大的调控动作为/>,/>即为后续跳汰机的调控策略;
为了降低DQN过拟合导致的负面影响,提高状态空间的探索能力,通过Epsilon贪婪策略,以概率从调控策略中随机选择一个策略,代替DQN推荐的策略,具体如下: ;
其中,表示随机选择一个调控策略,其中,随机选择的调控策略需要考虑设备安全使用的约束。
4.根据权利要求3所述的一种深度强化学习与进化计算引导的煤矸智能洗选方法,其特征在于,步骤S2中,当通信堵塞、汇聚的数据量低于或等于32*f个采样数值的1/2时,采用差分进化算法生成跳汰机运行的调控策略,具体如下:将每条人工经验或跳汰机积累的运行数据构造为维度的数据,分别对应/>个跳汰机运行参数和1个精煤灰分参数,那么,/>条数据构成一个/>的数据矩阵,用于BP深度神经网络的训练,得到用于评价解方案/>的函数/>;
BP神经网络,隐含层之间通过sigmoid函数连接,输出层的激励函数为线性函数,第个隐含层表示为/>;
训练过程中,首先初始化权重和偏置项/>、最大训练次数/>、隐含层及其神经元数量和网络学习速率/>;其中,/>为权重/>和偏置项/>的合称;
然后,对于训练样本,通过前向传播获得训练样本的预测值,计算预测误差/>,并沿预测误差负梯度方向调整网络/>和偏置项/>;其中,/>,/>,为BP神经网络的输出,/>表示第/>层向第/>层的输入,/>和表示第/>层节点的权重和偏置值,/>为参与训练的样本总量,/>策略的实际效果值,/>为BP神经网络推断的策略预期效果值;当/>满足要求或训练次数达到/>时,停止BP神经网络的训练;
对应于深度强化学习的求解方法,解方案等同于调控策略/>,函数/>等同于精煤灰分预测调整值/>;
由于差分进化算法只能求解最小化或者最大化问题,而跳汰机需要将精煤灰分控制在给定范围内,故将优化目标需修改为/>,其中,/>为/>时刻的精煤灰分。