买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种深度强化学习与进化计算引导的煤矸智能洗选方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种深度强化学习与进化计算引导的煤矸智能洗选方法

￥14000

专利号： 2023116406508

申请人：中国矿业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种深度强化学习与进化计算引导的煤矸智能洗选方法，其特征在于，包括以下步骤：S1、智能感知需要在跳汰机的关键控制环节安装不同类型的传感器，实现控制数据的全方位实时采集，各传感器保持同步信息采集频率；

S2、将采集的数据通过OPC协议汇聚在数据服务器中，采样频率设定为f，1秒内共采集f条数据，每条数据包含32个数值，分别来自精煤灰分仪，风压、水压、液压缸，中煤与矸石闸门，浮标配重，煤矸石斗提量和浮标值；

当通信良好、汇聚的数据量高于32*f个采样数值的1/2时，采用深度强化学习生成跳汰机运行的调控策略，同时根据斗提带料高度、浮标变化幅度、闸门开度判断跳汰机是否存在超载、洗选压实与飘花、卡闸门的报警信息；当通信堵塞、汇聚的数据量低于或等于32*f个采样数值的1/2时，采用差分进化算法生成跳汰机运行的调控策略，并反馈网络通信问题的报警信息；当发现网络问题后，采用声光报警器报警，通知跳汰机司机处理网络问题；

S3、通过OPC协议将调控策略回传给控制端，实现跳汰机的自动化运行。

2.根据权利要求1所述的一种深度强化学习与进化计算引导的煤矸智能洗选方法，其特征在于，步骤S1中，跳汰机的关键控制环节安装不同类型的传感器，具体为：精煤灰分实时监测部分采用精煤灰分仪，风压、水压、液压缸采用压力计，中煤与矸石闸门开度采用光电闸门开度传感器，浮标配重采用压力传感器，煤矸石斗提量采用机器视觉摄像头，浮标处采用高度传感器。

3.根据权利要求1所述的一种深度强化学习与进化计算引导的煤矸智能洗选方法，其特征在于，步骤S2中，当通信良好、汇聚的数据量高于32*f个采样数值的1/2时，采用深度强化学习生成跳汰机运行的调控策略，包括以下步骤：将跳汰机的控制参数记为，包括/>时刻的精煤灰分、给料频率、水压、风压、风阀调整、液压缸、中煤/矸石阀门开度、浮标配重参数；调控参数的动作记为/>，/>是给料频率、水压、风压、风阀调整、液压缸、中煤/矸石阀门开度、浮标配重参数的单次调整量组成的集合；执行/>后带来的精煤灰分变化量记为/>；由于跳汰机的运行过程具有惯性，需要在执行/>的/>分钟后统计/>，其中/>；

采用深度强化学习中的典型模型深度Q-学习网络构建与/>的映射关系，具体如下：获取训练数据，数据来源于跳汰司机和跳汰机运行过程中自动采集的数据；

首先，从获取训练数据中随机选取/>个样本并归一化作为训练样本，初始化训练参数，包括典型模型深度Q-学习网络的权重/>和偏置项/>、最大训练次数/>、隐含层及其神经元数量和网络学习速率/>，隐含层之间通过sigmoid函数连接，输出层的激励函数为线性函数，第/>个隐含层表示为/>；

然后，对于训练样本，通过前向传播获得训练样本的预测值，计算预测误差/>，并沿预测误差负梯度方向调整网络的权重/>和偏置项/>；/>为权值/>和偏置项/>合称；

其中，，/>，/>为Q-学习网络的输出，表示第/>层向第/>层的输入，/>和/>表示第/>层节点的权重和偏置值，为参与训练的样本总量，/>为Q-学习网络推断的策略预期效果值；当/>满足要求或训练次数达到/>时，停止Q-学习网络的训练；

典型模型深度Q-学习网络训练完成后，将时刻的运行状态/>作为典型模型深度Q-学习网络的输入，得到不同调控动作的性能预测值/>；

对于所有，记性能预测值最大的调控动作为/>，/>即为后续跳汰机的调控策略；

为了降低DQN过拟合导致的负面影响，提高状态空间的探索能力，通过Epsilon贪婪策略，以概率从调控策略中随机选择一个策略，代替DQN推荐的策略，具体如下：；

其中，表示随机选择一个调控策略，其中，随机选择的调控策略需要考虑设备安全使用的约束。

4.根据权利要求3所述的一种深度强化学习与进化计算引导的煤矸智能洗选方法，其特征在于，步骤S2中，当通信堵塞、汇聚的数据量低于或等于32*f个采样数值的1/2时，采用差分进化算法生成跳汰机运行的调控策略，具体如下：将每条人工经验或跳汰机积累的运行数据构造为维度的数据，分别对应/>个跳汰机运行参数和1个精煤灰分参数，那么，/>条数据构成一个/>的数据矩阵，用于BP深度神经网络的训练，得到用于评价解方案/>的函数/>；

BP神经网络，隐含层之间通过sigmoid函数连接，输出层的激励函数为线性函数，第个隐含层表示为/>；

训练过程中，首先初始化权重和偏置项/>、最大训练次数/>、隐含层及其神经元数量和网络学习速率/>；其中，/>为权重/>和偏置项/>的合称；

然后，对于训练样本，通过前向传播获得训练样本的预测值，计算预测误差/>，并沿预测误差负梯度方向调整网络/>和偏置项/>；其中，/>，/>，为BP神经网络的输出，/>表示第/>层向第/>层的输入，/>和表示第/>层节点的权重和偏置值，/>为参与训练的样本总量，/>策略的实际效果值，/>为BP神经网络推断的策略预期效果值；当/>满足要求或训练次数达到/>时，停止BP神经网络的训练；

对应于深度强化学习的求解方法，解方案等同于调控策略/>，函数/>等同于精煤灰分预测调整值/>；

由于差分进化算法只能求解最小化或者最大化问题，而跳汰机需要将精煤灰分控制在给定范围内，故将优化目标需修改为/>，其中，/>为/>时刻的精煤灰分。