利索能及
我要发布
收藏
专利号: 2023113902807
申请人: 常州大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-24
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于,包括:

收集鸟类的三维目标数据,构建鸟类识别器,进行三维目标跟踪;

根据识别的结果自动生成奖励自动机,并构建奖励自动机与底层算法的连接机制,使用强化学习方法进行路径规划;

用拓扑排序的奖励机制改良强化学习方法,使用迭代训练和优化底层和顶层策略不断优化无人机的路径规划方法;

将基于拓扑排序的奖励机制规划路径的无人机用于农业驱鸟工作。

2.如权利要求1所述的基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于:所述鸟类识别器包括,使用深度学习方法构建鸟类分类器;收集不同种类鸟类的图像数据集进行标注;使用卷积神经网络对图像数据进行训练,构建鸟类分类器;分类器通过摄像头实时监测农田中的鸟类,对传输的目标图片需要被检测的敏感数据域进行判断;若不存在敏感数据域,则对下一帧图片进行判断;若图片存在敏感数据域,则用YOLO算法对图片所显示的目标区域进行目标检测工作;对图片包含的所有小区域中的图像画面进行边界框信息采集并通过卷积神经网络对检测到的鸟类目标进行分类和判断,接着对图片整体做出判断,最后输出该帧图片所含的目标的边界框和对象的类的信息。

3.如权利要求2所述的基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于:所述目标跟踪包括,使用摄像头进行目标监控,获取摄像头的内外参数;内参数包括相机的焦距、主点坐标,外参数包括相机的位置和姿态;

对图片进行目标检测,出现的b类鸟类目标都满足b∈B,B为全部鸟类集;分别对每个目标的边框位置进行识别,在目标周围提取图像块作为目标的特征表示;使用卷积神经网络方法来获取目标特征;在下一个时间步中,继续使用YOLO算法进行目标检测,并采用相似度度量方法IoU将当前帧的目标与上一帧的目标进行匹配;

根据目标匹配结果,通过更新目标的位置和状态来实现目标跟踪;使用连续追踪算法卡尔曼滤波器来预测鸟类的活动路径并追踪鸟类目标的移动;追踪算法会根据当前帧的目标检测结果和之前帧的追踪结果,对目标的位置的下一帧进行预测和估计,实现目标的连续追踪。

4.如权利要求3所述的基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于:所述目标三维信息的获取包括,使用双摄像头视差效应计算鸟类的三维坐标,采用三角测量法的方法;在同一时刻左摄像头和右摄像头的图像中检测到了同一个鸟类目标,并得到了对应的像素坐标;通过图像处理算法计算出对应像素之间的视差M;视差通过计算横向像素坐标之间的差值得到:为左摄像头中的鸟类目标像素坐标, 为右摄像头中的鸟类目标

像素坐标;

根据相机参数和几何关系,得到视差与实际深度之间的关系;这个关系可以通过相机的基线距离N、焦距L以及视差M得到:J=(N*L)/M

使用获得的基线长度和视点距离以及计算得到的视差值,计算出目标的深度值J;在坐摄像头为坐标原点的坐标系中,设目标的三维坐标为(Xn,Yn,Zn),其在两个摄像头图像中的对应像素坐标为 和 对于检测目标存在,表示为:Zn=(N*L)/M;

将三维坐标转换到特定坐标系,将求得的三维坐标保留在传感器中作为状态空间变量;

使用卡尔曼滤波器对目标进行跟踪,并进行降噪处理,得到一个关于目标位置的选优估计包括对当前目标位置的估计和对于将来位置的估计;

进行更新步骤的操作,更新的测量模型方程为:

D(k)=q(k)‑H*W(k)

其中,D(k)为测量残差,q(k)为当前时刻的测量值,H为测量矩阵;

更新的卡尔曼增益方程为:

K(k)=P(k)*H^T*(H*P(k)*H^T+R)^‑1

其中,K(k)为卡尔曼增益,R为测量噪声的协方差矩阵;

更新的状态估计值更新方程为:

W(k)=W(k)+K(k)*D(k)。

更新的协方差矩阵更新方程为:

P(k)=(I‑K(k)*H)*P(k)

其中,I为单位矩阵;重复上述预测和更新步骤,在更新步骤中根据测量模型和卡尔曼增益模型来修正状态向量W(k),并将所含速度分量 保留在传感器中作为状态空间变量。

5.如权利要求4所述的基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于:所述强化学习路径规划方法包括,根据识别的结果自动生成奖励自动机,构建奖励自动机与底层算法的连接机制;明确每个任务之间的依赖关系,定义任务层次结构,构建状态空间和动作空间,对应不同鸟类和当前状态,定义它们的依赖关系;根据任务的排序结果,为每个任务分配相应的奖励或权重,奖励或权重根据具体需求定义状态和动作空间:状态表示系统的当前状态或环境的观测结果,动作表示奖励自动机可以执行的操作或策略;利用奖励机制将当前状态和执行的动作映射到一个实数奖励值,这里直接使用自动奖励机生成的结果;

设计顶层奖励函数,将整个项目分解为多个阶段、任务分为多个子任务;每个子任务之间存在依赖关系,这些依赖关系可以表示为有向无环图DAG,其中每个节点表示子任务,边表示任务之间的依赖关系;对任务的DAG进行拓扑排序,使用经典的拓扑排序算法深度优先搜索DFS来实现,根据项目的性质和团队的表现来调整奖励的分配参数;分配的依据是平衡任务的优先级、奖励的大小以及不同任务之间的关系,同时根据执行时间和特定条件定义约束。

6.如权利要求5所述的基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于:所述生成奖励自动机包括,根据识别的鸟类信息,生成相应的奖励自动机;奖励自动机根据特定的行为规则为无人机提供奖励或惩罚信号,指导其行为;将奖励信号与无人机的路径规划算法相结合,通过建立接口,将奖励自动机的状态和动作空间与底层算法进行连接;输出三维空间位置结果,将目标观测结果、无人机运动、驱鸟的影响统一到三维空间尺度中;通过观察感知环境,以及已生成的奖励得到:MDP M=(S,s0,A,P,γ)

其中,S表示有限状态集,s0∈S表示初始状态,A表示有限动作集,P∈S×A→Dist(S)表示转移概率分布,γ表示折扣因子;R∈S×A×S→R表示分配给状态间转移的奖励;对于每一个步骤,遵循DQN程序派生出的策略,这个策略是基于当前的状态S和使用函数派生而出的,Q表示为;

Q(,a;θ,α,β)

其中,Q∈S×A→R,表示一种状态,a表示有限动作集,θ表示卷积层的网络参数,α和β表示全连接层的网络参数;以此指导采取进一步行动,从Q(,a;θ,α,β)派生的策略以及从动作空间a中选择动作,观察下一状态(s',e'),判断该动作是否符合策略目标,对其进行奖励的计算,递进地建立动态的状态转换和学习策略;使用奖励机扩展MDP来奖励每一r个动作的实现,引入了奖励函数δ和势能函数 在给定的状态和动作(e,a)时,计算出相应的奖励;设M和N共享相同的标记函数L∈S×A×S→F,F为给定奖励机和学习策略中的局部e动作集;若(e,L(s,a,s'))∈dom(δ),那么就让奖励机从状态e转移到L(s,a,s'),否则就保持在状态e;其中扩展的转换概率和原MDP中的转换概率相同;给定奖励机N:e

其中,E表示有限状态集,E0∈S表示初始状态,δ ∈E×F→E表示处于状态间的过渡函r数,δ∈E×F→R为状态和过渡函数的奖励函数, 为状态的势能函数和MDP M=(S,s0,A,P,γ),其中M和N共享标记函数L,T∈S为接受状态集合;扩展的MDP被定义为其中,拓展的MDP是由原MDP映射而来,其状态之间存在映射关系,所以有 因为在状态转换过程,基于状态集合S与动作集合A定义

了转移概率,转移概率表示为:

r

若奖励机的下一个状态为接受,则用奖励函数δ来更新,若下一状态不是接受,那么需r要同时用奖励函数δ和势能函数 对其进行更新,更新公式表示为:

确保底层策略和顶层策略之间的通信和协调机制,迭代地训练和优化底层策略和顶层策略,不断优化路径的规划。

7.如权利要求6所述的基于拓扑排序奖励机制的无人机农业驱鸟方法,其特征在于:所述基于拓扑排序的奖励机制强化学习规划无人机路径包括,对问题进行建模,定义任务的层次结构,将路径规划任务分解为不同的子任务;明确起始点和目标空间中的目标点的分类和属性;将问题形式转化为一个图,节点是离散的坐标点,处于运动中,边表示路径;定义并构建完整的清晰的状态空间和动作空间;

建立拓扑结构,设计顶层奖励函数,生成奖励信号;通过拓扑排序方法对路径进行优化,每个子任务表示为从当前位置到某个中间点的路径规划;奖励函数应该鼓励无人机选择符合拓扑结构的路径;引入了势能函数设置奖励机制,当无人机按照拓扑结构选择路径时,给予正奖励;当无人机违反拓扑结构时,给予负奖励,惩罚不合理的路径选择;

在每个子任务中,定义底层策略和对应的环境,指导强化学习算法在每个子任务中选择最佳动作;使用DQN算法学习路径规划策略,使得无人机能够根据当前状态选择合适的动作驱赶鸟类;使用底层策略学习执行每个子任务,学习一个顶层策略,该策略决定何时切换到不同的子任务;建立一个适当的接口或交互方式实现,确保底层策略和顶层策略之间有适当的通信和协调机制,实现任务的顺利执行,迭代地训练和优化底层策略和顶层策略,对路径规划系统进行调试和评估。

8.一种采用如权利要求1‑7任一所述方法的基于拓扑排序奖励机制的无人机农业驱鸟系统,其特征在于:鸟类追踪监测模块,利用监控单元对鸟类目标进行识别分类,并传输给综合计算模块,得到鸟类的三维信息;

路径规划模块,利用强化学习方法建立无人机路径规划模型,结合拓扑排序的奖励机制进行优化;

信息收发模块,接收各模块输入的信息,按需求分别发送,统筹各模块进行协调运作;

综合计算模块,对监测模块收集的信息,路径规划模块建立的模型,进行综合计算,并通过信息收发模块进行反馈。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。