1.一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:
过程一、通过对实际封装模型的像素分析转换成高阶二元矩阵;
过程二、通过深度神经网络建立了打孔位置分布到辐射屏蔽性能之间的关系并训练,获得预测网络;
过程三、通过Double DQN模型的深度强化学习网络不断打孔探索,并通过过程二的预测网络反馈回馈值来学习深度强化学习网络,完成最优的打孔位置分布;
所述过程二,具体为:
随机生成若干0、1二元矩阵作为训练二元矩阵,训练二元矩阵的矩阵大小和高阶二元矩阵的0、1二元矩阵的矩阵大小相同,一个训练二元矩阵对应作为PCB板的一种打孔位置分布;在全波仿真软件中建立训练二元矩阵对应的打孔方案物理模型,并通过全波仿真软件施加电磁场测试得到该打孔方案对应的辐射屏蔽性能;每一种打孔位置分布与其对应的辐射屏蔽性组成为一条数据,所有条数据构成作为深度神经网络的训练数据集,并创建深度神经网络,将训练数据集输入到深度神经网络进行训练,获得训练后的深度神经网络作为预测网络。
2.根据权利要求1所述的一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:所述过程一,具体为:分析需要打孔的PCB板的实际封装模型,确定实际封装模型中所有可以打孔的位置,将实际封装模型进行像素化处理为高阶二元矩阵:按实际PCB封装模型分层,每两层PCB板间的地过孔根据打孔位置进行区域细分分块,将地过孔的打孔位置分布转换成0、1二元矩阵,
0、1二元矩阵中元素为1代表对应位置打孔,元素为0代表对应位置不打孔,不同的层间具有不同的0、1二元矩阵,各层间的0、1二元矩阵作为矩阵的不同阶层,组成了高阶二元矩阵。
3.根据权利要求1所述的一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:所述过程三,具体为:
3.1)创建两个结构相同且初始权重相同的深度强化学习神经网络Q(θt)和 组成Double DQN模型,每个深度强化学习神经网络采用Dueling DQN模型;
3.2)Double DQN模型的智能体对PCB板的每层从打孔为零开始进行打孔探索;
3.3)Double DQN模型的智能体进行多次打孔探索,每次打孔探索是在前一次的打孔位置分布基础上增加一个打孔位置获得了当前次的打孔位置分布,然后每次打孔探索后处理获得一条经验数据,一条经验数据包括当前次的打孔位置分布,当前次的打孔位置分布下所增加的一个地过孔的打孔位置、当前次的打孔位置分布的回馈值、当前次的打孔位置分布后可能更新的下一次打孔位置分布、当前次的打孔位置分布是否获得完成的结果;回馈值是当前次的打孔位置分布输入到预测网络获得的辐射屏蔽性能和前一次的打孔位置分布输入到预测网络获得的辐射屏蔽性能之差;
3.4)将Double DQN模型经多次打孔探索获得的每个经验数据存放在经验池,然后对经验池抽样,抽取优先级高的经验数据,再用优先经验回放方法根据优先级高的经验数据更新Double DQN模型的网络参数;
3.5)不断迭代上述步骤3.3)~3.4)过程,使得直到最新次的打孔位置分布输入到预测网络获得的辐射屏蔽性能达到预设的辐射屏蔽性能阈值,则以最新次的打孔位置分布作为最终结果,对PCB板进行地过孔打孔处理。
4.根据权利要求3所述的一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:所述的Double DQN模型中的智能体根据随机‑贪婪处理方式ε‑greedy处理方式进行探索获得是当前次的打孔位置分布。
5.根据权利要求3所述的一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:所述的优先级高的经验数据是指当前参数下的Double DQN模型对经验中包含的打孔收益预测误差超过预设阈值的经验数据。
6.根据权利要求3所述的一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:所述的用优先经验回放方法根据优先级高的经验数据更新Double DQN模型的网络参数,具体为:使用SumTree方法在经验池中快速获得优先级高的经验数据,并将这些经验数据以批训练的方式给入Double DQN以调整权重参数使进一步学习。
7.根据权利要求3所述的一种基于深度强化学习的封装地过孔打孔分布优化方法,其特征在于:所述的用于更新Double DQN模型参数更新和学习的回馈值使用了分步策略下对应的差分屏蔽性能,具体为当前次的打孔位置分布输入到预测网络获得的辐射屏蔽性能和前一次的打孔位置分布输入到预测网络获得的辐射屏蔽性能之差。