1.一种基于强化学习的基片集成波导参数优化方法,其特征在于,包括如下步骤:步骤一、对待优化基片集成波导进行参数提取:基片集成波导的上表面金属层上设有由N个直接连接的阻抗单元构成的阻抗网络,N为大于等于1的正整数,阻抗单元的延伸方向与波导宽度方向呈θ的夹角,阻抗单元为椭圆形金属贴片及其延伸方向连接的微带线的组合,金属贴片上开设有椭圆形缺口,其尺寸参数为L,包括椭圆形金属贴片的短轴长度L1、长轴长度L2、微带线长度L3以及微带线间距离L4;
步骤二、根据Q‑learning算法,基于强化学习中的ε贪婪策略,以待优化基片集成波导的参数夹角θ和尺寸L做范围变化并代入三维电磁场仿真软件进行变量仿真测试,得到参数对应的奖励值或惩罚值,其中,所述参数夹角θ的取值范围为0°90°;
~
步骤三、根据所述参数对应的奖励值或惩罚值,得到最优参数。
2.如权利要求1所述的基于强化学习的基片集成波导参数优化方法,其特征在于,所述步骤二具体包括:
对待优化基片集成波导的参数夹角θ和尺寸L进行初始化并建模,其中,对待优化的参数取随机数,通过三维电磁场仿真软件仿真得到仿真增益并将仿真增益设为初始状态s;
以待优化基片集成波导的参数夹角θ和尺寸L做范围变化,构建动作集A,以及设置奖惩函数R;
基于强化学习中的ε贪婪策略,根据初始状态s从动作集A中选择动作,将初始状态s和动作输入Q‑learning强化学习模型进行计算,得到奖励值或惩罚值,并对Q表进行更新,状态由s转移到s'。
3.如权利要求2所述的基于强化学习的基片集成波导参数优化方法,其特征在于,所述步骤二中,选取仿真增益在指定频率内的最大值作为初始状态s。
4.一种基片集成波导结构,其特征在于,由上述权利要求1‑3任一项所述的基于强化学习的基片集成波导参数优化方法所得。
5.如权利要求4所述的基片集成波导结构,其特征在于,包括:介质基片(2),所述介质基片(2)的两侧设有金属化通孔阵列(3),连接上、下表面金属层(1);
所述介质基片(2)的上表面金属层(1)上设置有与其连接的阻抗网络(4),所述阻抗网络(4)由N个阻抗单元构成,N为大于等于1的正整数,每个阻抗单元为金属层(1)加工蚀刻成波导宽度方向的金属贴片及其延伸方向连接的微带线的组合,所述波导宽度方向的金属贴片上开设有缺口,相邻阻抗单元的金属贴片之间由所述微带线连接。
6.如权利要求5所述的基片集成波导结构,其特征在于,所述金属贴片为椭圆形金属贴片,所述缺口设置为椭圆形缺口,所述微带线连接于椭圆形金属贴片的短轴,每个阻抗单元的椭圆形金属贴片的长轴依次连接。
7.如权利要求6所述的基片集成波导结构,其特征在于,所述椭圆形金属贴片的长轴方向与波导宽度方向平行。
8.如权利要求6所述的基片集成波导结构,其特征在于,所述椭圆形金属贴片的短轴长度L1/2为0.45mm,长轴长度L2/2为0.9mm、微带线长度L3为0.3mm以及微带线间距离L4为
1.5mm。