1.一种信道分配方法,其特征在于,包括:
获取待训练的信道分配模型的训练数据集,所述训练数据集包括一个以上待训练业务,所述待训练业务关联有一个以上待训练信道;
将所述训练数据集输入至所述待训练的信道分配模型后,针对任一待训练业务,初始化与所述待训练业务相关联的一个以上待训练信道的状态模式矩阵;
获取当前时刻所述一个以上待训练信道的状态,记为第一状态,并基于所述第一状态对所述状态模式矩阵进行更新;
基于所述第一状态以及预设的信道分配原则,获取信道分配动作集合;
选定所述信道分配动作集合中的一个信道分配动作,记为第一动作,并执行所述第一动作,获得瞬时回报值,其中,所述瞬时回报值与所述第一状态及所述第一动作相关联;
根据所述第一状态、所述第一动作及所述瞬时回报值计算收益Q值;
基于计算得到的所述收益Q值,对Q值记录表进行更新,直至各个待训练业务及与各个待训练业务相关联的一个以上待训练信道均被分配完成为止,得到已训练的信道分配模型;
获取待分配业务及与所述待分配业务相关的一个以上待分配信道,将所述待分配业务及待分配信道输入至已训练的所述信道分配模型中,得到所述待分配业务在所述一个以上待分配信道上的分配结果。
2.如权利要求1所述的信道分配方法,其特征在于,所述根据所述第一状态、所述第一动作及所述瞬时回报值计算收益Q值之后,所述信道分配方法还包括:获取预设的缓存单元所缓存的交互数据,其中,所述交互数据包括信道状态、信道分配动作;
将所述交互数据中的信道状态及信道分配动作输入至待训练的反向传播BP神经网络中,对计算得到的所述收益Q值进行训练;
所述基于计算得到的所述收益Q值,对Q值记录表进行更新,包括:基于训练后所得到的收益Q值对所述Q值记录表进行更新。
3.如权利要求1或2所述的信道分配方法,其特征在于,所述执行所述第一动作,获得瞬时回报值,包括:在所述第一动作执行完毕后,检测所述一个以上待训练信道是否满足预设的一个以上信道分配原则;
根据所述一个以上信道分配原则的满足情况,计算所述瞬时回报值。
4.如权利要求1或2所述的信道分配方法,其特征在于,所述初始化与所述待训练业务相关联的一个以上待训练信道的状态模式矩阵,包括:确定与所述待训练业务相关联的一个以上待训练信道的信道数量;
基于所述信道数量创建状态模式矩阵,并将所述状态模式矩阵中的元素初始化为0;
相应地,所述获取当前时刻所述一个以上待训练信道的状态,记为第一状态,并基于所述第一状态对所述状态模式矩阵进行更新,包括:针对一个以上待训练信道中的任一待训练信道,检测所述待训练信道的当前占用情况、当前冲突情况、当前信道质量及业务等级;
基于所述当前占用情况、所述当前冲突情况、所述当前信道质量及所述业务等级,确定所述待训练信道的状态;
将获取到的各个待训练信道的状态记为第一状态,并基于所述第一状态对所述状态模式矩阵进行更新。
5.如权利要求1或2所述的信道分配方法,其特征在于,所述基于所述第一状态以及预设的信道分配原则,获取信道分配动作集合,包括:根据所述第一状态及所述信道分配原则,在所述一个以上待训练信道中,确定当前时刻的未被占用的空闲信道;
针对任一空闲信道,获取所述空闲信道的分配状态、信道质量及业务等级,以生成针对所述空闲信道的分配动作。
6.一种信道分配装置,其特征在于,包括:
训练数据获取单元,用于获取待训练的信道分配模型的训练数据集,所述训练数据集包括一个以上待训练业务,所述待训练业务关联有一个以上待训练信道;
初始化单元,用于将所述训练数据集输入至所述待训练的信道分配模型后,针对任一待训练业务,初始化与所述待训练业务相关联的一个以上待训练信道的状态模式矩阵;
状态更新单元,用于获取当前时刻所述一个以上待训练信道的状态,记为第一状态,并基于所述第一状态对所述状态模式矩阵进行更新;
集合获取单元,用于基于所述第一状态以及预设的信道分配原则,获取信道分配动作集合;
动作执行单元,用于选定所述信道分配动作集合中的一个信道分配动作,记为第一动作,并执行所述第一动作,获得瞬时回报值,其中,所述瞬时回报值与所述第一状态及所述第一动作相关联;
收益计算单元,用于根据所述第一状态、所述第一动作及所述瞬时回报值计算收益Q值;
收益更新单元,用于基于计算得到的所述收益Q值,对Q值记录表进行更新,直至各个待训练业务及与各个待训练业务相关联的一个以上待训练信道均被分配完成为止,得到已训练的信道分配模型;
模型应用单元,用于获取待分配业务及与所述待分配业务相关的一个以上待分配信道,将所述待分配业务及待分配信道输入至已训练的所述信道分配模型中,得到所述待分配业务在所述一个以上待分配信道上的分配结果。
7.如权利要求6所述的信道分配装置,其特征在于,所述信道分配方法还包括:交互数据获取单元,用于获取预设的缓存单元所缓存的交互数据,其中,所述交互数据包括信道状态、信道分配动作;
收益训练单元,用于将所述交互数据中的信道状态及信道分配动作输入至待训练的反向传播BP神经网络中,对计算得到的所述收益Q值进行训练;
相应地,所述收益更新单元,具体用于基于训练后所得到的收益Q值对Q值记录表进行更新。
8.如权利要求6或7所述的信道分配装置,其特征在于,所述动作执行单元包括:原则检测子单元,用于在所述第一动作执行完毕后,检测所述一个以上待训练信道是否满足预设的一个以上信道分配原则;
瞬时回报值计算子单元,用于根据所述一个以上信道分配原则的满足情况,计算所述瞬时回报值。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。