1.一种数据传输方法,其特征在于,包括:
获取至少一个训练样本;
根据所述至少一个训练样本,进行离线学习处理,得到评估参数,所述评估参数用于指示在各个状态下执行各个动作的评估值;
根据所述评估参数进行在线学习处理,对所述评估参数进行更新;
根据所述更新后的评估参数,确定目标动作,所述目标动作用于指示采用目标路径传输目标数据;
所述根据所述至少一个训练样本,进行离线学习处理,得到评估参数,包括:根据各所述训练样本中的初始状态进行聚类处理,得到M个聚类中心,所述M为大于或等于1的整数;
根据所述M个聚类中心,确定评估表格,所述评估表格用于指示所述评估参数;
其中,所述评估表格为M行N列的表格,所述评估表格的M行分别对应所述M个聚类中心,所述评估表格的N列分别对应N个动作,所述评估表格中的M×N个元素分别用于指示在各个聚类中心对应的状态下执行各个动作的评估值,所述N为大于等于1的整数;
所述根据所述评估参数进行在线学习处理,对所述评估参数进行更新,包括:确定上一时刻的初始状态、上一时刻的初始状态对应的动作、上一时刻的动作对应的奖励值、上一时刻的动作对应的下一状态,其中,上一时刻的动作对应的下一状态为当前时刻的初始状态;
在所述评估表格中确定所述上一时刻的初始状态对应的欧式距离最小的聚类中心对应的第z行,以及,在所述评估表格中确定所述上一时刻的下一状态对应的欧式距离最小的聚类中心对应的第w行,其中,所述z为大于或等于1的整数,所述w为大于或等于1的整数;
根据所述上一时刻的动作对应的奖励值、所述上一时刻的下一状态对应第w行中的最大评估值以及所述第z行中所述上一时刻的初始状态对应的动作的评估值,更新所述第z行中所述上一时刻的初始状态对应的动作的评估值。
2.根据权利要求1所述的方法,其特征在于,各所述训练样本中至少包括如下数据:当前时刻的初始状态、所述初始状态对应的动作、所述动作对应的奖励值、所述动作对应的下一状态;
其中,所述初始状态包括当前时刻各个路径的往返时延以及拥塞程度,所述动作包括采用第一路径传输数据,所述下一状态包括执行所述动作后各个路径的往返时延以及拥塞程度;
其中,所述奖励值和所述第一路径的吞吐量成正比,以及和所述第一路径的丢包率成反比,以及和所述第一路径的能耗成反比。
3.根据权利要求2所述的方法,其特征在于,所述获取至少一个训练样本,包括:确定当前时刻的初始状态,并根据所述初始状态确定各个路径的往返时延;
将往返时延最小的路径确定为所述第一路径,根据所述第一路径传输数据,得到所述初始状态对应的动作;
根据所述第一路径的吞吐量、所述第一路径的丢包率、所述第一路径的能耗,确定所述动作对应的奖励值;
根据接收到的确认字符,获取执行所述动作后各个路径的往返时延以及拥塞程度,得到所述动作对应的下一状态;
根据所述当前时刻的初始状态、所述初始状态对应的动作、所述动作对应的奖励值、所述动作对应的下一状态,得到训练样本;
将所述动作对应的下一状态作为当前时刻的初始状态,重复执行上述得到训练样本的操作,直至得到预设数量的训练样本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述M个聚类中心,确定评估表格,包括:构建初始表格,将所述初始表格中的各个元素初始化为0;
针对各所述训练样本,分别确定所述训练样本中的初始状态和各所述聚类中心的欧式距离,以及分别确定所述训练样本中的下一状态和各所述聚类中心的欧式距离;
在所述初始表格中确定所述初始状态对应的欧式距离最小的聚类中心对应的第i行,以及在所述初始表格中确定所述下一状态对应的欧式距离最小的聚类中心对应的第j行,其中,所述i为大于或等于1的整数,所述j为大于或等于1的整数;
将所述第i行中往返时延最小的动作对应的评估值设置为1,以及,将所述第j行中往返时延最小的动作对应的评估值设置为1;
根据所述训练样本中的奖励值、所述下一状态对应第j行中的最大评估值以及所述第i行中所述初始状态对应的动作的评估值,更新所述第i行中所述初始状态对应的动作的评估值,得到所述评估表格。
5.根据权利要求1所述的方法,其特征在于,所述根据所述更新后的评估参数,确定目标动作,包括:根据当前时刻的初始状态,在所述更新后的评估表格中确定所述当前时刻的初始状态对应的欧式距离最小的聚类中心对应的第x行,其中,所述x为大于或等于1的整数;
根据第一概率,将在所述第x行中随机选择的动作确定为所述目标动作;或者,根据第二概率,将所述第x行中评估值最大的动作确定为所述目标动作。
6.一种数据传输装置,其特征在于,包括:
获取模块,用于获取至少一个训练样本;
第一学习模块,用于根据所述至少一个训练样本,进行离线学习处理,得到评估参数,所述评估参数用于指示在各个状态下执行各个动作的评估值;
第二学习模块,用于根据所述评估参数进行在线学习处理,对所述评估参数进行更新;
确定模块,用于根据所述更新后的评估参数,确定目标动作,所述目标动作用于指示采用目标路径传输目标数据;
第一学习模块,具体用于:
根据各所述训练样本中的初始状态进行聚类处理,得到M个聚类中心,所述M为大于或等于1的整数;
根据所述M个聚类中心,确定评估表格,所述评估表格用于指示所述评估参数;
其中,所述评估表格为M行N列的表格,所述评估表格的M行分别对应所述M个聚类中心,所述评估表格的N列分别对应N个动作,所述评估表格中的M×N个元素分别用于指示在各个聚类中心对应的状态下执行各个动作的评估值,所述N为大于等于1的整数;
第二学习模块,具体用于:
确定上一时刻的初始状态、上一时刻的初始状态对应的动作、上一时刻的动作对应的奖励值、上一时刻的动作对应的下一状态,其中,上一时刻的动作对应的下一状态为当前时刻的初始状态;
在所述评估表格中确定所述上一时刻的初始状态对应的欧式距离最小的聚类中心对应的第z行,以及,在所述评估表格中确定所述上一时刻的下一状态对应的欧式距离最小的聚类中心对应的第w行,其中,所述z为大于或等于1的整数,所述w为大于或等于1的整数;
根据所述上一时刻的动作对应的奖励值、所述上一时刻的下一状态对应第w行中的最大评估值以及所述第z行中所述上一时刻的初始状态对应的动作的评估值,更新所述第z行中所述上一时刻的初始状态对应的动作的评估值。
7.一种数据传输设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至5中任一所述的方法。
8.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至5中任一所述的方法。