1.一种虚拟机器人训练方法,其特征在于,包括:
生成包含有多个目标虚拟机器人的机器人集合;所述多个目标虚拟机器人对应有不同的第一属性信息;
针对每个目标虚拟机器人,从机器人集合中选择不同的虚拟机器人与该目标虚拟机器人进行模拟对抗,并根据模拟对抗结果和该目标虚拟机器人对应的回报函数训练该目标虚拟机器人,以及根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人;
从训练后得到的所述机器人集合中选择第一目标虚拟机器人作为训练结果。
2.根据权利要求1所述的方法,其特征在于,针对每个目标虚拟机器人,从机器人集合中选择不同的虚拟机器人与该目标虚拟机器人进行模拟对抗,并根据模拟对抗结果和该目标虚拟机器人对应的回报函数训练该目标虚拟机器人,以及根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人,包括:迭代执行如下步骤,直至达到终止训练条件:
针对每个目标虚拟机器人,从机器人集合中选择指定的虚拟机器人与该目标虚拟机器人进行模拟对抗;
针对每个目标虚拟机器人,根据该目标虚拟机器人的模拟对抗结果和该目标虚拟机器人对应的回报函数对该目标虚拟机器人进行训练;
针对每个目标虚拟机器人,根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人。
3.根据权利要求2所述的方法,其特征在于,所述终止训练条件包括以下的任意一个:多个所述目标虚拟机器人中对抗优势程度低于预定数值的虚拟机器人的数量是否超过预定数值;所述目标虚拟机器人的对抗优势程度是根据该目标虚拟机器人每次模拟对抗的结果的变化程度确定的;
多个所述目标虚拟机器人中的第二目标虚拟机器人的对抗优势程度是否符合预设要求;所述第二目标虚拟机器人的对抗优势程度是根据第二目标虚拟机器人每次模拟对抗的结果的变化程度确定的。
4.根据权利要求1所述的方法,其特征在于,第一属性信息包括以下的任意一种或多种:角色类型、回报函数。
5.根据权利要求1所述的方法,其特征在于,从训练后得到的所述机器人集合中选择第一目标虚拟机器人作为训练结果,包括:针对训练后得到的所述机器人集合中属于目标角色类型的每个虚拟机器人,根据该虚拟机器人的模拟对抗结果,统计该虚拟机器人的对抗优势程度;
根据属于目标角色类型的每个虚拟机器人的对抗优势程度,从属于目标角色类型的虚拟机器人中选择出第一目标虚拟机器人作为训练结果。
6.根据权利要求1所述的方法,其特征在于,从训练后得到的所述机器人集合中选择第一目标虚拟机器人作为训练结果,包括:针对第一属性信息中的目标属性信息,从训练后得到的所述机器人集合中选择该目标属性信息下的虚拟机器人中训练时间最晚的第一虚拟机器人作为训练结果。
7.根据权利要求1所述的方法,其特征在于,生成包含有多个目标虚拟机器人的机器人集合,包括:根据目标虚拟机器人所在游戏的游戏类型,确定每个目标虚拟机器人的第一属性信息;
根据每个目标虚拟机器人的第一属性信息,生成包含有多个目标虚拟机器人的机器人集合。
8.根据权利要求2所述的方法,其特征在于,针对每个目标虚拟机器人,从机器人集合中选择指定的虚拟机器人与该目标虚拟机器人进行模拟对抗,包括:针对每个目标虚拟机器人,根据机器人集合中虚拟机器人的第二属性信息确定每个虚拟机器人的选择概率;所述第二属性信息包括以下的任意一种或多种:虚拟机器人的训练时间、虚拟机器人的模拟对抗结果、虚拟机器人的角色类型、虚拟机器人的回报函数;
针对每个目标虚拟机器人,根据机器人集合中每个虚拟机器人的选择概率,从机器人集合中选择指定的虚拟机器人与该目标虚拟机器人进行模拟对抗。
9.一种虚拟机器人训练装置,其特征在于,包括:
生成模块,用于生成包含有多个目标虚拟机器人的机器人集合;所述多个目标虚拟机器人对应有不同的第一属性信息;
训练模块,用于针对每个目标虚拟机器人,从机器人集合中选择不同的虚拟机器人与该目标虚拟机器人进行模拟对抗,并根据模拟对抗结果和该目标虚拟机器人对应的回报函数训练该目标虚拟机器人,以及根据训练后的目标虚拟机器人更新机器人集合中的虚拟机器人;
选择模块,用于从训练后得到的所述机器人集合中选择第一目标虚拟机器人作为训练结果。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至8任一所述的虚拟机器人训练方法的步骤。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的虚拟机器人训练方法的步骤。