利索能及
我要发布
收藏
专利号: 2020110326582
申请人: 南京星耀智能科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于分布式协同采样中心式优化的强化学习训练系统,其特征在于:包括强化学习算法模块、优先级队列缓存模块、远端奖励回溯模块、中心式优化模块、分布式机器;

所述强化学习算法模块,用于集成存储的强化学习算法模型,通过自定义的算法接口进行调用和切换强化学习算法;

所述优先级队列缓存模块,通过轨迹优先级设置方式,进行队列中待处理的轨迹数据存储及排序;

所述远端奖励回溯模块,通过将优先级队列缓存模块输出的轨迹(S,a,r)中r进行修改处理,生成新的轨迹(S`,a`,r`),其中S和S`分别是轨迹、新的轨迹下的环境状态,即仿真环境中对当前状态的量化描述;a和a`分别是轨迹、新的轨迹下的智能体决策的动作,即对仿真环境中智能体的控制;r和r`分别是轨迹、新的轨迹下的即时奖励,其中奖励是一个标量,描述了对某种状态下采用某种动作的好坏程度;

所述分布式机器设置了多个分布式采样机和一个中心式训练服务器,在每一个分布式采样机器上均对应一份仿真环境;

所述中心式优化模块,通过采集分布式机器的轨迹数据和优先级队列缓存模块的轨迹数据,进行数据筛选,通过强化学习算法模块的强化学习算法模型训练;

每一组分布式采样机与仿真环境实例数据库通讯连接,进行模型训练的具体步骤:步骤1 通过强化学习算法模块进行设置算法模型及相应的模型训练参数,并启动服务端、客户端和配置一组仿真环境实例;

步骤4 客户端将本地模型model_id作为参数发送给服务端的模型参数服务;

步骤5 服务端接收到获取最新model_id的请求,若模型已更新,则返回给客户端worker端最新的模型model_id和相应的模型参数;若模型未更新,则返回给客户端worker端最新的模型model_id;

步骤6 客户端worker使用更新的模型参数与本地仿真环境进行交互,获取(S,a,r)轨迹数据;

步骤7 当单次仿真的轨迹数据采集完毕,将整条轨迹数据发送给服务端;

步骤8 服务端对该轨迹数据进行奖励回溯处理和优先级设置;

步骤9 将处理好的轨迹数据存储进优先级缓存中;

步骤10 当优先级缓存中的数据量达到可训练的程度时,服务端从该缓存中获取优先级较高的一部分数据进行模型训练;

步骤11 在服务端更新最新的模型model_id以及相应的模型参数;

步骤12 删除优先级缓存中的部分低优先级的轨迹数据;

步骤13 直至算法收敛,结束客户端、结束服务端训练。

2.根据权利要求1所述基于分布式协同采样中心式优化的强化学习训练系统,其特征在于:所述远端奖励回溯模块中具体的方法为,通过对S仿真环境的处理,按照由后到前的原则,对轨迹中的r进行回溯,修改为新的奖励值,修正轨迹,进行模型收敛处理。

3.一种根据权利要求1或2基于分布式协同采样中心式优化的强化学习训练系统的训练方法,其特征在于:通过对多组分布式采样机,采集仿真环境实例数据库中多组环境案例,进行与服务端之间的信息交互,输出对应环境案例的轨迹数据给客户端;再通过强化学习算法模块的进行配置强化学习算法模型、初始化参数。

4.根据权利要求3所述强化学习训练系统的训练方法,其特征在于:与服务端之间进行信息交互时,具体的步骤为:(1)分布式采样机在运行时,连接访问系统回环通信接口通过内部网络通信,进行仿真环境与内部采样服务器之间的数据交互;当仿真环境完整的运行一次之后,则内部采样服务器获取到了一条完整的轨迹,然后该轨迹将发送给远端的中心式训练服务器内存储;

(2)在系统运行过程中,每一个采样机在获取到完整的轨迹之后都会发送给中心式训练服务器,中心式训练服务器中包含了多种预定的强化学习算法,当其接收到的轨迹数量满足训练条件之后,便会将暂存的所有数据用于模型的训练。