利索能及
我要发布
收藏
专利号: 2021101213607
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种Pod间通信的方法,其特征在于,所述方法应用于分布式计算系统,所述分布式计算系统包括:主机和多个节点;每个所述节点上包括多个GPU,待处理的目标任务对应的多个容器集Pod用于运行在所述多个节点中的目标节点的GPU上;所述目标任务对应的多个Pod包括第一Pod和第二Pod;

所述方法包括:

所述第一Pod获取任务资源信息,包括:所述第一Pod接收所述目标节点上的插件发送的所述任务资源信息;所述任务资源信息包括:所述第一Pod所属的所述目标任务对应占用的GPU集合;其中,所述GPU集合包括:所述第一Pod运行所在的第一GPU以及第二Pod运行所在的第二GPU;

所述第一Pod根据所述GPU集合,通过所述第一GPU与所述第二GPU之间建立P2P连接,以实现所述第一Pod与第二Pod间的通信。

2.根据权利要求1所述的方法,其特征在于,所述GPU集合位于所述目标节点上;所述目标节点上运行有:代理控制器和插件;其中,所述代理控制器用于负责所述目标节点与主机间的通信;

所述第一Pod获取任务资源信息,包括:

所述第一Pod接收所述目标节点上的插件发送的所述任务资源信息,其中,所述任务资源信息由所述代理控制器发送至所述插件。

3.根据权利要求1所述的方法,其特征在于,所述主机上包括:调度器;所述第一Pod获取任务资源信息之前,所述方法还包括:所述调度器根据所述目标任务与多个Pod间的对应关系,为所述目标任务对应的每个Pod设置标注信息,所述标注信息包括:所述目标任务的任务标识;

所述调度器将所述多个Pod发送至目标节点,以使得所述目标节点根据所述标注信息将Pod调度到GPU上。

4.根据权利要求3所述的方法,其特征在于,所述目标节点上运行有:代理控制器和插件;所述调度器将所述多个Pod发送至目标节点之后,所述方法还包括:所述目标节点上的代理控制器根据所述Pod标注的目标任务的任务标识,得到属于同一所述目标任务的多个Pod对应分配的GPU集合;

所述代理控制器将所述多个Pod中每个Pod对应分配的GPU、以及所述目标任务对应的所述GPU集合发送至所述插件。

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:所述调度器根据所述每个Pod运行所需的GPU数量,统计得到整个所述目标任务对应所需的任务GPU数量,并将所述任务GPU数量设置在所述标注信息中;

所述调度器将所述多个Pod发送至目标节点,包括:

所述调度器选择所述多个节点中的其中一个节点,作为用于运行所述目标任务的目标节点,所述目标节点中可使用的GPU数量不低于所述任务GPU数量;

所述调度器将所述目标任务对应的多个Pod发送至所述目标节点。

6.根据权利要求5所述的方法,其特征在于,所述目标节点上运行有:代理控制器;所述调度器将所述目标任务对应的多个Pod发送至所述目标节点之后,所述方法还包括:所述代理控制器在获取待分配的Pod时,根据所述Pod的标注信息中包括的任务标识,判断所述目标节点上是否已存在与所述任务标识对应的GPU集合;

若判断结果是不存在,则所述代理控制器根据所述待分配的Pod标注的所述任务GPU数量,由所述目标节点上选择所述任务GPU数量对应的多个GPU确定为所述GPU集合,并标注所述GPU集合中的各GPU的状态为已占用且与所述目标任务对应;

根据所述待分配的Pod所需数量的GPU,将所述Pod调度到所述GPU集合中的GPU上。

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

若判断结果是存在,则所述代理控制器由所述GPU集合中选择所述待分配的Pod所需数量的GPU分配。

8.一种分布式计算系统,其特征在于,所述分布式计算系统包括:主机和多个节点;每个节点上包括多个GPU,待处理的目标任务对应的多个容器集Pod用于运行在所述多个节点中的目标节点的GPU上;其中,所述目标任务对应的多个Pod中包括第一Pod和第二Pod;

所述第一Pod,运行于所述目标节点的第一GPU上,用于获取任务资源信息,包括:所述第一Pod接收所述目标节点上的插件发送的所述任务资源信息;所述任务资源信息包括:所述第一Pod所属的所述目标任务对应占用的GPU集合;其中,所述GPU集合包括:所述第一GPU和第二Pod运行所在的第二GPU;并根据所述GPU集合,通过所述第一GPU与所述第二GPU之间建立P2P连接,以实现所述第一Pod与第二Pod间的通信。

9.根据权利要求8所述的系统,其特征在于,所述GPU集合位于所述目标节点上;所述目标节点上运行有:代理控制器和插件;其中,所述代理控制器用于负责所述目标节点与主机间的通信;

所述第一Pod,还用于接收所述目标节点上的插件发送的所述任务资源信息,其中,所述任务资源信息由所述代理控制器发送至所述插件。

10.根据权利要求8所述的系统,其特征在于,所述主机上包括调度器;

所述调度器,用于:在所述第一Pod获取任务资源信息之前,根据所述目标任务与多个Pod间的对应关系,为所述目标任务对应的每个Pod设置标注信息,所述标注信息包括:所述目标任务的任务标识;并将所述多个Pod发送至目标节点,以使得所述目标节点根据所述标注信息将Pod调度到GPU上。

11.根据权利要求10所述的系统,其特征在于,所述目标节点还包括:代理控制器和插件;

所述代理控制器,用于:根据所述Pod标注的目标任务的任务标识,得到属于同一所述目标任务的多个Pod对应分配的GPU集合;并将所述多个Pod中每个Pod对应分配的GPU、以及所述目标任务对应的所述GPU集合发送至所述插件。

12.根据权利要求10所述的系统,其特征在于,

所述调度器,还用于:根据所述每个Pod运行所需的GPU数量,统计得到整个所述目标任务对应所需的任务GPU数量,并将所述任务GPU数量设置在所述标注信息中;

所述调度器在用于将所述多个Pod发送至目标节点时,包括:选择所述多个节点中的其中一个节点,作为用于运行所述目标任务的目标节点,所述目标节点中可使用的GPU数量不低于所述任务GPU数量;并将所述目标任务对应的多个Pod发送至所述目标节点。

13.根据权利要求12所述的系统,其特征在于,所述目标节点还包括:代理控制器;

所述代理控制器,用于:在获取待分配的Pod时,根据所述Pod的标注信息中包括的任务标识,判断所述目标节点上是否已存在与所述任务标识对应的GPU集合;若判断结果是不存在,则根据所述待分配的Pod标注的所述任务GPU数量,由所述目标节点上选择所述任务GPU数量对应的多个GPU确定为所述GPU集合,并标注所述GPU集合中的各GPU的状态为已占用且与所述目标任务对应;以及,根据所述待分配的Pod所需数量的GPU,将所述Pod调度到所述GPU集合中的GPU上。

14.根据权利要求13所述的系统,其特征在于,

所述代理控制器,还用于:响应于判断结果是存在,由所述GPU集合中选择所述待分配的Pod所需数量的GPU分配。

15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1~7任一所述的方法。