1.一种面向RAG的嵌入服务弹性部署方法,其特征在于,包括以下步骤:获取适用于RAG场景的嵌入模型,构建包含模型加载与推理执行的嵌入服务,以处理推理请求;
对嵌入服务进行自动化资源分析,批量测试不同资源配置参数,计算性能指标,筛选出满足服务质量要求且性能指标最大时的参数组合并将其作为最优资源配置;
将最优资源配置注入嵌入服务,同时监测服务负载变化,依据双重触发条件执行动态批处理线程,对外提供向量化接口,编译生成GPU控制共享库,配置系统的共享库预加载列表,据此构建嵌入服务镜像;
统一分配端口资源,结合GPU资源碎片化优化算法与三级候选GPU调度策略智能分配GPU资源,并基于容器技术部署嵌入服务实例;
根据嵌入推理请求负载执行混合扩缩容,动态调整嵌入服务实例数量,实现横向扩缩容;
当负载突发时同步配合纵向扩缩容策略调整现有就绪实例的GPU资源分配,形成协同调度;
通过轮询调度机制分发推理请求,实时采集嵌入服务实例运行与资源消耗数据,根据混合扩缩容策略持续优化系统GPU资源利用率与嵌入服务性能,并将优化结果用于后续的GPU资源分配与扩缩容决策;
对嵌入服务进行自动化资源分析,批量测试不同资源配置参数,计算性能指标,筛选出满足服务质量要求且性能指标最大时的参数组合并将其作为最优资源配置的步骤包括:计算效率指标,用于评估资源配置的合理性,公式为:
,
式中, 为嵌入服务在单位时间内能够成功处理的推理文本总数, 为流多处理器占比;
初始化参数,包括设置推理延迟阈值、流多处理器占比参数以及批量大小参数;
执行嵌入服务的推理测试,同时记录流多处理器占比参数、批量大小参数、推理时间,以及吞吐量;
资源分析采用推理延迟阈值约束的参数搜索策略,通过调节流多处理器占与批量大小参数,并以效率指标为目标,在满足推理时间 推理延迟阈值的条件下选取效率指标最大时的配置参数作为最优资源配置。
2.根据权利要求1所述的一种面向RAG的嵌入服务弹性部署方法,其特征在于,同时监测服务负载变化,依据双重触发条件执行动态批处理线程的步骤包括:创建监控线程,该线程监控周期持续运行,在每个周期内统计推理次数并计算每秒请求数;
创建动态批处理线程,并通过两个条件判断何时开始处理:一是达到注入的批量大小参数,二是进入队列的请求等待时间超过等待阈值;
动态批处理线程通过循环检查两个条件,任一条件满足时,即从全局队列中提取当前批次请求,执行批量推理,并通过与每个请求绑定的独立结果队列返回推理结果。
3.根据权利要求2所述的一种面向RAG的嵌入服务弹性部署方法,其特征在于,统一分配端口资源,结合GPU资源碎片化优化算法与三级候选GPU调度策略智能分配GPU资源,并基于容器技术部署嵌入服务实例的步骤包括:计算GPU资源碎片化评分,公式为:
,
式中,为流多处理器碎片化权重系数,β为显存碎片化权重系数, ,且 ;
为当前已分配的SM请求量,SM表示流多处理器, 为实例请求的SM数量, 为GPU总SM数量; 为当前已分配的显存容量, 为实例请求的显存容量, 为GPU总显存容量;
构建包含预设连续范围的端口资源池,使用互斥锁保护端口分配操作,嵌入服务实例创建时自动分配端口,实例删除时自动回收端口;
采用三级候选GPU调度策略:首先查找已部署同一服务实例的共置GPU作为第一候选集;若共置GPU不存在或资源不足,则从承载其他服务的活跃 GPU 中筛选作为第二候选集;
若活跃 GPU 不存在或资源不足,则从未承载任何实例的空闲 GPU 中筛选作为第三候选集;
对于各候选集中的GPU,先检查是否满足资源需求,若满足,则进行GPU资源碎片化评分,选择候选集中满足当前实例资源需求且碎片化评分最低的GPU部署实例,并注入最优资源配置中的SMP参数至容器环境变量。
4.根据权利要求3所述的一种面向RAG的嵌入服务弹性部署方法,其特征在于,根据嵌入推理请求负载执行混合扩缩容,动态调整嵌入服务实例数量,实现横向扩缩容的步骤包括:计算扩容阈值,公式为:
,
计算缩容阈值,公式为:
,
式中, 为当前已成功部署且处于正常运行状态的嵌入服务现有实例数量,为嵌入服务单实例在单位时间内能够处理的最大推理请求数;
实时监控嵌入服务推理请求负载,进行负载阈值检查,当负载达到扩容阈值时执行横向扩容,增加嵌入服务实例;当负载达到缩容阈值时执行横向缩容,减少嵌入服务实例;当负载正常时,保持当前服务实例不变;
通过Docker容器管理机制动态创建或者销毁嵌入服务实例。
5.根据权利要求4所述的一种面向RAG的嵌入服务弹性部署方法,其特征在于,当负载达到扩容阈值时执行横向扩容的步骤包括:通过容器创建命令创建嵌入服务实例,先经GPU资源碎片化优化算法与三级候选GPU调度策略,筛选出满足当前实例资源需求且碎片化评分最低的GPU进行部署,同时调用已创建的嵌入服务镜像,注入最优资源配置中的SMP参数至容器环境变量,并从端口池获取闲置端口,待实例健康检查通过并注册至服务管理中心后,完成扩容。
6.根据权利要求5所述的一种面向RAG的嵌入服务弹性部署方法,其特征在于,当负载达到缩容阈值时执行横向缩容的步骤包括:从服务管理中心管理的嵌入服务实例中选取末尾实例,先从请求分发层摘除流量分发,待剩余请求处理完毕后通过容器删除命令销毁容器,释放端口与GPU资源,并从服务管理中心注销实例消息,实现缩容。
7.根据权利要求6所述的一种面向RAG的嵌入服务弹性部署方法,其特征在于,当负载突发时同步配合纵向扩缩容策略调整现有就绪实例的GPU资源分配的步骤包括:当突发负载请求到来时,系统在触发横向扩容并启动新实例的同时,纵向扩缩容策略会对现有就绪实例执行相关操作,在容器内通过用户态库预加载机制预先加载GPU控制共享库,共享库通过钩子技术劫持统一计算设备架构内核启动相关调用。