全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211316722.9 (22)申请日 2022.10.26 (71)申请人 小米汽车 科技有限公司 地址 100176 北京市北京经济技 术开发区 科创十街15号院5号楼6层618室 (72)发明人 刘国明  (74)专利代理 机构 北京法胜知识产权代理有限 公司 11922 专利代理师 白雪静 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称 基于Kubernetes集群的模型服务容量调整 方法及其装置 (57)摘要 本公开是关于一种基于Kubernetes集群的 模型服务容量调整方法及其装置。 其中 , Kubernetes集群上部署多个Pod副本, 且在每个 Pod副本中部署多个相同的服务进 程, 每个Pod副 本中多个服务进程的个数大于或等于第一数值 且小于或等于第二数值, 该方法包括: 响应于接 收到资源容量调整信号, 确定Pod副本的当前副 本数和在每个Pod副本中部署的服务进程的当前 进程数; 根据Pod副本的当前副本 数和在每个Pod 副本中部署的服务进程的当前进程数, 对模型服 务进行图形处理器GPU资源容量调整。 本公开实 施例可以提高GPU资源的利用率, 从而降低了服 务运行的成本 。 权利要求书3页 说明书11页 附图3页 CN 115373859 A 2022.11.22 CN 115373859 A 1.一种基于Kubernetes集群的模型服务容量调整方法, 其特征在于, 所述Kubernetes 集群上部署多个Pod副本, 且在每个所述Pod副本中部署多个相同的服务进程, 每个所述Pod 副本中多个服 务进程的个数 大于或等于第一数值且小于或等于第二数值, 所述方法包括: 响应于接收到资源容量调整信号, 确定所述Pod副本的当前副本数和在每个所述Pod副 本中部署的所述 服务进程的当前进程数; 根据所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前 进程数, 对所述模型服 务进行图形处 理器GPU资源容 量调整。 2.如权利要求1所述的方法, 其特征在于, 所述根据所述Pod副本的当前副本数和在每 个所述Pod副本中部署的所述服务进程的当前进程数, 对所述模型服务进 行图形处理器GPU 资源容量调整, 包括: 响应于每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围, 调整在每 个所述Pod副本中部署的所述 服务进程的当前进程数; 和/或, 响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围, 调整所述Pod 副本的当前副本数, 以完成本次对所述模型服 务进行图形处 理器GPU资源容 量的调整。 3.如权利要求2所述的方法, 其特征在于, 所述资源容量调整信号为资源缩容信号; 其 中, 所述响应于每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围, 调整 在每个所述Pod副本中部署的所述 服务进程的当前进程数, 包括: 响应于每个所述Pod副本中服务进程的当前进程数大于所述第一数值且小于或等于所 述第二数值, 缩 减在每个所述Pod副本中部署的所述 服务进程的当前进程数; 所述响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围, 调整所 述Pod副本的当前副本数, 包括: 响应于每个所述Pod副本中服务进程的当前进程数小于或等于所述第一数值, 缩减所 述Pod副本的当前副本数。 4.如权利要求2所述的方法, 其特征在于, 所述资源容量调整信号为资源扩容信号; 其 中, 所述响应于每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围, 调整 在每个所述Pod副本中部署的所述 服务进程的当前进程数, 包括: 响应于每个所述Pod副本中服务进程的当前进程数大于或等于所述第 一数值且小于所 述第二数值, 增 加在每个所述Pod副本中部署的所述 服务进程的当前进程数; 所述响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围, 调整所 述Pod副本的当前副本数, 包括: 响应于每个所述Pod副本中服务进程的当前进程数大于或等于所述第二数值, 增加所 述Pod副本的当前副本数。 5.如权利要求1所述的方法, 其特征在于, 所述根据所述Pod副本的当前副本数和在每 个所述Pod副本中部署的所述服务进程的当前进程数, 对所述模型服务进 行图形处理器GPU 资源容量调整, 包括: 根据预设的GPU资源容量调整策略、 所述Pod副本的当前副本数和在每个所述Pod副本 中部署的所述 服务进程的当前进程数, 对所述模型服 务进行图形处 理器GPU资源容 量调整。权 利 要 求 书 1/3 页 2 CN 115373859 A 26.如权利要求5所述的方法, 其特征在于, 所述根据预设的GPU资源容量调整策略、 所述 Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数, 对 所述 模型服务进行图形处 理器GPU资源容 量调整, 包括: 根据所述GPU资源容量调整策略, 从所述多个Pod副本中确定出满足资源容量调整条件 的至少一个第一Pod副本; 响应于每个所述第一Pod副本中服务进程的当前进程数未超出预设的阈值范围, 调整 在每个所述第一Pod副本中部署的所述 服务进程的当前进程数; 和/或, 响应于每个所述第一Pod副本中服务进程的当前进程数超出预设的阈值范围, 调整其 他Pod副本中服务进程的当前进程数, 和/或, 调整所述Pod副本的当前副本数, 以完成本次 对所述模型服务进行图形处理器GPU资源容量的调整; 其中, 所述其他Pod副本为所述多个 Pod副本中除所述第一Pod副本之外的Pod副本 。 7.如权利要求5或6所述的方法, 其特 征在于, 所述资源容量调整信号为资源缩容信号; 其中, 所述GPU资源容量调整策略包括: Pod副 本的启动时长小于或等于预设时长, Pod副本的GPU资源占用量大于或等于第一阈值中的至 少一种; 或者, 所述资源容量调整信号为资源扩容信号; 其中, 所述GPU资源容量调整策略包括: Pod副 本的启动时长小于或等于预设时长, Pod副本的GPU资源占用量小于或等于第二阈值中的至 少一种; 其中, 所述第一阈值大于所述第二阈值。 8.一种基于Kubernetes集群的模型服务容量调整装置, 其特征在于, 所述Kubernetes 集群上部署多个Pod副本, 且在每个所述Pod副本中部署多个相同的服务进程, 每个所述Pod 副本中多个服 务进程的个数 大于或等于第一数值且小于或等于第二数值, 所述装置包括: 确定模块, 用于在接收到资源容量调整信号时, 确定所述Pod副本的当前副本数和在每 个所述Pod副本中部署的所述 服务进程的当前进程数; 调整模块, 用于根据所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服 务进程的当前进程数, 对所述模型服 务进行图形处 理器GPU资源容 量调整。 9.如权利要求8所述的装置, 其特 征在于, 所述调整模块具体用于: 在每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围时, 调整在每个 所述Pod副本中部署的所述 服务进程的当前进程数; 和/或, 响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围, 调整所述Pod 副本的当前副本数, 以完成本次对所述模型服 务进行图形处 理器GPU资源容 量的调整。 10.如权利要求9所述的装置, 其特征在于, 所述资源容量调整信号为资源缩容信号; 其 中, 所述调整模块具体用于: 在每个所述Pod副本中服务进程的当前进程数大于所述第 一数值且小于或等于所述第 二数值时, 缩 减在每个所述Pod副本中部署的所述 服务进程的当前进程数; 和/或, 响应于每个所述Pod副本中服务进程的当前进程数小于或等于所述第一数值, 缩减所 述Pod副本的当前副本数。 11.如权利要求9所述的装置, 其特征在于, 所述资源容量调整信号为资源扩容信号; 其 中, 所述调整模块具体用于:权 利 要 求 书 2/3 页 3 CN 115373859 A 3

PDF文档 专利 基于Kubernetes集群的模型服务容量调整方法及其装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Kubernetes集群的模型服务容量调整方法及其装置 第 1 页 专利 基于Kubernetes集群的模型服务容量调整方法及其装置 第 2 页 专利 基于Kubernetes集群的模型服务容量调整方法及其装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。