专利基于Kubernetes集群的模型服务容量调整方法及其装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211316722.9 (22)申请日 2022.10.26 (71)申请人小米汽车科技有限公司地址 100176 北京市北京经济技术开发区科创十街15号院5号楼6层618室 (72)发明人刘国明　 (74)专利代理机构北京法胜知识产权代理有限公司 11922 专利代理师白雪静 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称基于Kubernetes集群的模型服务容量调整方法及其装置 (57)摘要本公开是关于一种基于Kubernetes集群的模型服务容量调整方法及其装置。其中， Kubernetes集群上部署多个Pod副本，且在每个 Pod副本中部署多个相同的服务进程，每个Pod副本中多个服务进程的个数大于或等于第一数值且小于或等于第二数值，该方法包括：响应于接收到资源容量调整信号，确定Pod副本的当前副本数和在每个Pod副本中部署的服务进程的当前进程数；根据Pod副本的当前副本数和在每个Pod 副本中部署的服务进程的当前进程数，对模型服务进行图形处理器GPU资源容量调整。本公开实施例可以提高GPU资源的利用率，从而降低了服务运行的成本。权利要求书3页说明书11页附图3页 CN 115373859 A 2022.11.22 CN 115373859 A 1.一种基于Kubernetes集群的模型服务容量调整方法，其特征在于，所述Kubernetes 集群上部署多个Pod副本，且在每个所述Pod副本中部署多个相同的服务进程，每个所述Pod 副本中多个服务进程的个数大于或等于第一数值且小于或等于第二数值，所述方法包括：响应于接收到资源容量调整信号，确定所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数；根据所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数，对所述模型服务进行图形处理器GPU资源容量调整。 2.如权利要求1所述的方法，其特征在于，所述根据所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数，对所述模型服务进行图形处理器GPU 资源容量调整，包括：响应于每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围，调整在每个所述Pod副本中部署的所述服务进程的当前进程数；和/或，响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围，调整所述Pod 副本的当前副本数，以完成本次对所述模型服务进行图形处理器GPU资源容量的调整。 3.如权利要求2所述的方法，其特征在于，所述资源容量调整信号为资源缩容信号；其中，所述响应于每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围，调整在每个所述Pod副本中部署的所述服务进程的当前进程数，包括：响应于每个所述Pod副本中服务进程的当前进程数大于所述第一数值且小于或等于所述第二数值，缩减在每个所述Pod副本中部署的所述服务进程的当前进程数；所述响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围，调整所述Pod副本的当前副本数，包括：响应于每个所述Pod副本中服务进程的当前进程数小于或等于所述第一数值，缩减所述Pod副本的当前副本数。 4.如权利要求2所述的方法，其特征在于，所述资源容量调整信号为资源扩容信号；其中，所述响应于每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围，调整在每个所述Pod副本中部署的所述服务进程的当前进程数，包括：响应于每个所述Pod副本中服务进程的当前进程数大于或等于所述第一数值且小于所述第二数值，增加在每个所述Pod副本中部署的所述服务进程的当前进程数；所述响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围，调整所述Pod副本的当前副本数，包括：响应于每个所述Pod副本中服务进程的当前进程数大于或等于所述第二数值，增加所述Pod副本的当前副本数。 5.如权利要求1所述的方法，其特征在于，所述根据所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数，对所述模型服务进行图形处理器GPU 资源容量调整，包括：根据预设的GPU资源容量调整策略、所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数，对所述模型服务进行图形处理器GPU资源容量调整。权　利　要　求　书 1/3 页 2 CN 115373859 A 26.如权利要求5所述的方法，其特征在于，所述根据预设的GPU资源容量调整策略、所述 Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数，对所述模型服务进行图形处理器GPU资源容量调整，包括：根据所述GPU资源容量调整策略，从所述多个Pod副本中确定出满足资源容量调整条件的至少一个第一Pod副本；响应于每个所述第一Pod副本中服务进程的当前进程数未超出预设的阈值范围，调整在每个所述第一Pod副本中部署的所述服务进程的当前进程数；和/或，响应于每个所述第一Pod副本中服务进程的当前进程数超出预设的阈值范围，调整其他Pod副本中服务进程的当前进程数，和/或，调整所述Pod副本的当前副本数，以完成本次对所述模型服务进行图形处理器GPU资源容量的调整；其中，所述其他Pod副本为所述多个 Pod副本中除所述第一Pod副本之外的Pod副本。 7.如权利要求5或6所述的方法，其特征在于，所述资源容量调整信号为资源缩容信号；其中，所述GPU资源容量调整策略包括： Pod副本的启动时长小于或等于预设时长， Pod副本的GPU资源占用量大于或等于第一阈值中的至少一种；或者，所述资源容量调整信号为资源扩容信号；其中，所述GPU资源容量调整策略包括： Pod副本的启动时长小于或等于预设时长， Pod副本的GPU资源占用量小于或等于第二阈值中的至少一种；其中，所述第一阈值大于所述第二阈值。 8.一种基于Kubernetes集群的模型服务容量调整装置，其特征在于，所述Kubernetes 集群上部署多个Pod副本，且在每个所述Pod副本中部署多个相同的服务进程，每个所述Pod 副本中多个服务进程的个数大于或等于第一数值且小于或等于第二数值，所述装置包括：确定模块，用于在接收到资源容量调整信号时，确定所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数；调整模块，用于根据所述Pod副本的当前副本数和在每个所述Pod副本中部署的所述服务进程的当前进程数，对所述模型服务进行图形处理器GPU资源容量调整。 9.如权利要求8所述的装置，其特征在于，所述调整模块具体用于：在每个所述Pod副本中服务进程的当前进程数未超出预设的阈值范围时，调整在每个所述Pod副本中部署的所述服务进程的当前进程数；和/或，响应于每个所述Pod副本中服务进程的当前进程数超出预设的阈值范围，调整所述Pod 副本的当前副本数，以完成本次对所述模型服务进行图形处理器GPU资源容量的调整。 10.如权利要求9所述的装置，其特征在于，所述资源容量调整信号为资源缩容信号；其中，所述调整模块具体用于：在每个所述Pod副本中服务进程的当前进程数大于所述第一数值且小于或等于所述第二数值时，缩减在每个所述Pod副本中部署的所述服务进程的当前进程数；和/或，响应于每个所述Pod副本中服务进程的当前进程数小于或等于所述第一数值，缩减所述Pod副本的当前副本数。 11.如权利要求9所述的装置，其特征在于，所述资源容量调整信号为资源扩容信号；其中，所述调整模块具体用于：权　利　要　求　书 2/3 页 3 CN 115373859 A 3

专利 基于Kubernetes集群的模型服务容量调整方法及其装置

专利基于Kubernetes集群的模型服务容量调整方法及其装置