专利一种基于元强化学习算法的计算卸载方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210534342.6 (22)申请日 2022.05.17 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人杨钊　王廷　蔡海滨　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师徐筱梅　张翔 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/48(2006.01) G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于元强化学习算法的计算卸载方法 (57)摘要本发明公开了一种基于元强化学习算法的计算卸载方法，其特点是该方法采用在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型，获取当前卸载系统的状态，然后通过元学习获取学习模型，最后通过训练获取任务卸载决策。本发明与现有技术相比具有降低物联网设备计算任务的时延和功耗，从而提升用户体验，有效解决了传统的深度强化学习算法对新任务采样效率低的问题，实现在动态环境中的快速计算卸载决策。权利要求书3页说明书8页附图2页 CN 114860337 A 2022.08.05 CN 114860337 A 1.一种基于元强化学习算法的计算卸载方法，其特征在于采用构建任务卸载决策和资源分配模型的方法，获取当前卸载系统的状态，将其通过元学习获取学习模型，然后通过模型训练获取任务卸载决策，计算卸载具体包括以下四个步骤： S1、在物联网设备、边缘服务器和云服务器协作式应用场景下，建立任务卸载决策和资源分配模型，该模型具体包括：移动边缘的计算卸载环境模型、计算任务模型、计算任务决策模型、计算任务时延模型、计算任务能耗模型，以及具有马尔可夫决策过程的计算任务卸载模型； S2、获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态，具体包括：物联网设备的任务状况，以及各设备的计算能力和各个设备之间的传输带宽； S3：获取学习模型，具体包括以下步骤： S301：获取物联网设备任务状态； S302：采样k个学习任务，初始化元策略参数φ0； S303：采样获得状态和行为的集合，评估获得的奖励； S304：判断奖励是否收敛，或是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取参数，否则继续执行训练； S305：更新元策略参数； S306：判断是否收敛或是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取学习模型，否则继续执行训练； S4、获取卸载决策，具体包括以下步骤： S401：采样获得状态和行为的集合，评估获得的奖励； S402：判断奖励是否收敛或是否达到迭代次数上限，当奖励收敛或已达到迭代次数上限时，即可获取卸载决策，否则继续执行训练。 2.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算卸载环境模型是在物联网设备、边缘服务器和云服务器协作式应用场景下构建的，该场景包括：一个云服务器，多个边缘服务器和多个物联网设备，所述边缘服务器用M＝{1， 2， ...， m}来表示，并由物联网设备、边缘服务器建立任务计算协作集群、物联网设备和云服务器建立任务决策集群。 3.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务模型将每个物联网设备中的计算程序分为连续的工作流，并定义第x 个工作流由下述(a)式表示为： Tx＝{ υ1， e1， 2， υ2，…， υi， ei， j， υj，…， en‑1， n， υn} (a)；其中， Tx表示物联网设备中第x个工作程序； υi表示工作程序中第i个工作流； ei， j表示工作流 υi和工作流 υj之间需要传输的数据量。 4.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务决策模型为工作程序中每个工作流分别制定不同的卸载策略，所述不同的卸载策略由下述(b)式的矩阵变量来表示： dx， i∈(d0， d1， d2， ...， dm) (b)；其中， dx， i表示物联网设备中第x个工作程序中第i个工作流的卸载决策； dk(k∈[1， m]) 表示第i个工作流卸载到边缘服务器k上执行。权　利　要　求　书 1/3 页 2 CN 114860337 A 25.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务时延模型当工作程序中第i个工作流在物联网设备本地运行或卸载到边缘服务器上执行时的计算时延、传输延迟以及总传输时延分别由下述(c)～(e)式计算：其中， f0和fk(k∈[1， m])分别表示物联网设备和边缘服务器k的计算能力； υi为第i任务；其中， Wk1， k2表示不同设备之间的传输带宽； 6.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中的计算任务能耗模型当工作程序中第i个工作流在物联网设备本地运行或卸载到边缘服务器上执行时的计算能量消耗、传输能量消耗以及总能量消耗分别由下述(f)～(h) 式计算：其中， δ0和 δ1分别表示物联网设备和边缘服务器为处理数据每个CPU计算周期需要消耗的能量；其中， en单位时间传输数据所消耗的能量； 7.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法，其特征在于所述步骤S1中具有马尔可夫决策过程的计算任务卸载模型由下述(j)式表示为： Tn＝(S， A， R， π ) (j)；式中，元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略；所述马尔可夫决策过程的求解使用神经网络来拟合策略函数和价值函数，首先对策略网络输入当前马尔可夫决策过程的状态Si，并逐步输出策略函数与价值函数的拟合结果，以确定下一步动作Ai，直到获得最后一个动作为止，所述计算任务卸载模型的训练过程包括：深度强化学习和元学习两部分，其中深度强化学习部分基于PPO算法对网络进行训练；元学习部分采用MAML(Model ‑Agnostic Meta‑权　利　要　求　书 2/3 页 3 CN 114860337 A 3

专利 一种基于元强化学习算法的计算卸载方法

专利一种基于元强化学习算法的计算卸载方法