全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210534342.6 (22)申请日 2022.05.17 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 杨钊 王廷 蔡海滨  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/48(2006.01) G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于元强化学习算法的计算卸载 方法 (57)摘要 本发明公开了一种基于元强化学习算法的 计算卸载方法, 其特点是该方法采用在物联网设 备、 边缘服务器和云服务器协作式应用场景下建 立任务卸载决策和资源分配模型, 获取当前卸载 系统的状态, 然后通过元学习获取学习模型, 最 后通过训练获取任务卸载决策。 本发 明与现有技 术相比具有降低物联网设备计算任务的时延和 功耗, 从而提升用户体验, 有效解决了传统的深 度强化学习算法对新任务采样效率低的问题, 实 现在动态 环境中的快速 计算卸载决策。 权利要求书3页 说明书8页 附图2页 CN 114860337 A 2022.08.05 CN 114860337 A 1.一种基于元强化学习算法的计算卸载方法, 其特征在于采用构建任务卸载 决策和资 源分配模 型的方法, 获取当前卸载系统的状态, 将其通过元学习获取学习模型, 然后通过模 型训练获取任务卸载决策, 计算卸载 具体包括以下四个步骤: S1、 在物联网设备、 边缘服务器和云服务器协作式应用场景下, 建立任务卸载决策和资 源分配模型, 该模型具体包括: 移动边缘的计算卸 载环境模型、 计算任务模型、 计算任务决 策模型、 计算任务时延模型、 计算任务能耗模型, 以及具有马尔可夫决策过程的计算任务卸 载模型; S2、 获取当前卸载系 统中物联网设备、 边缘服务器和云服务器的状态, 具体包括: 物联 网设备的任务状况, 以及各设备的计算能力和各个设备之间的传输带宽; S3: 获取学习模型, 具体包括以下步骤: S301: 获取物联网设备任务状态; S302: 采样k个学习任务, 初始化元 策略参数φ0; S303: 采样获得状态和行为的集 合, 评估获得的奖励; S304: 判断奖励是否收敛, 或是否达到迭代次数上限, 当奖励收敛或已达到迭代次数上 限时, 即可获取参数, 否则继续执 行训练; S305: 更新元 策略参数; S306: 判断是否收敛或是否达到迭代次数上限, 当奖励收敛或已达到迭代次数上限时, 即可获取 学习模型, 否则继续执 行训练; S4、 获取卸载决策, 具体包括以下步骤: S401: 采样获得状态和行为的集 合, 评估获得的奖励; S402: 判断奖励是否收敛或是否达到迭代次数上 限, 当奖励收敛或已达到迭代次数上 限时, 即可获取卸载决策, 否则继续执 行训练。 2.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法, 其特征在于所述 步骤S1中的计算卸载环境模型是在物联网设备、 边缘服务器和云服务器协作式应用场景下 构建的, 该场景包括: 一个云服务器, 多个边缘服务器和多个物联网设备, 所述边缘服务器 用M={1, 2, ..., m}来表 示, 并由物联网设备、 边缘服务器 建立任务计算协作集群、 物联网设 备和云服 务器建立任务决策集群。 3.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法, 其特征在于所述 步骤S1中的计算任务模型将每个物联网设备中的计算程序分为连续的工作流, 并定义第x 个工作流由下述(a)式表示 为: Tx={ υ1, e1, 2, υ2,…, υi, ei, j, υj,…, en‑1, n, υn}    (a); 其中, Tx表示物联网设备中第x个工作程序; υi表示工作程序中第i个工作流; ei, j表示工 作流 υi和工作流 υj之间需要传输的数据量。 4.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法, 其特征在于所述 步骤S1中的计算任务决策模型为工作程序中每个工作流分别制定不同的卸载策略, 所述不 同的卸载 策略由下述(b)式的矩阵变量 来表示: dx, i∈(d0, d1, d2, ..., dm)    (b); 其中, dx, i表示物联网设备中第x个工作程序中第i个工作流的卸载决策; dk(k∈[1, m]) 表示第i个工作流卸载到边 缘服务器k上执行。权 利 要 求 书 1/3 页 2 CN 114860337 A 25.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法, 其特征在于所述 步骤S1中的计算任务时延模型当工作程序中第i个工作流在物联网设备本地运行或卸载到 边缘服务器上执行时的计算时延、 传输延迟以及总传输时延分别由下述(c)~(e)式计算: 其中, f0和fk(k∈[1, m])分别表示物联网设备和边缘服务器k的计算能力; υi为第i任 务; 其中, Wk1, k2表示不同设备之间的传输带宽; 6.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法, 其特征在于所述 步骤S1中的计算任务能耗模型当工作程序中第i个工作流在物联网设备本地运行或卸载到 边缘服务器上执行时的计算能量消耗、 传输能量消耗以及总能量消耗分别由下述(f)~(h) 式计算: 其中, δ0和 δ1分别表示物联网设备和边缘服务器为处理数据每个CPU计算周期需要消耗 的能量; 其中, en单位时间传输数据所消耗的能量; 7.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法, 其特征在于所述 步骤S1中具有马尔可 夫决策过程的计算任务卸载模型由下述(j)式表示 为: Tn=(S, A, R, π )     (j); 式中, 元素从左到右依次表示问题的状态 空间、 动作空间状态转移矩阵、 奖励函数和策 略; 所述马尔可夫 决策过程的求解使用神经网络来拟合策略函数和价值函数, 首先对策略 网络输入当前马尔可夫决策过程的状态Si, 并逐步输出策略函数与价值函数的拟合结果, 以确定下一 步动作Ai, 直到获得最后一个动作为止, 所述计算任务卸载模型的训练过程包括: 深度强化学习和元学习两部分, 其中深度强 化学习部分基于PPO算法对网络进行训练; 元学习部分采用MAML(Model ‑Agnostic  Meta‑权 利 要 求 书 2/3 页 3 CN 114860337 A 3

.PDF文档 专利 一种基于元强化学习算法的计算卸载方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于元强化学习算法的计算卸载方法 第 1 页 专利 一种基于元强化学习算法的计算卸载方法 第 2 页 专利 一种基于元强化学习算法的计算卸载方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:59:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。