专利基于嵌套联邦学习的多智能体自组织需求响应方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211388054.0 (22)申请日 2022.11.08 (71)申请人山东大学地址 250061 山东省济南市历下区经十路 17923号申请人上海交通大学 (72)发明人吕天光　李竞　程浩源　艾芊　杨明　王飞　韩学山　邹贵彬　王成福　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师赵妍 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01)G06F 21/62(2013.01) G06N 20/00(2019.01) (54)发明名称基于嵌套联邦学习的多智能体自组织需求响应方法及系统 (57)摘要本发明属于电力系统需求响应技术领域，提供了基于嵌套联邦学习的多智能体自组织需求响应方法及系统，包括：建立了时变影响模型来描述各智能体用户参与需求响应的能力；构建了基于时变影响模型的自组织激励机制；以分布式网络管理器中的参数服务器为基础，建立了一个嵌套联邦学习优化计算框架，该框架可以在保证用户隐私的前提下，计算出自组织体中各智能体效用的最优收敛值，并进一步从分布式网络管理器中获取该信息；最后，参数服务器集成模型并将其返回给智能体，以实现高效和经济的需求响应管理。权利要求书2页说明书11页附图1页 CN 115439026 A 2022.12.06 CN 115439026 A 1.基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，包括：步骤1、初始化迭代次数、隐私预算和需求响应能力，并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值；步骤2、基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值并上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值；步骤3、在收到加入自组织体的反馈后生成训练样本，并以隐私预算和需求响应能力作为训练参数，执行内层联邦学习过程，并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力，计算用户端的最优效用并上传至参数服务器端，以获取参数服务器返回的平均梯度；步骤4、基于平均梯度，以隐私预算和需求响应能力作为训练参数，执行外层联邦学习过程，得到分布式网络管理器的最优效用；步骤5、基于最优效用，计算更新隐私预算和需求响应能力并上传至分布式网络管理器，以获取分布式网络管理器返回的总隐私补偿成本；步骤6、判断结果是否收敛，如果结果不收敛，则返回步骤3；如果结果收敛，则在自组织体中确定参与需求响应的最终自组织体成员，并更新参与能力标准值和隐私预算标准值，令迭代次数增加，并返回步骤2。 2.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，所述参数服务器端根据影响值判断各个用户端是否加入自组织体，用户端的影响值越高，加入自组织体的可能性越高。 3.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，用户端 i的效用Ui,t为：其中， t表示迭代次数； cp(vi,βi,t)表示用户端 i的隐私成本； PDR,i,t表示用户端 i的需求响应能力； PDR,t表示参与联邦学习过程的一组用户端的需求响应能力；表示分布式网络管理器支付给用户端的需求响应补偿成本；cDR(PDR,i,t)表示用户端 i的需求响应引起的停电经济损失； Rt为第t次迭代的总隐私补偿成本； ξ2,t反映时间特征； βi,t为用户端 i的隐私预算；vi表示用户端 i的隐私值参数。 4.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，分布式网络管理器的效用取决于两个部分：联邦学习训练模型的性能和分布式网络管理器的成本。 5.如权利要求4所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在权　利　要　求　书 1/2 页 2 CN 115439026 A 2于，所述分布式网络管理器的成本取决于需求响应过程中的响应成本和联邦学习过程中的总隐私补偿成本。 6.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，判断结果是否收敛的方法为：如果用户端和分布式网络管理器的最大效用均唯一，则收敛。 7.如权利要求1所述的基于嵌套联邦学习的多智能体自组织需求响应方法，其特征在于，所述隐私预算与隐私预算标准值成正比。 8.基于嵌套联邦学习的多智能体自组织需求响应系统，其特征在于，包括：初始化模块，其被配置为：初始化迭代次数、隐私预算和需求响应能力，并获取贡献能力标准值、参与能力标准值、主动性标准值和隐私预算标准值；影响值计算模块，其被配置为：基于贡献能力标准值、参与能力标准值、主动性标准值，计算得到影响值并上传至参数服务器端，以获取是否加入自组织体的反馈和更新的主动性标准值；内层联邦学习模块，其被配置为：在收到加入自组织体的反馈后生成训练样本，并以隐私预算和需求响应能力作为训练参数，执行内层联邦学习过程，并结合总隐私补偿成本和参与联邦学习过程的一组用户端的需求响应能力，计算用户端的最优效用并上传至参数服务器端，以获取参数服务器返回的平均梯度；外层联邦学习模块，其被配置为：基于平均梯度，以隐私预算和需求响应能力作为训练参数，执行外层联邦学习过程，得到分布式网络管理器的最优效用；总隐私补偿成本更新模块，其被配置为：基于最优效用，计算更新隐私预算和需求响应能力并上传至分布式网络管理器，以获取分布式网络管理器返回的总隐私补偿成本；自组织体确定模块，其被配置为：判断结果是否收敛，如果结果不收敛，则返回内层联邦学习模块；如果结果收敛，则在自组织体中确定参与需求响应的最终自组织体成员，并更新参与能力标准值和隐私预算标准值，令迭代次数增加，并返回外层联邦学习模块。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑7中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。 10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求 1‑7中任一项所述的基于嵌套联邦学习的多智能体自组织需求响应方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115439026 A 3

专利 基于嵌套联邦学习的多智能体自组织需求响应方法及系统

专利基于嵌套联邦学习的多智能体自组织需求响应方法及系统