专利一种基于同态加密的联邦迁移学习的推荐方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210983985.9 (22)申请日 2022.08.17 (71)申请人杭州菩公英科技有限公司地址 310000 浙江省杭州市余杭区仓前街道龙潭路7号2幢D212-2室 (72)发明人吴刚　黎煜祺　薛其韵　张耿荣　 (74)专利代理机构杭州兴知捷专利代理事务所 (特殊普通合伙) 33338 专利代理师董建军 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 16/9535(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G16H 20/60(2018.01) H04L 9/00(2022.01) H04L 9/40(2022.01) (54)发明名称一种基于同态加密的联邦迁移学习的推荐方法 (57)摘要本发明公开了一种基于同态加密的联邦迁移学习的推荐方法，由中心服务器负责生成联邦学习模型的初始训练梯度，随即立刻在服务器进行加密，加密后的梯度经由深度强化学习算法寻找到送达用户app侧最优路径且送达， app侧用户的隐私数据在接收到服务器送来的初始梯度后进行训练学习，当训练迭代到一定的轮数的时候再加密回传到中心服务器，由中心服务器生成全局模型。权利要求书4页说明书9页附图1页 CN 115357931 A 2022.11.18 CN 115357931 A 1.一种基于同态加密的联邦迁移学习的膳食计划的推荐方法：其特征在于，包括以下步骤：步骤一：联邦迁移学习(简称FTL模型)的数据梯度生成，加密后分发到用户app侧供训练： 101:联邦迁移学习的中心服务器负责生成某个时间点下的某个用户推荐模型(简称为 RECOM模型)的模型训练的初始平均梯度(简称为： iag)；定义这个模型初始的时间点为： S；所述中心服务器带有存内计算芯片(ReRAM)； ReRAM是一种新型的非易失型存储器； 201：在某个时间点S，当中心服务器负责把联邦迁移学习的初始平均梯度经过加密分发到各用户的app侧的时候，我们在ReRAM中的指令寄存器(IR)中为这个初始平均梯度 (iag)生成一个称为多级高速缓存信令标识符(简称： ReRAM MLCSI)的信号在指令寄存器 (IR)与芯片组的L1/L2 /L3级缓存内， Re RAM MLCSI的组件由L1 MLCSI、 L2 MLCSI、 L3 MLCSI、 MLCSI External构成。 202：随着联邦迁移学习模型训练的迭代轮数增加：这些ReRAM MLCSI会越来越多，我们将这一系列的ReRAM MLCSI构建成为一张动态的最短路径优先协议表(简称： OSPF Table) 的集合，这张动态的OSPF Table起到了连接ReRAM MLCSI与L1/L2/L3级缓存与外界各网络侧app端的最短路径：当OSPF Table中的某条链路的连接时间戳超过经由强化学习后得到的时间阈值的时候， OSPF Table会认为网络不可达的时候：则会舍弃这点链路，从而再向ReRAM MLCSI发起重连的握手协议；步骤二： FTL模型的用户侧ap p数据梯度(特征梯度)的预处理： 301：设随着初始时刻S的流逝，因为初始状态下，各用户app侧数据(即用户的模型特征维度)各不相同，所以只有用联邦迁移学习(FTL模型)来解决这类数据维度分布不一致的模型，根据我们开发环境中的大数据组件 Flink下的时间滑动窗口机制，我们可以计算出某个时间点下用户产生某条数据的时间平均值：如：计算用户产生数据的两个时间点的时间均值： S+1＝(S+1)+(S+2)/2； 302:因为各用户app侧特征维度均不一样，联邦迁移学习正好可以处理这种异构数据，所以此处我们的做法如下：首先需要先对某一区域范围内的数据梯度求其分布，假设某区域父级节点为： Father_ Node_HZ，我们对其范围内用户的数据梯度分布求取其分布，使其大致趋向于一种独立同分布(IID 《全称： i ndependent and identical ly distributed》 )的数据分布；在我们的算法中，我们设Father_Node_HZ下有下一层级的子区域的数据梯度分布，例可设置子区域为:某个子节点：《1》在这些子节点层面上：各子节点会分别对其网络区域范围内的用户侧数据梯度进行聚合，求平均等操作；《2》最后各子节点的数据梯度再在某各条件上传到父节点Father_Node_HZ处，最后这个总的数据梯度<特征梯度>会根据下面的步骤401选择最优的回传路径，回传到FTL模型的中心服务器上。步骤三：采用深度强化学习的方法寻找到从用户侧数据梯度传回联邦迁移学服务器的最优路径：权　利　要　求　书 1/4 页 2 CN 115357931 A 2401：经过步骤301&302处理后得到的第一轮的用户侧的初始特征梯度信息后，需要即时回传到联邦迁移学习(FTL模型)的中心服务器；步骤四：联邦迁移学习根据用户的梯度信息进行推荐： 501：《1》用户经由401把 app隐私数据上传到我们的联邦迁移学习服务器，用户侧app负责训练本地数据得到本地模型，中心服务器负责加权聚合本地模型，得到全局模型，经过多轮迭代后最终得到一个趋近于集中式机器学习结果的模型，有效地降低了传统机器学习源数据聚合带来的许多隐私风险；《2》联邦迁移学习中心服务器对不同模型的计算参与方(各app用户)加密后的梯度信息进行求异运算：分别计算和推导出各计算参与方的不同的部分的数据的梯度；《3》推荐系统根据用户的历史行为，结合经由推荐人员打标的数据进行推荐；《4》对得到的用户的推荐信息、隐私数据进行脱敏加密存储到我们的分布式服务器上。 2.根据权利要求1所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法，其特征在于，所述201中，初始平均梯度经过RSA256,MD5或SHA1加密。 3.根据权利要求1所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法，其特征在于，所述302 中总的数据梯度回传到FTL模型的中心服务器上，可以预设条件： <a>某个预定的时间点； <b>某个预定好的梯度阈值上； < c>某个预定好的迭代的轮数。 4.根据权利要求1所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法，其特征在于，基于401，我们需要在传输时延和模型精度之间做取舍，并在联邦迁移学习的模型参数传输方面也作了如下的创新：利用深度强化学习对复杂网络《城域网的网络连通性比传统的局域网的差》的连通性(或称到达率)进行建模，通过深度强化学习的方式自主学习来找寻到一条由各用户ap p侧传输回联邦迁移学习中心服务器的连接通路。 5.根据权利要求4所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法，其特征在于，具体的创新做法如下：《1》同样地设在某一时间点S下,设有N个用户同时在使用我们的app进行操作各种行为，这N个用户就构成了当前时间点下的多智能体(multi agent)，我们设这些智能体初始状态为S⊙,这些智能体在S ⊙状态下的初始环境为Enviro nment⊙(简称E⊙)：这些E⊙包括： N个用户在S时刻中其特征梯度，各个用户侧的状态分别用一个经加密的状态代码来代表，这一系列的参数就构成了用户侧初始训练数据集,这些在用户层面的E ⊙ 称为用户初始环境： E⊙user；同时， E⊙也包括了这N个用户的外界条件&属性，包括了当前的网络通路情况，在此，我们也对各网络通路情况下的指标进行加密，这一系列的加密后的状态码构成了某个S时刻下这些多智能体的初始环境E ⊙的外界条件部分： E ⊙external，同设S时刻下动作action (简称： A)为无，奖赏reward(简称： R)为0,折扣率为γ，学习率为α：下面为用户侧网络初始状态下的公式(强化学习环境下定义的)： S⊙＝(agent,E⊙(user+external),A＝ None,R＝0,γ＝0)；《2》当时间迈向下个点： S+1的时候，这N个用户的操作行为会促发一系列的动作以及随之而来的对应的奖赏值及折扣率，学习率等问题：在S+1时刻下， N个用户执行某动作action(简称： A)得到的期望回报是： Qπ(S,A)＝Eπ [Rt|St＝S ⊙,At＝A]；权　利　要　求　书 2/4 页 3 CN 115357931 A 3

专利 一种基于同态加密的联邦迁移学习的推荐方法

专利一种基于同态加密的联邦迁移学习的推荐方法