(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210983985.9
(22)申请日 2022.08.17
(71)申请人 杭州菩公英科技有限公司
地址 310000 浙江省杭州市余杭区仓前街
道龙潭路7号2幢D212-2室
(72)发明人 吴刚 黎煜祺 薛其韵 张耿荣
(74)专利代理 机构 杭州兴知捷专利代理事务所
(特殊普通 合伙) 33338
专利代理师 董建军
(51)Int.Cl.
G06F 21/62(2013.01)
G06F 21/60(2013.01)
G06F 16/9535(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G16H 20/60(2018.01)
H04L 9/00(2022.01)
H04L 9/40(2022.01)
(54)发明名称
一种基于同态加密的联邦迁移学习的推荐
方法
(57)摘要
本发明公开了一种基于同态加密的联邦迁
移学习的推荐方法, 由中心服务器负责生成联邦
学习模型的初始训练梯度, 随即立刻在服务器进
行加密, 加密后的梯度经由深度强化学习算法寻
找到送达用户app侧最优路径且送 达, app侧用户
的隐私数据在接收到服务器送来的初始梯度后
进行训练学习, 当训练迭代到一定的轮数的时候
再加密回传到中心服务器, 由中心服务器生成全
局模型。
权利要求书4页 说明书9页 附图1页
CN 115357931 A
2022.11.18
CN 115357931 A
1.一种基于同态加密的联邦迁移学习的膳食计划的推荐方法: 其特征在于, 包括以下
步骤:
步骤一: 联邦迁移学习(简称FTL模型)的数据梯度生成, 加密后分发到用户app侧供训
练:
101:联邦迁移学习的中心服务器负责生成某个时间点下的某个用户推荐模型(简称为
RECOM模型)的模型训练的初始平均梯度(简称为: iag); 定义这个模型初始的时间点为: S;
所述中心服 务器带有存内计算芯片(ReRAM); ReRAM是一种新型的非易失型存 储器;
201: 在某个时间点S, 当中心服务器负责把联邦迁移学习的初始平均梯度经过加密分
发到各用户的app侧的时候, 我们在ReRAM中的指令寄存器(IR)中为这个初始平均梯度
(iag)生成一个称为多级高速缓存信令标识符(简称: ReRAM MLCSI)的信号在指令寄存器
(IR)与芯片组的L1/L2 /L3级缓存内, Re RAM MLCSI的组件由L1 MLCSI、 L2 MLCSI、 L3 MLCSI、
MLCSI External构成。
202: 随着联邦迁移学习模型训练的迭代轮数增加: 这些ReRAM MLCSI会越来越多, 我们
将这一系列的ReRAM MLCSI构建成为一张动态的最短路径优先协议表(简称: OSPF Table)
的集合, 这张动态的OSPF Table起到了连接ReRAM MLCSI与L1/L2/L3级缓存与外界各网络
侧app端的最短路径:
当OSPF Table中的某条链路的连接时间戳超过经由强化学习后得到的时间阈值的时
候, OSPF Table会认为网络不可达的时候: 则会舍弃这点链路, 从而再 向ReRAM MLCSI发起
重连的握 手协议;
步骤二: FTL模型的用户侧ap p数据梯度(特 征梯度)的预处 理:
301: 设随着初始时刻S的流逝, 因为初始状态下, 各用户app侧数据(即用户的模型特征
维度)各不相同, 所以只有用联邦迁移学习(FTL模型)来解决这类数据维度分布 不一致的模
型, 根据我们开 发环境中的大数据组件 Flink下的时间滑动窗口机制, 我们可以计算出某个
时间点下用户产生某条数据的时间平均值: 如: 计算用户产生数据的两个时间点的时间均
值: S+1=(S+1)+(S+2)/2;
302:因为各用户app侧特征维度均 不一样, 联邦迁移学习正好可以处理这种异构数据,
所以此处我们的做法如下:
首先需要先对某一区域范围内的数据梯度求其分布, 假设某区域父级节点为: Father_
Node_HZ, 我们对其范围内用户的数据梯度分布 求取其分布, 使其大致趋向于一种独立同分
布(IID 《全称: i ndependent and identical ly distributed》 )的数据分布;
在我们的算法中, 我们设Father_Node_HZ下有下一层级的子区域的数据梯度分布, 例
可设置子区域为:某个子节点:
《1》 在这些子节点层面上: 各子节点会分别对其网络区域范围内的用户侧数据梯度进
行聚合, 求平均等操作;
《2》 最后各子节点的数据梯度再在某各条件上传到父节点Father_Node_HZ处, 最后这
个总的数据梯度<特征梯度>会根据下面的步骤401选择最优的回传路径, 回传到FTL模 型的
中心服务器上。
步骤三: 采用深度强化学习的方法寻找到从用户侧数据梯度传回联邦迁移学服务器的
最优路径:权 利 要 求 书 1/4 页
2
CN 115357931 A
2401: 经过步骤301&302处理后得到的第一轮的用户侧的初始特征梯度信息后, 需要即
时回传到联邦 迁移学习(FTL模型)的中心服 务器;
步骤四: 联邦 迁移学习根据用户的梯度信息进行推荐:
501: 《1》 用户经由401把 app隐私数据上传到我们的联邦迁移学习服务器, 用户侧app负
责训练本地数据得到本地模型, 中心 服务器负责加权聚合本地模型, 得到全局模 型, 经过多
轮迭代后最 终得到一个趋近于集中式机器学习结果的模型, 有效地降低了传统机器学习源
数据聚合带来的许多隐私风险;
《2》 联邦迁移学习中心服务器对不同模型的计算参与方(各app用户)加密后的梯度信
息进行求异运 算: 分别计算和推导出 各计算参与方的不同的部分的数据的梯度;
《3》 推荐系统根据用户的历史行为, 结合经由推荐人员打标的数据进行推荐;
《4》 对得到的用户的推荐信息、 隐私数据进行脱敏加密存 储到我们的分布式服 务器上。
2.根据权利要求1所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法, 其
特征在于, 所述201中, 初始 平均梯度经 过RSA256,MD5或SHA1加密。
3.根据权利要求1所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法, 其
特征在于, 所述302 中总的数据梯度回传到FTL模型的中心服务器上, 可以预设条件: <a>某
个预定的时间点; <b>某个预定好的梯度阈值上; < c>某个预定好的迭代的轮数。
4.根据权利要求1所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法, 其
特征在于, 基于401, 我们需要在传输时延和模型精度之间做取舍, 并在联邦迁移学习的模
型参数传输方面也作了如下 的创新: 利用深度强化学习对复杂网络 《城域网的网络连通性
比传统的局域网的差》 的连通性(或称到达率)进行建模, 通过深度强化学习的方式自主学
习来找寻到一条由各用户ap p侧传输回联邦 迁移学习中心服 务器的连接通路。
5.根据权利要求4所述一种基于同态加密的联邦迁移学习的膳食计划的推荐方法, 其
特征在于, 具体的创新做法如下:
《1》 同样地设在某一时间点S下,设有N个用户同时在使用我们的app进行操作各种行
为, 这N个用户就构成了当前时间点下的多智能体(multi agent), 我们设这些智能体初始
状态为S⊙,这些智能体在S ⊙状态下的初始 环境为Enviro nment⊙(简称E⊙):
这些E⊙包括: N个用户在S时刻中其特征梯度, 各个用户侧的状态分别用一个经加密的
状态代码来代表, 这一系列的参数就构成了用户侧初始训练数据集,这些在用户层面的E ⊙
称为用户初始 环境: E⊙user;
同时, E⊙也包括了这N个用户的外界条件&属性, 包括了当前的网络通路情况, 在此, 我
们也对各网络通路情况下 的指标进行加密, 这一系列的加密后的状态码构成了某个S时刻
下这些多智能体的初始环境E ⊙的外界条件部分: E ⊙external, 同设S时刻下动作action
(简称: A)为无, 奖赏reward(简称: R)为0,折扣率 为γ, 学习率 为α:
下面为用户侧网络初始状态下的公式(强化学习环境下定义的):
S⊙=(agent,E⊙(user+external),A= None,R=0,γ=0);
《2》 当时间迈向下个点: S+1的时候, 这N个用户的操作行为会促发一系列的动作以及随
之而来的对应的奖赏 值及折扣率, 学习率 等问题:
在S+1时刻下, N个用户执行某动作action(简称: A)得到的期望回报是: Qπ(S,A)=Eπ
[Rt|St=S ⊙,At=A];权 利 要 求 书 2/4 页
3
CN 115357931 A
3
专利 一种基于同态加密的联邦迁移学习的推荐方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:27:09上传分享