(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211115765.0
(22)申请日 2022.09.14
(71)申请人 广州大学
地址 510006 广东省广州市大 学城外环西
路230号
(72)发明人 王乐 李钊华 顾钊铨 陈光耀
黄坤鑫 马丽婷 张志强 田志宏
(74)专利代理 机构 广州高炬知识产权代理有限
公司 44376
专利代理师 孙明科
(51)Int.Cl.
G06F 21/62(2013.01)
G06N 3/08(2006.01)
(54)发明名称
一种联邦学习过程中泄露输入信息的风险
评估指标 方法
(57)摘要
本发明涉及人工智能技术领域, 公开了一种
联邦学习过程中泄露输入信息的风险评估指标
方法, 包括以下步骤: S1: 参与方选 取一批个数为
B的待训练样本(X,Y),并计算批样本梯度G和其
中各样本的梯度G(i); S2: 选取某一样本x(i), 计算
所选样本的梯度信息比InfoR(x(i)); S3: 通过梯
度信息比InfoR(x(i)), 获取样本x(i)被批样本梯
度G所泄露的风险程度, 以达到输入样本特征泄
露风险的评估。 本发明可以满足参与方针对隐私
重要性较高的样本给予更小的隐私预算, 即不同
样本给予不同的隐私保护强度, 从而满足差异化
隐私保护的目的, 从而减小了隐私保护策略对模
型训练和可用性的影响。
权利要求书1页 说明书4页 附图1页
CN 115495779 A
2022.12.20
CN 115495779 A
1.一种联邦学习过程中泄露输入信息的风险评估指标方法, 其特征在于, 包括以下步
骤:
S1: 参与方选取一批个数为B的待训练样本(X,Y),并计算批样本梯度G和其 中各样本的
梯度G(i);
S2: 选取某一样本x(i), 计算所选样本的梯度信息比I nfoR(x(i));
S3: 通过梯度信息比InfoR(x(i)), 获取样本x(i)被批样本梯度G所泄露的风险程度, 以达
到输入样本特 征泄露风险的评估。
2.根据权利要求1所述的联邦学习过程中泄露输入信息的风险评估指标方法, 其特征
在于: 所述批样本梯度G与批样本中各样本的梯度存在均值关系:
3.根据权利要求2所述的联邦学习过程中泄露输入信息的风险评估指标方法, 其特征
在于: 所述利用向量投影公式得到第i个样本梯度G(i)在批样本梯度向量G上的投影向量
公式如下:
其中投影向量
在批样本梯度向量G上的长度为||G(i)||cosθ(i), cosθ(i)为样本梯度与
批样本梯度的夹角余弦值, 方向为G/| |G||。
4.根据权利要求3所述的联邦学习过程中泄露输入信息的风险评估指标方法, 其特征
在于: 通过比较各投影向量的长度||G(i)||cosθ(i)来对比各样本梯度在批样本梯度向量上
的信息量, 公式如下:
其中<G(i),G>表示数量积。
5.根据权利要求1所述的联邦学习过程中泄露输入信息的风险评估指标方法, 其特征
在于: 所述S2中的梯度信息比的计算公式如下:
Info=(InfoR(x(0)),InfoR(x(1)),…,InfoR(x(B))),|min(Info)|表示取最小投影向量
长度的绝对值, ∈的引入是为了使得比值恒为 正。权 利 要 求 书 1/1 页
2
CN 115495779 A
2一种联邦学习过 程中泄露输入信息的风险评估指标方 法
技术领域
[0001]本发明涉及人工智能技术领域的联邦学习数据隐私保护领域, 具体涉及一种联邦
学习过程中泄 露输入信息的风险评估指标 方法。
背景技术
[0002]随着信息处理能力和计算效率的显著提升, 涌现了大量针对图像、 文本、 语音等数
据进行处理的基于深度学习的应用。 深度学习模型和应用依赖于大量高质量的数据, 然而,
现实中很少有 单一的实体单位拥有大量数据, 数据量少或是质量低都难以支撑深度学习模
型的构建和应用。 若将各个实体单位所拥有的相关数据收集在一起, 又涉及到数据版权、 隐
私保护等问题。 因此, 以聚集形成规模 数据效应、 保护数据版权和隐私为初 衷的联邦学习模
型被设计出来并逐步得到应用。 联邦学习是一个多参与方或多计算结点之 间共享聚合机器
学习模型梯度参数而不直接交换数据的分布式深度学习框架, 以解决 “数据共享与隐私保
护的矛盾 ”问题。
[0003]近期对联邦学习中隐私保护有效性问题的研究证实, 通过一定的手段可以基于模
型梯度来重构 输入数据, 意味着联邦学习中共享模型梯度的 隐私保护机制依然存在数据泄
露的风险, 而不同的输入样 本具有不同的样本特征值, 在联邦学习中被泄露的风险也不同。
我们发明了一个新的指标用于衡量输入样本在基于深度学习模型的联邦学习框架中被泄
露的风险程度, 可用于联邦学习框架构建和应用中对输入样本数据进行评估、 筛选以及对
框架的隐私安全性进行评估。
[0004]现有的方案中包括以下方法步骤: ①对联邦学习中某一参与方用于本地模型输入
的本地数据集进行采样, 得到本地采样数据集; ②利用本地采样数据集对本地模型进行训
练得到本地采样数据样 本的参数梯度; ③利用预先训练的统计模型计算本地采样数据样本
与采样样本参数梯度的互信息值; ④当该互信息值大于等于预设阈值时,发出该参数 的梯
度隐私泄 露风险提醒, 否则将该参数梯度上传至参数聚合 服务器。
[0005]在上述现有技术中, 通过预先训练的统计模型计算采样样本与其梯度的互信息
值, 据此衡量样 本的梯度隐私泄露风险。 该技术要求预先训练的统计模型这一先决条件, 且
模型效能会影响互信息计算的准确 性; 另外, 该技术仅对用其提出 的方法计算得到的互信
息值较高的样本进行风险警示, 忽略了其他样本梯度隐私泄露风险, 后者仍然存在梯度隐
私泄露风险。
[0006]上述问题的原因在于两个方面: 一是对预先训练的互信息计算统计模型的依赖,
降低了技术的构建和应用效率; 二是基于采样样本总体特征计算的样本与梯度互信息值体
现了样本总体被泄露的风险, 其与单一样本存在的梯度隐私泄露风险间不是直接相关关
系。 在实际梯度 泄露数据攻击中, 目标样本是一批样本, 批样本中通常包含多个样本, 数据
偷窃者只能获取到目标参与方的批样本梯度, 无法知晓批样本中每个样本对应的梯度, 所
以只能对批样本梯度进行逆向, 从而重构出批样本。 在重构出的批样本中的样本特征还原
度不同, 即目标样本特征被泄露的程度不同, 主要由样本的梯度占该批样本梯度的信息比说 明 书 1/4 页
3
CN 115495779 A
3
专利 一种联邦学习过程中泄露输入信息的风险评估指标方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:18上传分享