专利一种联邦学习过程中泄露输入信息的风险评估指标方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211115765.0 (22)申请日 2022.09.14 (71)申请人广州大学地址 510006 广东省广州市大学城外环西路230号 (72)发明人王乐　李钊华　顾钊铨　陈光耀　黄坤鑫　马丽婷　张志强　田志宏　 (74)专利代理机构广州高炬知识产权代理有限公司 44376 专利代理师孙明科 (51)Int.Cl. G06F 21/62(2013.01) G06N 3/08(2006.01) (54)发明名称一种联邦学习过程中泄露输入信息的风险评估指标方法 (57)摘要本发明涉及人工智能技术领域，公开了一种联邦学习过程中泄露输入信息的风险评估指标方法，包括以下步骤： S1：参与方选取一批个数为 B的待训练样本(X,Y),并计算批样本梯度G和其中各样本的梯度G(i)； S2：选取某一样本x(i)，计算所选样本的梯度信息比InfoR(x(i))； S3：通过梯度信息比InfoR(x(i))，获取样本x(i)被批样本梯度G所泄露的风险程度，以达到输入样本特征泄露风险的评估。本发明可以满足参与方针对隐私重要性较高的样本给予更小的隐私预算，即不同样本给予不同的隐私保护强度，从而满足差异化隐私保护的目的，从而减小了隐私保护策略对模型训练和可用性的影响。权利要求书1页说明书4页附图1页 CN 115495779 A 2022.12.20 CN 115495779 A 1.一种联邦学习过程中泄露输入信息的风险评估指标方法，其特征在于，包括以下步骤： S1：参与方选取一批个数为B的待训练样本(X,Y),并计算批样本梯度G和其中各样本的梯度G(i)； S2：选取某一样本x(i)，计算所选样本的梯度信息比I nfoR(x(i))； S3：通过梯度信息比InfoR(x(i))，获取样本x(i)被批样本梯度G所泄露的风险程度，以达到输入样本特征泄露风险的评估。 2.根据权利要求1所述的联邦学习过程中泄露输入信息的风险评估指标方法，其特征在于：所述批样本梯度G与批样本中各样本的梯度存在均值关系： 3.根据权利要求2所述的联邦学习过程中泄露输入信息的风险评估指标方法，其特征在于：所述利用向量投影公式得到第i个样本梯度G(i)在批样本梯度向量G上的投影向量公式如下：其中投影向量在批样本梯度向量G上的长度为||G(i)||cosθ(i)， cosθ(i)为样本梯度与批样本梯度的夹角余弦值，方向为G/| |G||。 4.根据权利要求3所述的联邦学习过程中泄露输入信息的风险评估指标方法，其特征在于：通过比较各投影向量的长度||G(i)||cosθ(i)来对比各样本梯度在批样本梯度向量上的信息量，公式如下：其中<G(i),G>表示数量积。 5.根据权利要求1所述的联邦学习过程中泄露输入信息的风险评估指标方法，其特征在于：所述S2中的梯度信息比的计算公式如下： Info＝(InfoR(x(0)),InfoR(x(1)),…,InfoR(x(B))),|min(Info)|表示取最小投影向量长度的绝对值， ∈的引入是为了使得比值恒为正。权　利　要　求　书 1/1 页 2 CN 115495779 A 2一种联邦学习过程中泄露输入信息的风险评估指标方法技术领域 [0001]本发明涉及人工智能技术领域的联邦学习数据隐私保护领域，具体涉及一种联邦学习过程中泄露输入信息的风险评估指标方法。背景技术 [0002]随着信息处理能力和计算效率的显著提升，涌现了大量针对图像、文本、语音等数据进行处理的基于深度学习的应用。深度学习模型和应用依赖于大量高质量的数据，然而，现实中很少有单一的实体单位拥有大量数据，数据量少或是质量低都难以支撑深度学习模型的构建和应用。若将各个实体单位所拥有的相关数据收集在一起，又涉及到数据版权、隐私保护等问题。因此，以聚集形成规模数据效应、保护数据版权和隐私为初衷的联邦学习模型被设计出来并逐步得到应用。联邦学习是一个多参与方或多计算结点之间共享聚合机器学习模型梯度参数而不直接交换数据的分布式深度学习框架，以解决 “数据共享与隐私保护的矛盾 ”问题。 [0003]近期对联邦学习中隐私保护有效性问题的研究证实，通过一定的手段可以基于模型梯度来重构输入数据，意味着联邦学习中共享模型梯度的隐私保护机制依然存在数据泄露的风险，而不同的输入样本具有不同的样本特征值，在联邦学习中被泄露的风险也不同。我们发明了一个新的指标用于衡量输入样本在基于深度学习模型的联邦学习框架中被泄露的风险程度，可用于联邦学习框架构建和应用中对输入样本数据进行评估、筛选以及对框架的隐私安全性进行评估。 [0004]现有的方案中包括以下方法步骤： ①对联邦学习中某一参与方用于本地模型输入的本地数据集进行采样，得到本地采样数据集； ②利用本地采样数据集对本地模型进行训练得到本地采样数据样本的参数梯度； ③利用预先训练的统计模型计算本地采样数据样本与采样样本参数梯度的互信息值； ④当该互信息值大于等于预设阈值时,发出该参数的梯度隐私泄露风险提醒，否则将该参数梯度上传至参数聚合服务器。 [0005]在上述现有技术中，通过预先训练的统计模型计算采样样本与其梯度的互信息值，据此衡量样本的梯度隐私泄露风险。该技术要求预先训练的统计模型这一先决条件，且模型效能会影响互信息计算的准确性；另外，该技术仅对用其提出的方法计算得到的互信息值较高的样本进行风险警示，忽略了其他样本梯度隐私泄露风险，后者仍然存在梯度隐私泄露风险。 [0006]上述问题的原因在于两个方面：一是对预先训练的互信息计算统计模型的依赖，降低了技术的构建和应用效率；二是基于采样样本总体特征计算的样本与梯度互信息值体现了样本总体被泄露的风险，其与单一样本存在的梯度隐私泄露风险间不是直接相关关系。在实际梯度泄露数据攻击中，目标样本是一批样本，批样本中通常包含多个样本，数据偷窃者只能获取到目标参与方的批样本梯度，无法知晓批样本中每个样本对应的梯度，所以只能对批样本梯度进行逆向，从而重构出批样本。在重构出的批样本中的样本特征还原度不同，即目标样本特征被泄露的程度不同，主要由样本的梯度占该批样本梯度的信息比说　明　书 1/4 页 3 CN 115495779 A 3

专利 一种联邦学习过程中泄露输入信息的风险评估指标方法

专利一种联邦学习过程中泄露输入信息的风险评估指标方法