专利一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210362302.8 (22)申请日 2022.04.07 (71)申请人国网江苏省电力有限公司营销服务中心地址 210019 江苏省南京市建邺区奥体大街9号申请人国网江苏省电力有限公司 (72)发明人邹云峰　单超　祝宇楠　刘云鹏　蔡明明　 (74)专利代理机构北京智绘未来专利代理事务所(普通合伙) 11689 专利代理师郑直 (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统 (57)摘要本发明公开了一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统，所述方法包括：选择中心节点Un+1和参与者节点Ui，设置隐私预算ε及隐私预算分配方案；设定参数； Ui和Un+1 生成有序项集支持度集合； Ui采集项集并对支持度添加噪声及后置处理； Un+1构建全局次频繁项集； Ui基于全局次频繁项集进行项集筛选和支持度加噪； Un+1构建全局频繁项集并进行支持度分布拟合更新，继而筛选得出频繁项集挖掘结果，向各个节点Ui发布挖掘结果。本发明针对分布式隐私保护频繁项集挖掘场景，实现了无可信第三方参与的分布式频繁项集挖掘，可以有效阻止恶意挖掘方利用所掌握部分背景知识发起的攻击，提高用户数据隐私的安全性。权利要求书6页说明书13页附图3页 CN 114969804 A 2022.08.30 CN 114969804 A 1.一种基于差分隐私的分布式隐私保护频繁项集挖掘方法，其特征在于：所述方法包括以下步骤：步骤1：针对互不信任的n+1个参与方合作进行频繁项集挖掘场景，选择拥有最大数据规模的参与者作为中心节点Un+1，其余作为参与者节点Ui(1≤i≤n)与中心节点交互，同时设置隐私预算 ε及隐私预算分配方案以用于后续步骤的噪声添加；步骤2：设定频繁项集阈值σ，放松阈值γ，采样次数以及采样比例 η，其中， γ<σ， 0 < η<1；步骤3：各Ui和Un+1均生成各自的包含本地项集及支持度的有序项集支持度集合 LocalFii和LocalFin+1；步骤4：各Ui从LocalFii中按 η采集待发送项集，对待发送项集的支持度添加噪声并进行后置处理生成本地带噪项集支持度集合LocalFii″，将LocalFii″发送至中心节点Un+1；步骤5： Un+1将接收到的Loc alFi″i与LocalFin+1进行匹配，结合频繁项集阈值σ 和放松阈值γ，构建全局次频繁项集SubFreItem sets并将其发送至各节点Ui；步骤6：各Ui从LocalFii中选择包含在SubFreItemsets中且不包含于LocalFii中的所有项集及其支持度构成候选项集合RemainderSeti，基于分组策略对RemainderSeti中的支持度添加噪声后，将Remai nderSeti发送给中心节点；步骤7： Un+1将接收到的RemainderSeti与LocalFin+1进行匹配，结合频繁项集阈值σ 筛选出带噪支持度大于或等于阈值σ 的项集GlobalFreItemsets，对GlobalFreItemsets中的项依据LocalFin+1中的支持度分布进行hash映射以及分桶拟合，使其支持度分布拟合Un+1的本地项集支持度在桶中的分布，以项集细化支持度集合OptimizeItemSet ′表示；步骤8： Un+1根据OptimizeItemSet ′更新GlobalFreqItemsets中对应的项集支持度，结合阈值σ 筛选出GlobalFreItemsets中大于或等于阈值σ 的项集作为频繁项集挖掘结果，并向各个节点Ui发布频繁项集挖掘结果。 2.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法，其特征在于：所述互不信任的n+1个参与方合作进行频繁项集挖掘场景中， n+1个参与方互不信任，参与方拥有的数据集用Di表示， 1≤i≤n+1； Di拥有相同的属性模式，各属性值为布尔型，即取值为true或fal se，需要在各参与方不向其它参与方共享自身数据集的前提下，获取中包含的频繁项集；步骤1中，选择拥有最大数据规模的参与方作为中心节点，以Un+1表示，拥有的数据集以 Dn+1表示，其余参与方只与Un+1交互，分别以Ui表示，对应的数据集分别以Di表示(1≤i≤n)； n+1个参与方的数据集Di均为关系表数据，每行数据都由相同的a个属性构成，每个属性的值均为布尔型值；第i个参与方的数据集Di为： Di＝{x1,x2,x3,…,x|Di|} 式中： i代表参与方的序号， i ＝1,2,3, …,n+1， Di表示参与方i的数据集，权　利　要　求　书 1/6 页 2 CN 114969804 A 2xj表示数据集的第j个值， j＝1,2,3, …,|Di|，表示数据xj的第r个属性， r＝1,2,3, …,a。 3.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法，其特征在于：步骤1中，设定总隐私预算为ε 以及各个阶段所占的预算分别为ε1， ε2， ε3，且设定隐私预算满足 ε＝ ε1+ ε2+ ε3；其中， ε1用于步骤4的噪声添加， ε2， ε3用于步骤6中的噪声添加；步骤2中，所有Ui以及中心节点Un+1协商确定频繁项集阈值σ，放松阈值γ(γ<σ )，采样次数以及采样比例 η大小；步骤3中，所有Ui以及中心节点Un+1使用Apriori算法生成包含本地所有项集及支持度的项集支持度集合并按支持度进行排序，得到有序项集支持度集合LocalFii和LocalFin+1；所述项集支持度集合形如<itemset,supp ort>， itemset表示项， supp ort表示对应的支持度。 4.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法，其特征在于：步骤4具体包括：步骤4.1：每一Ui从LocalFii中以η为比例随机不放回采样t次(t>0)，计算t次采样集合中支持度不小于γ的项集所占比例rati oi,j(1≤j≤t)的均值rati oi；步骤4.2：确定待发送的项集数目为counti＝ratio*|LocalFii|；步骤4.3：对前counti个项集支持度集合LocalFii(1:counti)中的项集的支持度添加尺度参数为的拉普拉斯噪声，以L ocalFi′i(1:counti)表示；公式为：式中：表示尺度参数为的拉普拉斯噪声， counti代表全局敏感度， ε1为隐私预算， 1≤i≤n； LocalFIi(1:counti)表示前counti个项集及其真实支持度； LocalFIi′(1:counti)表示前counti个项集及加噪后的支持度；步骤4.4：依据LocalFii中项集支持度的顺序一致性约束对LocalFi ′i(1:counti)中的带噪支持度作后置处理生成本地带噪项集支持度集合LocalFi ″i(1:counti)，随后将 LocalFi″i(1:counti)发送给中心节点Un+1。 5.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法，其特征在于：步骤4.4具体包括：步骤4.4.1：在LocalFI ′i(1:counti)中，从头开始找出带噪支持度满足增 ‑减‑增的区间，对应的L ocalFIi(1:counti)中的项集真实支持度满足非递增有序；权　利　要　求　书 2/6 页 3 CN 114969804 A 3

专利 一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统

专利一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统