(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210362302.8
(22)申请日 2022.04.07
(71)申请人 国网江苏省电力有限公司营销服 务
中心
地址 210019 江苏省南京市 建邺区奥体大
街9号
申请人 国网江苏省电力有限公司
(72)发明人 邹云峰 单超 祝宇楠 刘云鹏
蔡明明
(74)专利代理 机构 北京智绘未来专利代理事务
所(普通合伙) 11689
专利代理师 郑直
(51)Int.Cl.
G06F 21/62(2013.01)
(54)发明名称
一种基于差分隐私的分布式隐私保护频繁
项集挖掘方法及系统
(57)摘要
本发明公开了一种基于差分隐私的分布式
隐私保护频繁项集挖掘方法及系统, 所述方法包
括: 选择中心节点Un+1和参与者节点Ui, 设置隐私
预算ε及隐私预算分配方案; 设定参数; Ui和Un+1
生成有序项集支持度集合; Ui采集项集并对支持
度添加噪声及后置处理; Un+1构建全局次频繁项
集; Ui基于全局次频繁项集进行项集筛选和支持
度加噪; Un+1构建全局频繁项集并进行支持度分
布拟合更新, 继而筛选得出频繁项集挖掘结果,
向各个节点Ui发布挖掘结果。 本发明针对分布式
隐私保护频繁项集挖掘场景, 实现了无可信第三
方参与的分布式频繁项集挖掘, 可以有效阻止恶
意挖掘方利用所掌握部分背景知识发起的攻击,
提高用户数据隐私的安全性。
权利要求书6页 说明书13页 附图3页
CN 114969804 A
2022.08.30
CN 114969804 A
1.一种基于 差分隐私的分布式隐私保护频繁项集挖掘方法, 其特 征在于:
所述方法包括以下步骤:
步骤1: 针对互不信任的n+1个参与方合作进行频繁项集挖掘场景, 选择拥有最大数据
规模的参与者作为中心节点Un+1, 其余作为参与者节点Ui(1≤i≤n)与中心节点交互, 同时
设置隐私预算 ε及隐私预算分配方案以用于后续 步骤的噪声添加;
步骤2: 设定频繁项集阈值σ, 放松阈值γ, 采样次数以及采样比例 η, 其中, γ<σ, 0 < η<1;
步骤3: 各Ui和Un+1均生成各自的包含本地项集及支持度的有序项集支持度集合
LocalFii和LocalFin+1;
步骤4: 各Ui从LocalFii中按 η采集待发送项集, 对待发送项集的支持度添加噪声并进行
后置处理生成本地带噪项集支持度集 合LocalFii″, 将LocalFii″发送至中心 节点Un+1;
步骤5: Un+1将接收到的Loc alFi″i与LocalFin+1进行匹配, 结合频繁项集阈值σ 和放松阈
值γ, 构建全局次频繁项集SubFreItem sets并将其发送至各节点Ui;
步骤6: 各Ui从LocalFii中选择包含在SubFreItemsets中且不包含于LocalFii中的所有
项集及其支 持度构成候选项集合RemainderSeti, 基于分组策略对RemainderSeti中的支持
度添加噪声后, 将Remai nderSeti发送给中心 节点;
步骤7: Un+1将接收到的RemainderSeti与LocalFin+1进行匹配, 结合频繁项集 阈值σ 筛选
出带噪支持度 大于或等于阈值σ 的项集GlobalFreItemsets, 对GlobalFreItemsets中的项
依据LocalFin+1中的支持度分布进行hash映射以及分桶拟合, 使其支持度分布拟合Un+1的本
地项集支持度在桶中的分布, 以项集细化支持度集 合OptimizeItemSet ′表示;
步骤8: Un+1根据OptimizeItemSet ′更新GlobalFreqItemsets中对应的项集支持度, 结
合阈值σ 筛选出GlobalFreItemsets中大于或等于阈值σ 的项集作为频繁项集挖掘结果, 并
向各个节点Ui发布频繁项集挖掘结果。
2.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其
特征在于:
所述互不信任 的n+1个参与方合作进行频繁项集挖掘场景中, n+1个参与方互不信任,
参与方拥有的数据集用Di表示, 1≤i≤n+1;
Di拥有相同的属性模式, 各属性值为布尔型, 即取值为true或fal se, 需要在各参与方不
向其它参与方共享自身数据集的前提下, 获取
中包含的频繁项集;
步骤1中, 选择拥有最大数据规模的参与方作 为中心节点, 以Un+1表示, 拥有的数据集以
Dn+1表示, 其余参与方只与Un+1交互, 分别以Ui表示, 对应的数据集分别以Di表示(1≤i≤n);
n+1个参与方的数据集Di均为关系表数据, 每 行数据都由相同的a个属性构成, 每个属性
的值均为布尔型值;
第i个参与方的数据集Di为:
Di={x1,x2,x3,…,x|Di|}
式中:
i代表参与方的序号, i =1,2,3, …,n+1,
Di表示参与方i的数据集,权 利 要 求 书 1/6 页
2
CN 114969804 A
2xj表示数据集的第j个值, j=1,2,3, …,|Di|,
表示数据xj的第r个属性, r=1,2,3, …,a。
3.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其
特征在于:
步骤1中, 设定总隐私预算为ε 以及 各个阶段所占的预算分别为ε1, ε2, ε3, 且设定隐私预
算满足 ε= ε1+ ε2+ ε3;
其中, ε1用于步骤4的噪声添加, ε2, ε3用于步骤6中的噪声添加;
步骤2中, 所有Ui以及中心节点Un+1协商确定 频繁项集阈值σ, 放松阈值γ(γ<σ ), 采样次
数以及采样比例 η大小;
步骤3中, 所有Ui以及中心节点Un+1使用Apriori算 法生成包含本地所有项集及 支持度的
项集支持度集 合并按支持度进行排序, 得到有序项集支持度集 合LocalFii和LocalFin+1;
所述项集支持度集合形如<itemset,supp ort>, itemset表示项, supp ort表示对应的支
持度。
4.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其
特征在于:
步骤4具体包括:
步骤4.1: 每一Ui从LocalFii中以η为比例随机不放回采样t次(t>0), 计算t次采样集合
中支持度不小于γ的项集所占比例rati oi,j(1≤j≤t)的均值rati oi;
步骤4.2: 确定待发送的项集数目为counti=ratio*|LocalFii|;
步骤4.3: 对前counti个项集支持度集合LocalFii(1:counti)中的项集的支持度添加尺
度参数为
的拉普拉斯噪声, 以L ocalFi′i(1:counti)表示;
公式为:
式中:
表示尺度参数为
的拉普拉斯噪声, counti代表全局敏感度, ε1为隐私
预算, 1≤i≤n;
LocalFIi(1:counti)表示前counti个项集及其真实支持度;
LocalFIi′(1:counti)表示前counti个项集及加噪后的支持度;
步骤4.4: 依据LocalFii中项集支持度的顺序一致性约束对LocalFi ′i(1:counti)中的
带噪支持度作后置处理生成本地带噪项集支持度集合LocalFi ″i(1:counti), 随后将
LocalFi″i(1:counti)发送给中心 节点Un+1。
5.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其
特征在于:
步骤4.4具体包括:
步骤4.4.1: 在LocalFI ′i(1:counti)中, 从头开始找出带噪支持度满足增 ‑减‑增的区
间, 对应的L ocalFIi(1:counti)中的项集真实支持度满足 非递增有序;权 利 要 求 书 2/6 页
3
CN 114969804 A
3
专利 一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:39:43上传分享