全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210362302.8 (22)申请日 2022.04.07 (71)申请人 国网江苏省电力有限公司营销服 务 中心 地址 210019 江苏省南京市 建邺区奥体大 街9号 申请人 国网江苏省电力有限公司 (72)发明人 邹云峰 单超 祝宇楠 刘云鹏  蔡明明  (74)专利代理 机构 北京智绘未来专利代理事务 所(普通合伙) 11689 专利代理师 郑直 (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称 一种基于差分隐私的分布式隐私保护频繁 项集挖掘方法及系统 (57)摘要 本发明公开了一种基于差分隐私的分布式 隐私保护频繁项集挖掘方法及系统, 所述方法包 括: 选择中心节点Un+1和参与者节点Ui, 设置隐私 预算ε及隐私预算分配方案; 设定参数; Ui和Un+1 生成有序项集支持度集合; Ui采集项集并对支持 度添加噪声及后置处理; Un+1构建全局次频繁项 集; Ui基于全局次频繁项集进行项集筛选和支持 度加噪; Un+1构建全局频繁项集并进行支持度分 布拟合更新, 继而筛选得出频繁项集挖掘结果, 向各个节点Ui发布挖掘结果。 本发明针对分布式 隐私保护频繁项集挖掘场景, 实现了无可信第三 方参与的分布式频繁项集挖掘, 可以有效阻止恶 意挖掘方利用所掌握部分背景知识发起的攻击, 提高用户数据隐私的安全性。 权利要求书6页 说明书13页 附图3页 CN 114969804 A 2022.08.30 CN 114969804 A 1.一种基于 差分隐私的分布式隐私保护频繁项集挖掘方法, 其特 征在于: 所述方法包括以下步骤: 步骤1: 针对互不信任的n+1个参与方合作进行频繁项集挖掘场景, 选择拥有最大数据 规模的参与者作为中心节点Un+1, 其余作为参与者节点Ui(1≤i≤n)与中心节点交互, 同时 设置隐私预算 ε及隐私预算分配方案以用于后续 步骤的噪声添加; 步骤2: 设定频繁项集阈值σ, 放松阈值γ, 采样次数以及采样比例 η, 其中, γ<σ, 0 < η<1; 步骤3: 各Ui和Un+1均生成各自的包含本地项集及支持度的有序项集支持度集合 LocalFii和LocalFin+1; 步骤4: 各Ui从LocalFii中按 η采集待发送项集, 对待发送项集的支持度添加噪声并进行 后置处理生成本地带噪项集支持度集 合LocalFii″, 将LocalFii″发送至中心 节点Un+1; 步骤5: Un+1将接收到的Loc alFi″i与LocalFin+1进行匹配, 结合频繁项集阈值σ 和放松阈 值γ, 构建全局次频繁项集SubFreItem sets并将其发送至各节点Ui; 步骤6: 各Ui从LocalFii中选择包含在SubFreItemsets中且不包含于LocalFii中的所有 项集及其支 持度构成候选项集合RemainderSeti, 基于分组策略对RemainderSeti中的支持 度添加噪声后, 将Remai nderSeti发送给中心 节点; 步骤7: Un+1将接收到的RemainderSeti与LocalFin+1进行匹配, 结合频繁项集 阈值σ 筛选 出带噪支持度 大于或等于阈值σ 的项集GlobalFreItemsets, 对GlobalFreItemsets中的项 依据LocalFin+1中的支持度分布进行hash映射以及分桶拟合, 使其支持度分布拟合Un+1的本 地项集支持度在桶中的分布, 以项集细化支持度集 合OptimizeItemSet ′表示; 步骤8: Un+1根据OptimizeItemSet ′更新GlobalFreqItemsets中对应的项集支持度, 结 合阈值σ 筛选出GlobalFreItemsets中大于或等于阈值σ 的项集作为频繁项集挖掘结果, 并 向各个节点Ui发布频繁项集挖掘结果。 2.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其 特征在于: 所述互不信任 的n+1个参与方合作进行频繁项集挖掘场景中, n+1个参与方互不信任, 参与方拥有的数据集用Di表示, 1≤i≤n+1; Di拥有相同的属性模式, 各属性值为布尔型, 即取值为true或fal se, 需要在各参与方不 向其它参与方共享自身数据集的前提下, 获取 中包含的频繁项集; 步骤1中, 选择拥有最大数据规模的参与方作 为中心节点, 以Un+1表示, 拥有的数据集以 Dn+1表示, 其余参与方只与Un+1交互, 分别以Ui表示, 对应的数据集分别以Di表示(1≤i≤n); n+1个参与方的数据集Di均为关系表数据, 每 行数据都由相同的a个属性构成, 每个属性 的值均为布尔型值; 第i个参与方的数据集Di为: Di={x1,x2,x3,…,x|Di|} 式中: i代表参与方的序号, i =1,2,3, …,n+1, Di表示参与方i的数据集,权 利 要 求 书 1/6 页 2 CN 114969804 A 2xj表示数据集的第j个值, j=1,2,3, …,|Di|, 表示数据xj的第r个属性, r=1,2,3, …,a。 3.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其 特征在于: 步骤1中, 设定总隐私预算为ε 以及 各个阶段所占的预算分别为ε1, ε2, ε3, 且设定隐私预 算满足 ε= ε1+ ε2+ ε3; 其中, ε1用于步骤4的噪声添加, ε2, ε3用于步骤6中的噪声添加; 步骤2中, 所有Ui以及中心节点Un+1协商确定 频繁项集阈值σ, 放松阈值γ(γ<σ ), 采样次 数以及采样比例 η大小; 步骤3中, 所有Ui以及中心节点Un+1使用Apriori算 法生成包含本地所有项集及 支持度的 项集支持度集 合并按支持度进行排序, 得到有序项集支持度集 合LocalFii和LocalFin+1; 所述项集支持度集合形如<itemset,supp ort>, itemset表示项, supp ort表示对应的支 持度。 4.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其 特征在于: 步骤4具体包括: 步骤4.1: 每一Ui从LocalFii中以η为比例随机不放回采样t次(t>0), 计算t次采样集合 中支持度不小于γ的项集所占比例rati oi,j(1≤j≤t)的均值rati oi; 步骤4.2: 确定待发送的项集数目为counti=ratio*|LocalFii|; 步骤4.3: 对前counti个项集支持度集合LocalFii(1:counti)中的项集的支持度添加尺 度参数为 的拉普拉斯噪声, 以L ocalFi′i(1:counti)表示; 公式为: 式中: 表示尺度参数为 的拉普拉斯噪声, counti代表全局敏感度, ε1为隐私 预算, 1≤i≤n; LocalFIi(1:counti)表示前counti个项集及其真实支持度; LocalFIi′(1:counti)表示前counti个项集及加噪后的支持度; 步骤4.4: 依据LocalFii中项集支持度的顺序一致性约束对LocalFi ′i(1:counti)中的 带噪支持度作后置处理生成本地带噪项集支持度集合LocalFi ″i(1:counti), 随后将 LocalFi″i(1:counti)发送给中心 节点Un+1。 5.根据权利要求1所述的一种基于差分隐私的分布式隐私保护频繁项集挖掘方法, 其 特征在于: 步骤4.4具体包括: 步骤4.4.1: 在LocalFI ′i(1:counti)中, 从头开始找出带噪支持度满足增 ‑减‑增的区 间, 对应的L ocalFIi(1:counti)中的项集真实支持度满足 非递增有序;权 利 要 求 书 2/6 页 3 CN 114969804 A 3

PDF文档 专利 一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统 第 1 页 专利 一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统 第 2 页 专利 一种基于差分隐私的分布式隐私保护频繁项集挖掘方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。