全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211003080.7 (22)申请日 2022.08.22 (65)同一申请的已公布的文献号 申请公布号 CN 115081004 A (43)申请公布日 2022.09.20 (73)专利权人 北京瑞莱智慧科技有限公司 地址 100084 北京市海淀区清华科技园科 技大厦A座19层 (72)发明人 不公告发明人   (74)专利代理 机构 北京箴思知识产权代理有限 公司 11913 专利代理师 李春晖 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01)G06K 9/62(2022.01) H04L 9/40(2022.01) H04L 9/00(2022.01) (56)对比文件 CN 114401079 A,202 2.04.26 CN 114401079 A,202 2.04.26 CN 112667741 A,2021.04.16 WO 2021114927 A1,2021.0 6.17 CN 114822812 A,202 2.07.29 审查员 洪艳萍 (54)发明名称 数据处理方法、 相关装置及存 储介质 (57)摘要 本申请实施例涉及数据处理领域, 提供一种 数据处理方法、 相关装置及存储介质, 该方法包 括: 特征方设备根据自身分箱处理后得到的第一 分箱结果, 与接收到的标签方设备 发送的标签密 文, 得到分箱概况密文, 所述分箱概况密文解密 后至少用于确定各个箱子的正、 负样本数量; 标 签方设备根据接收到的特征方设备发送的分箱 概况密文进行解密, 对第一分箱结果进行合箱优 化, 得到第二分箱结果; 其中, 所述第二 分箱结果 中的箱子数量不多于所述第一分箱结果中的箱 子数量。 本申请实施例提供了一种数据隐私保护 场景下实现有监督分箱的新方式, 且 可以通过有 点同态或全同态加密提高数据的安全性和隐私 性。 权利要求书3页 说明书20页 附图5页 CN 115081004 B 2022.11.04 CN 115081004 B 1.一种数据处理方法, 应用于特征方设备, 所述特征方设备存储有多个特征值, 所述方 法包括: 接收标签方设备发送的标签密文, 其中, 所述标签密文由标签方设备对标签明文进行 同态加密后得到, 所述标签明文包括多个标签值, 所述标签值和所述特 征值一一对应; 对所述多个特征值进行分箱处理, 得到第一分箱结果, 其中, 所述第 一分箱结果用于表 示各个特 征值归属的箱子; 基于所述第一分箱结果和所述标签密文, 得到分箱概况密文, 所述分箱概况密文解密 后至少用于确定各个箱子的正、 负 样本数量; 将所述分箱概况密文发送至标签方设备; 其中, 所述标签值的数值 为0或1; 所述基于所述第一分箱结果和所述标签密文, 得到分箱概况密文, 包括: 基于所述第一分箱结果构造分箱节点矩阵, 其中, 所述分箱节点矩阵中的任一行或任 一列用于表示一个箱子的样本分布, 且所述分箱节点矩阵中的各个矩阵元素 的数值为0或 1; 以及获取所述分箱节点矩阵与所述标签密 文的矩阵乘法运算结果, 作为所述分箱概况密 文; 或者 基于所述第一分箱结果构造多个子分箱向量, 其中, 所述子分箱向量与所述箱子一一 对应, 且任一所述子分箱向量中的各个 向量元素 的数值为0或1; 以及分别获取所述多个子 分箱向量与所述标签密文的数量积, 作为所述分箱概况密文。 2.如权利要求1所述的方法, 其中, 在分箱节点矩阵中, 列数量与所述特征值的数量一 致, 行数量与所述第一分箱结果的箱子数量 一致; 或者 在分箱节点矩阵中, 列数量与所述第一分箱结果的箱子数量一致, 行数量与所述特征 值的数量 一致; 在子分箱向量中, 向量元 素的数量与所述特 征值的数量 一致。 3.如权利要求1所述的方法, 其中, 所述多个特征值中的至少部分不为数值, 在对所述 多个特征值进行分箱处 理之前, 所述方法还 包括: 将非数值的多个特征值分别映射, 得到多个分箱值, 其中, 所述分箱值为数值, 且所述 分箱值与所述特 征值一一对应; 基于所述多个分箱值对所述多个特 征值进行分箱处 理, 得到第一分箱结果; 其中, 采用无监 督分箱的方式基于所述多个分箱值对所述多个特 征值进行分箱。 4.如权利要求1或2所述的方法, 其中, 所述分箱概况密文解密后仅用于表示各个箱子 的正样本数量或负 样本数量; 所述对所述多个特 征值进行分箱处 理, 得到第一分箱结果之后, 所述方法还 包括: 获取各个箱子的样本数量, 并将所述各个箱子的样本数量加密发送至所述标签方设 备; 其中, 所述各个箱子的样本数量基于分箱 节点矩阵、 子分箱向量或第一分箱结果获取; 基于分箱 节点矩阵获取 所述各个箱子的样本数量, 包括: 基于所述分箱节点矩阵各行中矩阵元素的数值之和确定各个箱子的样本数量, 其中, 所述分箱 节点矩阵的每一行与一个箱子对应;权 利 要 求 书 1/3 页 2 CN 115081004 B 2基于子分箱向量获取 所述子分箱向量关联的箱子中的样本数量, 包括: 基于所述子分箱向量中的全部向量元素的数值之和, 确定所述子分箱向量关联的箱子 中的样本数量。 5.一种数据处理方法, 应用于标签方设备, 所述标签方设备存储有标签明文, 所述标签 明文包括多个标签值, 所述方法包括: 对所述标签明文 进行同态加密, 构造标签密文, 并将所述标签密文发送至特 征方设备; 接收特征方设备发送的分箱概况密文, 其中, 所述分箱概况密文由特征方设备基于第 一分箱结果、 所述标签密文计算得到; 解密所述分箱概况密文, 得到分箱概况明文, 其中, 所述分箱概况明文用于确定各个箱 子的正、 负 样本数量; 根据所述分箱概况明文对第一分箱结果进行合箱优化, 获取第二分箱结果; 其中, 所述第二分箱结果中的箱子数量 不多于所述第一分箱结果中的箱子数量; 其中, 所述标签值的数值 为0或1; 所述特征方设备通过以下方式基于所述第 一分箱结果和所述标签密文, 得到分箱概况 密文: 基于所述第一分箱结果构造分箱节点矩阵, 其中, 所述分箱节点矩阵中的任一行或任 一列用于表示一个箱子的样本分布, 且所述分箱节点矩阵中的各个矩阵元素 的数值为0或 1; 以及获取所述分箱节点矩阵与所述标签密 文的矩阵乘法运算结果, 作为所述分箱概况密 文; 或者 基于所述第一分箱结果构造多个子分箱向量, 其中, 所述子分箱向量与所述箱子一一 对应, 且任一所述子分箱向量中的各个 向量元素 的数值为0或1; 以及分别获取所述多个子 分箱向量与所述标签密文的数量积, 作为所述分箱概况密文。 6.一种数据处理装置, 应用于特征方设备, 所述特征方设备存储有多个特征值, 所述装 置包括: 收发模块, 被配置为接收标签方设备发送的标签密文, 其中, 所述标签密文由标签方设 备对标签明文进行同态加密后得到, 所述标签明文包括多个标签值, 所述标签值和所述特 征值一一对应; 处理模块, 被配置为对所述多个特征值进行分箱处理, 得到第一分箱结果, 其中, 所述 第一分箱结果用于表示各个特 征值归属的箱子; 所述处理模块, 还被配置为基于所述第一分箱结果和所述标签密文, 得到分箱概况密 文, 所述分箱概况密文解密后至少用于确定各个箱子的正、 负 样本数量; 所述收发模块, 还被 配置为将所述分箱概况密文发送至标签方设备; 其中, 所述标签值的数值 为0或1; 所述处理模块, 还被配置为通过以下方式基于所述第一分箱结果和所述标签密文, 得 到分箱概况密文: 基于所述第一分箱结果构造分箱节点矩阵, 其中, 所述分箱节点矩阵中的任一行或任 一列用于表示一个箱子的样本分布, 且所述分箱节点矩阵中的各个矩阵元素 的数值为0或 1; 以及获取所述分箱节点矩阵与所述标签密 文的矩阵乘法运算结果, 作为所述分箱概况密权 利 要 求 书 2/3 页 3 CN 115081004 B 3

PDF文档 专利 数据处理方法、相关装置及存储介质

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、相关装置及存储介质 第 1 页 专利 数据处理方法、相关装置及存储介质 第 2 页 专利 数据处理方法、相关装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。