全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210364684.8 (22)申请日 2022.04.07 (71)申请人 同盾科技有限公司 地址 310012 浙江省杭州市余杭区五常街 道文一西路9 98号18幢209室 (72)发明人 单嘉润 韩宇翔 董启江  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 王辉 (51)Int.Cl. G06K 9/62(2022.01) G06F 21/60(2013.01) G06F 21/62(2013.01) (54)发明名称 数据分类方法和装置、 计算机可读存储介 质、 电子设备 (57)摘要 本公开是关于一种数据分类方法、 数据分类 装置、 计算机可读存储介质以及电子设备, 涉及 计算机技术领域。 该方法包括: 获取样本数据, 基 于所述样 本数据得到目标聚合数据, 根据所述目 标聚合数据确定所述样本数据中包括的训练数 据; 对所述训练数据中的黑样本数据进行标记, 得到黑样 本数据以及未标记样 本数据, 利用所述 黑样本数据进行模型训练, 得到分类模型; 通过 所述分类模 型, 确定所述未标记样 本数据中包括 的黑样本数据, 得到目标黑样 本数据以及目标白 样本数据; 利用所述目标黑样 本数据以及所述目 标白样本数据进行模型训练, 得到目标分类模 型, 通过所述目标分类模型, 对所述样本数据进 行分类。 本公开提高了样本数据分类的准确性。 权利要求书2页 说明书14页 附图5页 CN 114742152 A 2022.07.12 CN 114742152 A 1.一种数据分类方法, 其特 征在于, 包括: 获取样本数据, 基于所述样本数据得到目标聚合数据, 根据所述目标聚合数据确定所 述样本数据中包括的训练数据; 对所述训练数据中的黑样本数据进行标记, 得到黑样本数据以及未标记样本数据, 利 用所述黑样本数据进行模型训练, 得到分类模型; 通过所述分类模型, 确定所述未标记样本数据中包括的黑样本数据, 得到目标黑样本 数据以及目标白样本数据; 利用所述目标黑样本数据以及所述目标白样本数据进行模型训练, 得到目标分类模 型, 通过所述目标分类模型, 对所述样本数据进行分类。 2.根据权利要求1所述的数据分类方法, 其特征在于, 获取样本数据, 基于所述样本数 据得到目标聚合数据, 包括: 获取样本数据, 对所述样本数据进行同态加密, 得到同态加密样本数据; 对各参与 方的同态加密样本数据进行样本对齐以及聚合得到的目标聚合数据, 对所述 目标聚合数据进行解密, 得到所述目标聚合数据。 3.根据权利要求1所述的数据分类方法, 其特征在于, 对所述训练数据中的黑样本数据 进行标记, 得到黑样本数据以及未 标记样本数据, 包括: 获取所述训练数据中包括的黑样本数据, 对所述黑样本数据进行标记, 得到黑样本数 据; 通过所述黑样本数据外的样本数据, 得到所述未 标记样本数据。 4.根据权利要求3所述的数据分类方法, 其特征在于, 利用所述黑样本数据中包括的与 所述训练特 征对应的数据, 进行模型训练, 得到分类模型, 包括: 对所述黑样本数据中包括的样本数据进行随机标记, 标记为伪白样本数据; 将所述伪白样本数据 添加至所述未标记样本数据中, 得到与 所述黑样本对应的第 一样 本数据以及与所述未 标记样本对应的第二样本数据; 通过所述第一样本数据以及所述第二样本数据, 进行模型训练, 得到分类模型。 5.根据权利要求4所述的数据分类方法, 其特征在于, 通过所述分类模型, 确定所述未 标记样本数据中包括的黑样本数据, 得到目标黑样本数据以及目标白样本数据, 包括: 在所述黑样本数据中进行多轮伪白样本数据随机标记, 依次将每条伪白样本数据输入 至所述分类模型, 得到所述伪白样本数据的分类结果; 根据所述伪白样本数据的分类结果, 确定分布阈值; 通过所述分类模型, 得到所述未标记样本数据的分类结果, 根据所述分布阈值以及所 述未标记样本数据的分类结果得到所述目标黑样本数据以及所述目标白样本数据。 6.根据权利要求5所述的数据分类方法, 其特征在于, 根据 所述分布阈值以及所述未标 记样本数据的分类结果得到所述目标黑样本数据以及所述目标白样本数据, 包括: 获取所述未标记样本数据的分类结果, 对所述未标记样本数据的分类结果与 所述分布 阈值进行比较; 在确定所述未标记样本数据的分类结果小于所述分布阈值 时, 将所述未标记样本数据 标记为白样本数据; 在确定所述未标记样本数据的分类结果不小于所述分布阈值 时, 将所述未标记样本数权 利 要 求 书 1/2 页 2 CN 114742152 A 2据标记为 黑样本数据; 通过所述样本数据中的黑样本数据以及所述未标记样本数据中包括的黑样本数据以 及白样本数据, 得到所述目标黑样本数据以及所述目标白样本数据。 7.根据权利要求6所述的数据分类方法, 其特征在于, 在利用所述目标黑样本数据以及 所述目标白样本数据进行模型训练之前, 所述数据分类方法还 包括: 获取所述未标记样本数据中各样本数据被标记为黑样本数据的次数, 获取被标记为黑 样本数据的次数 大于预设次数的样本数据; 根据应用场景, 对所述被标记为黑样本数据的次数大于预设次数的样本数据中包括的 特征进行分析, 得到与所述应用场景低关联度的特征, 在所述样本数据中删除所述低关联 度的特征, 得到目标 特征。 8.根据权利7所述的数据分类方法, 其特征在于, 利用所述目标黑样本数据以及所述目 标白样本数据进行模型训练, 得到目标分类模型, 包括: 获取所述目标黑样本数据中包括的与所述目标特征对应的第三样本数据以及所述目 标白样本中包括的与所述目标 特征对应的第四样本数据; 通过所述第 三样本数据以及所述第四样本数据对联邦模型进行训练, 得到所述目标分 类模型。 9.一种数据分类装置, 其特 征在于, 包括: 训练特征确定模块, 用于获取样本数据, 基于所述样本数据得到目标聚合数据, 根据 所 述目标聚合数据确定所述样本数据中包括的训练数据; 分类模型训练模块, 用于对所述训练数据中的黑样本数据进行标记, 得到黑样本数据 以及未标记样本数据, 利用所述黑样本数据中包括的与所述训练特征对应的数据, 进行模 型训练, 得到分类模型; 样本数据确定模块, 用于通过所述分类模型, 确定所述未标记样本数据中包括的黑样 本数据, 得到目标黑样本数据以及目标白样本数据; 数据分类模块, 用于利用所述目标黑样本数据以及所述目标白样本数据进行模型训 练, 得到目标分类模型, 通过 所述目标分类模型, 对所述样本数据进行分类。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现权利要求1 ‑8任一项所述的数据分类方法。 11.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1 ‑8任一项所述的 数据分类方法。权 利 要 求 书 2/2 页 3 CN 114742152 A 3

PDF文档 专利 数据分类方法和装置、计算机可读存储介质、电子设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据分类方法和装置、计算机可读存储介质、电子设备 第 1 页 专利 数据分类方法和装置、计算机可读存储介质、电子设备 第 2 页 专利 数据分类方法和装置、计算机可读存储介质、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。