全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210389521.5 (22)申请日 2022.04.14 (71)申请人 广州大学 地址 510006 广东省广州市大 学城外环西 路230号 (72)发明人 陈孔阳 王依文 黄耀  (74)专利代理 机构 广州高炬知识产权代理有限 公司 44376 专利代理师 孙明科 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/04(2006.01) G06F 21/62(2013.01) (54)发明名称 从部分训练集快速训练模型的方法、 系统、 设备及介质 (57)摘要 本发明公开了一种从部分训练集快速训练 模型的方法、 系统、 设备及介质, 其方法包括如下 步骤: 选取待遗忘的数据子集, 从中删除遗忘数 据, 将删除遗忘数据后剩余的数据子集作为训练 样本, 训练得到遗忘模型; 利用成员推理攻击对 遗忘模型进行评估, 计算遗忘模型的输出分布, 根据输出分布判断删除的遗忘数据是否遗忘成 功, 若遗忘成功, 则将遗忘模型作为最终遗忘模 型; 利用后门攻击对最终遗忘模 型的遗忘效果进 行评估, 若评估合格, 则将最终遗忘模型作为目 标模型; 本发 明方法只需要对目标模 型的权重做 微小扰动, 不需要重新训练, 因此大大节省了时 间, 而且没有在数据样本或目标模 型训练过程做 改动, 对所有训练模型通用, 无需增加额外的约 束条件。 权利要求书2页 说明书5页 附图4页 CN 114611631 A 2022.06.10 CN 114611631 A 1.从部分训练集快速训练模型的方法, 其特 征在于, 其包括如下步骤: 选取待遗忘的数据子集, 从中删除遗忘数据, 将删除遗忘数据后剩余的数据子集作为 训练样本, 训练得到 遗忘模型; 利用成员 推理攻击对遗忘模型进行评估, 计算遗忘模型的输出分布, 根据输出分布判 断删除的遗 忘数据是否 遗忘成功, 若遗 忘成功, 则将遗 忘模型作为 最终遗忘模型; 利用后门攻击对最终遗忘模型的遗忘效果进行评估, 若评估合格, 则将最终遗忘模型 作为目标模型。 2.如权利要求1所述的从部分训练集快速训练模型的方法, 其特征在于, 所述将删除遗 忘数据后剩余的数据子集作为训练样本, 包括: 训练一个参照模型, 从删除遗忘数据后剩余的数据中, 随机选取一部分子集作为参照 模型的训练样本 。 3.如权利要求2所述的从部分训练集快速训练模型的方法, 其特征在于, 所述训练得到 遗忘模型, 包括: 计算遗忘数据在参照模型上的输出分布作为参照, 参照模型的后验分布保持不变, 在 迭代中调整遗忘模型, 使得遗忘模型 的分布向参照模型 的分布迭代靠近, 将迭代到最后的 模型作为遗 忘模型。 4.如权利要求1所述的从部分训练集快速训练模型的方法, 其特征在于, 所述利用成员 推理攻击对遗忘模型进行评估, 计算遗忘模型 的输出分布, 根据输出分布判断删除的遗忘 数据是否 遗忘成功, 若遗 忘成功, 则将遗 忘模型作为 最终遗忘模型, 包括: 首先准备一个与遗忘模型训练集分布类似的数据集成为阴影数据集, 以这个阴影数据 集为训练集, 训练出一个阴影模型, 然后继续准备阴影模型、 阴影训练集和阴影非训练集, 以此为基础, 训练一个二分类攻击模型, 将需遗忘的数据输入到遗忘模型中, 计算输出分 布, 攻击模型根据输出分布判断需遗忘的数据是否为遗忘模型的成员数据, 若攻击模型推 理出需遗 忘数据为非成员数据, 则表示遗 忘成功, 则将遗 忘模型作为 最终遗忘模型。 5.如权利要求1所述的从部分训练集快速训练模型的方法, 其特征在于, 所述利用后门 攻击对最终遗 忘模型的遗 忘效果进行评估之前, 包括: 将后门植入在遗忘数据中, 标签设置为特定标签, 将其与删除遗忘数据后剩余的数据 子集一同训练生成原 始模型, 其中, 原 始模型为遗 忘前的模型。 6.如权利要求5所述的从部分训练集快速训练模型的方法, 其特征在于, 所述生成原始 模型之后, 包括: 将生成的原始模型应用在遗忘评估阶段, 假定原始模型是经由后门遗忘数据和剩余的 数据子集训练而来的, 将这个原 始模型进行遗 忘, 得到了遗忘后的原 始模型。 7.如权利要求6所述的从部分训练集快速训练模型的方法, 其特 征在于, 将携带后门的数据输入遗忘后的原始模型进行计算, 得到的概率分布将会与正常数据 的概率分布, 根据概率分布计算测试精度, 若精度下降超过阈值, 说明遗忘成功, 将遗忘后 的原始模型作为目标模型。 8.一种实施权利要求1 ‑7任一项所述方法的从部分训练集快速训练模型的系统, 其特 征在于, 其包括相互连接并通讯的如下模块: 遗忘模型获取模块, 用于选取待遗忘的数据子集, 从中删除遗忘数据, 将删除遗忘数据权 利 要 求 书 1/2 页 2 CN 114611631 A 2后剩余的数据子集作为训练样本, 训练得到 遗忘模型; 最终遗忘模型获取模块, 用于利用成员 推理攻击对遗忘模型进行评估, 计算遗忘模型 的输出分布, 根据输出分布判断删除的遗忘数据是否遗忘成功, 若遗忘成功, 则将遗忘模型 作为最终遗忘模型; 目标模型获取模块, 用于利用后门攻击对最终遗忘模型的遗忘效果进行评估, 若评估 合格, 则将最终遗 忘模型作为目标模型。 9.一种计算机设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时, 实现如权利要求1 ‑7 中任一项所述的从部分训练集快速训练模型的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处理器执行时使所述处理器执行如权利要求1 ‑7中任一项所述的从 部分训练集快速训练模型的方法。权 利 要 求 书 2/2 页 3 CN 114611631 A 3

PDF文档 专利 从部分训练集快速训练模型的方法、系统、设备及介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 从部分训练集快速训练模型的方法、系统、设备及介质 第 1 页 专利 从部分训练集快速训练模型的方法、系统、设备及介质 第 2 页 专利 从部分训练集快速训练模型的方法、系统、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。