全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210890506.9 (22)申请日 2022.07.27 (65)同一申请的已公布的文献号 申请公布号 CN 115080921 A (43)申请公布日 2022.09.20 (73)专利权人 南京审计大 学 地址 211815 江苏省南京市浦口区江浦街 道雨山西路86号 (72)发明人 钱钢 吴丹琪 徐超 章之旺  (74)专利代理 机构 南京司南专利代理事务所 (普通合伙) 32431 专利代理师 彭玉婷 (51)Int.Cl. G06F 17/18(2006.01) G06F 16/9535(2019.01)G06F 16/2455(2019.01) G06Q 50/26(2012.01) 审查员 张文全 (54)发明名称 一 种基 于 审 计 敏 感的 改 进的 T o p- k Dominating方法 (57)摘要 本发明涉及审 计数据分析技术领域, 具体公 开了一种基于审计敏感的改进的 Top ‑k  Dominating方法, 包 括如下步骤: S1、 构建数据集 位图; S2、 统计数据对象的最大支配数量; S3、 计 算数据对象的权重支配得分上界; S4、 依次访问 数据对象, 判断剪枝条件; S5、 统计数据对象的实 际支配的对象集合; S6、 计算数据对象的权重支 配分数; S7、 返回k个分数最高的对象结果; 本发 明利用位图的快速按位操作提高对象间比较的 效率; 针对 数据缺失的现实问题能够处理不完整 数据集, 并且考虑审计敏感的重要属性维度, 满 足审计工作的个性化需求, 获取更具有影响力的 对象结果推荐给审计人员以进行深入调查分析。 权利要求书3页 说明书9页 附图5页 CN 115080921 B 2022.11.18 CN 115080921 B 1.一种基于审计敏感的改进的Top ‑k Dominating方法, 其特 征在于: 包括如下步骤: S1、 构建数据集位图: 对数据集S中的每个数据对象用位串表示其在所有维度 上的属性 值情况, 构建整个数据集的位图; S2、 统计数据对象的最大支配数量: 通过位图的快速按位操作计算每个数据对象o支配 的对象数量的上界, 获得 所有可能被o支配的对象集 合; S3、 计算数据对象的权重支配得分上界: 依据审计准则和审计重点, 确定审计敏感的重 点属性, 为数据集S上的每个属性 维度赋予权重, 基于所有 可能被对象o支配的对象集合, 计 算o的权重支配得分上界MaxWeightGrade(o); S4、 依次访问数据对象, 判断剪枝条件: 将数据集S上的对象按其MaxWeightGrade降序 排列后依次访问, 与查询候选集SC比较, 若对象o满足剪枝条件, 则算法提前终止; 若对象o 不满足剪枝条件, 未被过 滤, 则进行 下一个步骤; S5、 统计数据对象的实际支配的对象集合: 若对象o未被过滤, 则统计其实际支配的其 他对象的数量, 获得被o支配的对象集 合; S6、 计算数据对象的权重支配分数: 基于属性维度的权重和实际支配的对象集合, 计算 对象o的权重支配分数WeightGrade(o), 并与候选集SC的最小分数比较, 判断是否将对 象o 加入候选集SC中; S7、 返回k个分数最高的对象结果: 更新候选集合SC, 并重复S4~S6, 直到数据对象全部访 问完毕或者满足剪枝条件提前终止, 返回数据对象的结果集SR, 得到k个分数最高的对象结 果; 所述步骤S2中, 统计 每个数据对象o的最大支配数量的过程包括如下步骤: S21、 定义两个与对象o相关的对象集合M和N: 集合M表示除对象o以外, 在Dset(o)的每 个维度上不比o好 或存在缺失值的对象集合; 集合N表 示在Dset(o)的每个维度上比o更差或 存在缺失值的对象集 合, Dset(o)表示对象o的存在属性 值的维度集 合; S22、 仅考虑单个维度, 第i维上, 和 均包括可能被o支配的对象; 将对象集合 和 用位向量 和 表示, 该位 向量从数据集位图中抽取; 位 向量 和 的长度均为数据 集S的基数|S|, 每一个比特位对应于一个对象; 如 果 或 包含某一个对象, 则该对象在向 量中对应的位编码为 “1”, 否则该位设为 “0”; S23、 o[i]表示对象o在第i维上的属性值, 如果o[i]缺失, 则 ; 如果o[i]存在, 则 , ,由 此 , ; 基于位图中的位向量 和 , 可以通过快速按位操作获得集 合M和N; S24、 M集合包括了所有可能被对象o支配的对象, 因此|M|是o支配的对象数量的上界。 2.根据权利要求1所述的一种基于审计敏感的改进的Top ‑k Dominating方法, 其特征 在于: 所述 步骤S1中, 构建数据集 位图的具体过程包括如下步骤: S11、 对于不完整数据 集S上的所有对象o, 每个对象用长度为 的位串表示, 其权 利 要 求 书 1/3 页 2 CN 115080921 B 2中, 表示对象o在第i维上的子串位数, d表示数据集上共有d个属性维度, 对象o在每 个维度上的值由一个 的子串表示, Li表示在第i维上不同观测值的总数, 额外增加一 个比特位代 表缺失值; S12、 对象在每个维度上的属性值用该维上 位的子串来表示; 位的子串中, 第1位对应缺 失值, 自第2 位开始依次对应第i 维中一组由小到大排好序的属性值; 初始 化子 串编码全为 “1”, 若对象o在第i 维上观测到某个值, 则该值对应的子串位及其之后的所有位 均设置为“0”; 若对象o在第i维上的值 缺失, 则该维的子串全部编码为 “1”; S13、 连接每个维度的子串, 构成对象o的位串, 每个数据对象用一个位串表示, 构成整 个数据集的位图。 3.根据权利要求1所述的一种基于审计敏感的改进的Top ‑k Dominating方法, 其特征 在于: 所述步骤S3中, 计算对象o的权重支配得分上界MaxWeightGrade(o)的计算过程包括 如下步骤: S31、 依据审计准则和 审计重点, 确定审计敏感的重点属性, 为数据集S上的每个属性维 度赋予权 重, 第i维的权 重为 , 权值越大表示该维度的属性 值越重要; S32、 基于 M集合, 对象o的权 重支配得分上界为 , 其中, 是M集合中在第i维上有属性值的对象数量, 是M集合中在第i维上 缺失属性 值的对象数量。 4.根据权利要求1所述的一种基于审计敏感的改进的Top ‑k Dominating方法, 其特征 在于: 所述 步骤S4中, 依次访问数据对象, 判断剪枝条件的过程包括如下步骤: S41、 设置一个大小为k的候选集合SC, 令τ等于SC中对象的最小分数, 初始化SC为空集, τ =‑1; S42、 将数据集S上的对象按其MaxWeightGrade降序排列得到访问队列P, 依次访问P中 的对象; S43、 若 , 则对象o可以被TKD查询安全剪枝, 提前终止算法, 否则, 进一步计算对象o的实际权 重支配分数。 5. 根据权利要求1所述的一种基于审计敏感的改进的Top ‑k Dominating方法, 其特征 在于: 所述 步骤S5中, 统计对象o实际支配的对象集 合的过程包括如下步骤: S51、 定义两个与对象o相关的对象集合 和 , 表示数据集中与o不可比较 的对象集合, 即在o所有可观测维度Dset(o)上, 中的对象均无观测值; 表示集合 (M‑N)中不被o支配的对象集 合, 即在Dset(o)上, 两个对象的观测值均相等; S52、 令集合R表示被对象o支配的对象集合, R可以被划分为两个不相交的子集 和权 利 要 求 书 2/3 页 3 CN 115080921 B 3

PDF文档 专利 一种基于审计敏感的改进的Top-k Dominating方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于审计敏感的改进的Top-k Dominating方法 第 1 页 专利 一种基于审计敏感的改进的Top-k Dominating方法 第 2 页 专利 一种基于审计敏感的改进的Top-k Dominating方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。