全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210749186.5 (22)申请日 2022.06.29 (71)申请人 江苏昆山农村商业银行股份有限公 司 地址 215334 江苏省苏州市昆山市前进东 路828号 (72)发明人 杨立才 邵宏力 胡超 刘磊  李云 邓知知  (74)专利代理 机构 国浩律师(南京)事务所 32284 专利代理师 孟睿 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01)G06F 16/36(2019.01) (54)发明名称 一种构建数据仓库标准层的方法和系统 (57)摘要 本发明涉及一种构建数据仓库标准层的方 法和系统。 包括: 标准层包括表模型和字段模型; 对于数据库中各表, 确定其是否为孤岛表, 将非 孤岛表作为表模 型进放入 标准层; 所述孤岛表是 指该表与其他表不存在外键关系; 对于数据库中 各表的字段, 确定其是否为主数据字段; 当该字 段为主数据字段时, 该字段放入标准层; 当该字 段不是主数据字段时, 如果其字段特征中的填充 率大于阈值且为非默认值时, 将该字段放入 标准 层; 当分析数据类型与原始类型不一致时, 字段 类型判断数据比例为100%时推荐转换类型; 如 果为码值字段, 则推荐进行查看设置码值转换。 本发明提高了数据标准 化的程度。 权利要求书3页 说明书12页 附图5页 CN 115510021 A 2022.12.23 CN 115510021 A 1.一种构建数据仓库标准层的方法, 其特 征在于, 标准层包括表模型和字段模型; 对于数据库中各表, 确定其是否为孤岛表, 将 非孤岛表作为表模型进放入标准层; 所述 孤岛表是指该表与其 他表不存在外 键关系; 对于数据库中各表的字段, 确定其是否为主数据字段; 当该字段为主数据字段时, 该字 段放入标准层; 当该字段不是主数据字段时, 如果其字段特征中的填充率大于阈值且为非 默认值时, 将该字段放入标准层; 当分析数据类型与原始类型不一致时, 字段类型判断数据比例为100%时推荐转换类 型; 如果为码值字段, 则推荐 进行配置码值 转换的规则。 2.如权利要求1所述的构建数据仓库标准层的方法, 其特征在于, 通过表级知识图谱确 定数据库中各表是否为孤岛表; 所述表级知识图谱是指将各表以及各表之间的外键关系以可视化的图结构展示的知 识图谱; 所述表级知识图谱包括节点和边, 每一个节点代表 一张表, 每一条边代表一种外键 关系; 通过表级知识图谱中各节点之间是否存在边来确定对应的表是否存在外键关系, 当某 一节点于其 他任何节点 不存在边时, 该节点代 表的表为孤岛表。 3.如权利要求1所述的构建数据仓库标准层的方法, 其特征在于, 通过字段级知识图谱 确定数据库中各表的字段 是否为主数据字段; 所述字段级知识图谱是指将各表的字段、 表间关系以可视化的图结构形式展示的知识 图谱; 所述字段级知识图谱包括节点和边, 每一个节点代表 一个字段, 每一条边代表一种字 段间关系; 所述表间关系体现为来自不同表的字段之间的关系, 至少包括外键关系、 数据相 等或数据去空相等; 在确定主数据字段时, 通过字段级知识图谱找出表间关系为外键关系、 数据相等或数 据去空相等的两个字段, 且所述两个字段的原始数据来源于不同的业务系统时, 将该两个 字段作为主数据字段。 4.如权利要求2所述的构建数据仓库标准层的方法, 其特征在于, 获取所述表级知识图 谱的方法为: 获取数据库中各表所来自的业 务系统、 表名, 以及各表中的字段名; 针对各表, 根据表中字段的值, 分析各字段的特征; 以及针对各表, 根据表名、 字段名以 及字段的值, 计算获得表内各字段之间的表内函数依赖关系; 针对各表, 根据表内函数依赖关系识别出各表的主键, 并根据所述主键的特征在其他 表中寻找并确定与之对应的外 键, 在主键和外 键之间形成外 键关系; 将各表以及各表之间的外 键关系以可视化的图结构形式展示作为表级知识图谱。 5.如权利要求3所述的构建数据仓库标准层的方法, 其特征在于, 获取字段级知识图谱 中所述表间关系的方法为: 通过表内函数依赖关系, 确定外键所属的表A, 找到该外键字段的闭包, 将闭包内字段 去重后形成一张以该外 键的字段为主键的临时表B; 通过外键关系, 将主键所在表C作为左表, 以临时表B作为右表, 进行内连接形成一张新 的临时表D; 对临时表D中各字段在表 A和表C的值进行对比, 以形成如下表间关系:权 利 要 求 书 1/3 页 2 CN 115510021 A 2数据相等, 即表 A和表C之间字段在临时表D中两列数据完全相等; 数据去空相等, 即表 A和表C之间字段在临时表D中两列数据去除空值后相等。 6.一种构建数据仓库标准层的系统, 其特 征在于, 包括: 处理器; 数据库; 以及存 储器, 其中存 储有程序, 数据库存 储各表, 其中在所述处 理器执行所述程序时, 进行以下操作: 对于数据库中各表, 确定其是否为孤岛表, 将 非孤岛表作为表模型进放入标准层; 所述 孤岛表是指该表与其 他表不存在外 键关系; 对于数据库中各表的字段, 确定其是否为主数据字段; 当该字段为主数据字段时, 该字 段放入标准层; 当该字段不是主数据字段时, 如果其字段特征中的填充率大于阈值且为非 默认值时, 将该字段放入标准层; 当分析数据类型与原始类型不一致时, 字段类型判断数据比例为100%时推荐转换类 型; 如果为码值字段, 则推荐 进行配置码值 转换的规则。 7.如权利要求6所述的构建数据仓库标准层的系统, 其特征在于, 通过表级知识图谱确 定数据库中各表是否为孤岛表; 所述表级知识图谱是指将各表以及各表之间的外键关系以可视化的图结构展示的知 识图谱; 所述表级知识图谱包括节点和边, 每一个节点代表 一张表, 每一条边代表一种外键 关系; 通过表级知识图谱中各节点之间是否存在边来确定对应的表是否存在外键关系, 当某 一节点于其 他任何节点 不存在边时, 该节点代 表的表为孤岛表。 8.如权利要求6所述的构建数据仓库标准层的系统, 其特征在于, 通过字段级知识图谱 确定数据库中各表的字段 是否为主数据字段; 所述字段级知识图谱是指将各表的字段、 表间关系以可视化的图结构形式展示的知识 图谱; 所述字段级知识图谱包括节点和边, 每一个节点代表 一个字段, 每一条边代表一种字 段间关系; 所述表间关系体现为来自不同表的字段之间的关系, 至少包括外键关系、 数据相 等或数据去空相等; 在确定主数据字段时, 通过字段级知识图谱找出表间关系为外键关系、 数据相等或数 据去空相等的两个字段, 且所述两个字段的原始数据来源于不同的业务系统时, 将该两个 字段作为主数据字段。 9.如权利要求7所述的构建数据仓库标准层的系统, 其特征在于, 获取所述表级知识图 谱的方法为: 获取数据库中各表所来自的业 务系统、 表名, 以及各表中的字段名; 针对各表, 根据表中字段的值, 分析各字段的特征; 以及针对各表, 根据表名、 字段名以 及字段的值, 计算获得表内各字段之间的表内函数依赖关系; 针对各表, 根据表内函数依赖关系识别出各表的主键, 并根据所述主键的特征在其他 表中寻找并确定与之对应的外 键, 在主键和外 键之间形成外 键关系; 将各表以及各表之间的外 键关系以可视化的图结构形式展示作为表级知识图谱。 10.如权利要求8所述的构建数据仓库标准层的系统, 其特征在于, 获取字段级知识图 谱中所述表间关系的方法为: 通过表内函数依赖关系, 确定外键所属的表A, 找到该外键字段的闭包, 将闭包内字段权 利 要 求 书 2/3 页 3 CN 115510021 A 3

PDF文档 专利 一种构建数据仓库标准层的方法和系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种构建数据仓库标准层的方法和系统 第 1 页 专利 一种构建数据仓库标准层的方法和系统 第 2 页 专利 一种构建数据仓库标准层的方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。