全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210751615.2 (22)申请日 2022.06.29 (71)申请人 江苏昆山农村商业银行股份有限公 司 地址 215334 江苏省苏州市昆山市前进东 路828号 (72)发明人 邵宏力 杨立才 邓知知 胡超  刘磊 李云  (74)专利代理 机构 国浩律师(南京)事务所 32284 专利代理师 孟睿 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/22(2019.01) G06F 16/28(2019.01)G06F 16/26(2019.01) G06F 16/25(2019.01) (54)发明名称 一种基于表数据的知识图谱构建方法和系 统 (57)摘要 本发明涉及一种基于表数据的知识图谱构 建方法和系统。 步骤包括: 获取用于构建知识图 谱的各表的表名, 以及各表中的字段名; 针对各 表, 根据表中字段的值, 分析各字段的特征; 以及 针对各表, 根据表名、 字段名以及字段的值, 计算 获得表内各字段之间的表内函数依赖关系; 针对 各表, 根据表内函数依赖关系识别出各表的主 键, 并根据所述主键的特征在其他表中寻找并确 定与之对应的外键, 在主键和外键之间形成外键 关系; 将各表以及各表之间的外键关系以可视化 的图结构形式展示作为表级知识图谱。 本发明一 次分析即可形成数据画像, 支持持续的增量更 新。 权利要求书2页 说明书17页 附图4页 CN 115292508 A 2022.11.04 CN 115292508 A 1.一种基于表数据的知识图谱构建方法, 其特 征在于, 获取用于构建知识图谱的各表的表名, 以及各表中的字段名; 针对各表, 根据表中字段的值, 分析各字段的特征; 以及针对各表, 根据表名、 字段名以 及字段的值, 计算获得表内各字段之间的表内函数依赖关系; 针对各表, 根据表内函数依赖关系识别出各表的主键, 并根据所述主键的特征在其他 表中寻找并确定与之对应的外 键, 在主键和外 键之间形成外 键关系; 将各表以及各表之间的外 键关系以可视化的图结构形式展示作为表级知识图谱。 2.如权利要求1所述的基于表数据的知识图谱构建方法, 其特 征在于, 所述特征包括定性特征和定量特征; 所述定性特征包括字段的数据类型, 所述定量特 征包括字段的长度; 寻找并确定外键时, 将其他表中与主键数据类型和字段长度相匹配的字段作为外键, 所述与主键数据类型和字段长度相匹配的字段是指, 该字段的数据类型与主键数据类型相 同, 该字段的最小长度大于或等于主键的最小长度、 最大长度小于或等于主键的最大长度。 3.如权利要求2所述的基于表数据的知识图谱构建方法, 其特征在于, 寻找并确定外键 时, 包括: 依次遍历主键, 对每 个主键的值 通过Hash方法生成对应的布隆过 滤器; 将所述与主键数据类型和字段长度相匹配的字段的值与对应该主键的布隆过滤器进 行比较, 当主外 键数据覆盖率大于预 先设定的阈值时, 将该字段作为 最终确定的外 键。 4.如权利要求1所述的基于表数据的知识图谱构建方法, 其特 征在于, 所述主键为 候选码集 合; 获得表内各字段之间的函数依赖关系后, 针对函数依赖推导层小于等于阈值的函数依 赖关系集 合, 使用快速求 候选码的方法进行候选码求 解。 5.如权利要求 4所述的基于表数据的知识图谱构建方法, 其特 征在于, 当求解出的主键为单一字段的主键时, 将其字段行数与字段去重后行数进行比较, 如 果字段行数与字段去重后行 数相等, 则将其作为 最终的主键; 当求解出的主键为联合主键时, 使用SQL对联合主键的字段计算其联合和的去重行数, 当与表的记录行 数相等时, 则将其作为 最终的联合主键 。 6.如权利要求1所述的基于表数据的知识图谱构建方法, 其特 征在于, 所述表级知识图谱 包括节点和边; 其中, 每一个节点代表一张表, 每个节点存储有代表该表的信息, 代表该表的信息至少包括 表名; 每一条边代表一种外键关系, 每条边都为有向边; 其中, 边出发的节点为主键所属的 表, 边指向的节点为外键所属的表; 每条边上存储有外键 关系信息, 所述外键关系信息为主 键的字段名、 外 键的字段名以及主外 键数据覆盖率中的一种或多种信息 。 7.如权利要求6所述的基于表数据的知识图谱构建方法, 其特征在于, 还包括构建字段 级知识图谱; 将各表的字段、 表内函数依赖 关系、 各表间关系以可视化的图结构形式展示作 为字段级知识图谱; 获取表间关系的方法为: 通过表内函数依赖关系, 确定外键所属的表A, 找到该外键字段的闭包, 将闭包内字段权 利 要 求 书 1/2 页 2 CN 115292508 A 2去重后形成一张以该外 键的字段为主键的临时表B; 通过外键关系, 将主键所在表C作为左表, 以临时表B作为右表, 进行内连接形成一张新 的临时表D; 就临时表D中的各字段, 计算各字段之间的函数依赖关系, 形成表间函数依赖关系, 包 括: 表间单向函数依赖, 即表 A和表C之间的字段在临时表D中存在单向依赖关系; 表间双向函数依赖, 即表 A和表C之间字段在临时表D中存在 双向依赖关系; 对临时表D中各字段在表 A和表C的值进行对比, 以形成表间数据关系, 包括: 表间数据相等, 即表 A和表C之间字段在临时表D中两列数据完全相等; 表间数据去空相等, 即表 A和表C之间字段在临时表D中两列数据去除空值后相等; 在字段级知识图谱中以可视化的图结构形式展示的各表间关系是指前述经计算获得 的表间单向依赖、 表间双向依赖、 表间数据相等或表间数据去空相等中的一种或多种关系。 8.如权利要求7 所述的基于表数据的知识图谱构建方法, 其特 征在于, 所述字段级知识图谱 包括节点和边, 其中, 每一个节点代表一个字段, 每个节点存储有代表该字段的信息, 代表该字段的信息至 少包括字段 所述表的表名以及该字段的字段名; 每一条边代 表一种字段间关系, 所述字段间关系包括以下关系中的一种或多种: 外键关系; 联合外键关系; 表内函数依赖关系; 表间单向函数依赖关系; 表间双向函数依赖关系; 表间数据相等关系; 表间数据去空相等关系。 9.如权利要求1 ‑8任一权项所述的基于表数据的知识图谱构建方法, 其特征在于, 各步 骤的计算结果以表格形式存 储。 10.一种基于表数据的知识图谱构建系统, 其特 征在于, 包括: 处理器; 数据库; 以及存 储器, 其中存 储有程序, 其中在所述处理器执行所述程序时, 实施权利要求1 ‑8任一权项所述的知识图谱构建 方法。权 利 要 求 书 2/2 页 3 CN 115292508 A 3

PDF文档 专利 一种基于表数据的知识图谱构建方法和系统

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于表数据的知识图谱构建方法和系统 第 1 页 专利 一种基于表数据的知识图谱构建方法和系统 第 2 页 专利 一种基于表数据的知识图谱构建方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。