全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211227641.1 (22)申请日 2022.10.09 (71)申请人 国家电网有限公司 地址 100031 北京市西城区西长安 街86号 申请人 国网湖北省电力有限公司   国家电网有限公司大 数据中心   北京国电通网络技 术有限公司   国网信息通信产业 集团有限公司 (72)发明人 丁勇 王端瑞 张朋 侯本忠  刘鑫 戚沁 胡璟懿 匡尧  程志华 王一蓉 苏良立 燕超源  王利军 侯崇才  (74)专利代理 机构 北京唯智勤实知识产权代理 事务所(普通 合伙) 11557 专利代理师 陈佳(51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06Q 40/00(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于审计信息的知识图谱构建方法、 装置和 电子设备 (57)摘要 本公开的实施例公开了基于审计信息的知 识图谱构建方法、 装置和电子设备。 该方法的一 具体实施方式包括: 获取待审计文本信息; 对待 审计文本信息进行文本抽取处理, 以生成文本信 息集合, 其中, 文本信息集合中的文本信息包括 目标数量个相邻的文本段; 对文本信息集合中的 每个文本信息进行实体和实体关系抽取, 以生成 实体对信息组, 得到实体对信息组集合, 其中, 实 体对信息组集合中的实体对信息组中的实体对 信息包括: 实体信息集合和关系信息; 根据实体 对信息组集合中的实体对信息包括的实体信息 集合和关系信息, 构建初始图谱网络; 对初始图 谱网络进行图谱网络优化, 以生成目标知识图 谱。 该实施方式提高了存储空间的使用效率和知 识图谱构建的准确率。 权利要求书3页 说明书14页 附图5页 CN 115481260 A 2022.12.16 CN 115481260 A 1.一种基于审计信息的知识图谱构建方法, 包括: 获取待审计文本信息; 对所述待审计文本信 息进行文本抽取处理, 以生成文本信 息集合, 其中, 所述文本信 息 集合中的文本信息包括目标 数量个相邻的文本段; 对所述文本信 息集合中的每个文本信 息进行实体和实体关系抽取, 以生成实体对信 息 组, 得到实体对信息组集合, 其中, 所述 实体对信息组集合中的实体对信息组中的实体对信 息包括: 实体信息集 合和关系信息; 根据所述实体对信 息组集合中的实体对信 息包括的实体信 息集合和关系信 息, 构建初 始图谱网络; 对所述初始图谱网络进行图谱网络优化, 以生成目标知识图谱。 2.根据权利要求1所述的方法, 其中, 所述对所述待审计文本信息进行文本抽取处理, 以生成文本信息集 合, 包括: 响应于确定所述待审计文本信 息中存在目标符号, 从所述待审计文本信 息中剔除所述 目标符号, 以生 成候选待审 计文本信息, 其中, 所述目标符号是预先构建的标识符号库中的 标识符号; 对所述候选待审计文本信息进行分段处 理, 以生成文本段信息序列; 以固定步长, 依次从所述文本段信息序列中选取所述目标数量个的相邻文本段, 作为 文本信息, 得到所述文本信息集 合。 3.根据权利要求1所述的方法, 其中, 所述方法还 包括: 获取基础 知识图谱; 对于所述目标知识图谱中的每 个第一实体节点, 执 行以下处 理步骤: 确定所述第一实体节点与所述基础知识图谱中的每个第二实体节点之间的实体相似 度, 以生成实体相似度信息, 得到实体相似度信息集 合; 响应于确定所述第 一实体节点满足第 一融合条件, 确定所述目标知识图谱中与所述第 一实体节点相连接的第一关系边, 得到 关系边信息集合, 其中, 所述第一融合条件为 实体相 似度信息集 合中存在对应相似度大于第一预设相似度的实体相似度信息; 确定所述关系边信息集合中的每个关系边信息与所述基础知识图谱中的每个第二关 系边之间的关系相似度, 以生成关系相似度信息, 得到关系相似度信息集 合; 响应于确定所述关系相似度信 息集合中存在至少一个目标关系相似度信 息, 将所述至 少一个目标关系相似度信息中的目标关系相似度信息对应的关系边和关系边相连接的两 个第一实体节点融合至所述基础知识图谱, 以生成 融合后的知识图谱, 其中, 所述至少一个 目标关系相似度信息中的目标关系相似度信息为满足第二融合条件的关系相似度信息, 所 述第二融合条件为关系相似度信息对应的关系相似度小于第二预设相似度。 4.根据权利要求1所述的方法, 其中, 所述对所述文本信 息集合中的每个文本信 息进行 实体和实体关系抽取, 以生成实体对信息组, 包括: 通过预先训练的语义 提取模型对所述文本信息进行语义 提取, 以生成语义特 征信息; 将所述语义特征信 息和所述文本信 息输入预先训练 的实体和实体关系抽取模型, 以生 成所述文本信息对应的实体对信息组。 5.根据权利要求4所述的方法, 其中, 所述根据所述实体对信 息组集合中的实体对信 息权 利 要 求 书 1/3 页 2 CN 115481260 A 2包括的实体信息集 合和关系信息, 构建初始图谱网络, 包括: 基于所述实体对信息组集 合和空图谱网络, 执 行以下图谱网络生成步骤: 从所述实体对信 息组集合中选取一个实体对信 息, 以生成目标实体对信 息和候选实体 对信息组集 合, 其中, 候选实体对信息组集 合中不包 含目标实体对信息; 响应于确定空图谱 网络中不包含目标实体对信 息对应的两个实体节点和关系边, 将所 述目标实体对信息对应的实体节点和关系边添加至空图谱网络, 以生成候选图谱网络; 响应于确定空图谱 网络中包含目标实体对信 息对应的两个实体节点和关系边, 增加空 图谱网络中与目标实体对信息对应的关系边的权 重, 以生成候选图谱网络; 响应于确定候选实体对信息组集合为空, 将候选 图谱网络确定为所述初始图谱网络, 以及结束所述图谱网络生成步骤; 响应于确定候选实体对信 息组集合不为空, 将候选实体对信 息组集合确定为实体对信 息组集合, 以及将候选图谱网络确定为空图谱网络, 再次执 行所述图谱网络生成步骤。 6.根据权利要求1所述的方法, 其中, 所述对所述初始图谱网络进行图谱网络优化, 以 生成目标知识图谱, 包括: 从所述初始图谱 网络中剔除目标实体节点对, 以生成所述目标知识图谱, 其中, 所述目 标实体节点对为所述初始图谱网络中通过一条关系边相连接的、 且满足实体节点剔除条件 的两个第一实体节点。 7.根据权利要求3所述的方法, 其中, 所述方法还 包括: 响应于确定所述融合后的知识图谱中存在目标实体节点, 将所述目标实体节点对应的 实体信息添加至预先构建的实体知识库中, 其中, 所述 目标实体节点为对应的实体信息未 存在于所述实体知识库的实体节点。 8.一种基于审计信息的知识图谱构建装置, 包括: 获取单元, 被配置成获取待审计文本信息; 文本抽取处理单元, 被配置成对所述待审计文本信息进行文本抽取处理, 以生成文本 信息集合, 其中, 所述文本信息集 合中的文本信息包括目标 数量个相邻的文本段; 实体和实体关系抽取单元, 被配置成对所述文本信 息集合中的每个文本信 息进行实体 和实体关系抽取, 以生成实体对信息组, 得到实体对信息组集合, 其中, 所述实体对信息组 集合中的实体对信息组中的实体对信息包括: 实体信息集 合和关系信息; 构建单元, 被配置成根据所述实体对信 息组集合中的实体对信 息包括的实体信 息集合 和关系信息, 构建初始图谱网络; 图谱网络优化单元, 被配置成对所述初始图谱网络进行图谱网络优化, 以生成目标知 识图谱。 9.根据权利要求8所述的基于审计信 息的知识图谱构建装置, 其中, 所述构建单元被进 一步配置成: 基于所述实体对信息组集 合和空图谱网络, 执 行以下图谱网络生成步骤: 从所述实体对信 息组集合中选取一个实体对信 息, 以生成目标实体对信 息和候选实体 对信息组集 合, 其中, 候选实体对信息组集 合中不包 含目标实体对信息; 响应于确定空图谱 网络中不包含目标实体对信 息对应的两个实体节点和关系边, 将所 述目标实体对信息对应的实体节点和关系边添加至空图谱网络, 以生成候选图谱网络;权 利 要 求 书 2/3 页 3 CN 115481260 A 3

.PDF文档 专利 基于审计信息的知识图谱构建方法、装置和电子设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于审计信息的知识图谱构建方法、装置和电子设备 第 1 页 专利 基于审计信息的知识图谱构建方法、装置和电子设备 第 2 页 专利 基于审计信息的知识图谱构建方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。