全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921904.2 (22)申请日 2022.08.02 (71)申请人 北京科技大 学 地址 100083 北京市海淀区学院路3 0号 (72)发明人 付冬梅 宋广轩 陈东辉 张达威  马菱薇 李晓刚  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 杜阳阳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01)G06K 9/62(2022.01) (54)发明名称 一种钢铁材料学知识图谱构建方法及系统 (57)摘要 本发明提出了一种钢铁材料学知识图谱构 建方法及系统, 属于知识图谱构建技术领域, 在 钢铁材料学的众多文本信息中自动化确定领域 内的核心概念词, 并根据核心概念词自动获取相 关的领域数据, 利用TransE模型 获取初始知 识图 谱中的实体向量, 进而能自动进行 实体向量融合 与领域数据聚类, 并且能够根据聚类结果更新核 心概念层, 并完成对知识图谱的更新, 最终构建 的钢铁材料学知识 图谱能够对钢铁材料领域的 知识数据进行简单清晰的表达, 有助于提高钢铁 材料领域知识的利用率。 权利要求书4页 说明书12页 附图3页 CN 115238040 A 2022.10.25 CN 115238040 A 1.一种钢铁材料学知识图谱构建方法, 其特征在于, 所述钢铁材料学知识图谱构建方 法包括: 获取钢铁材料学的文本信息, 从各文本信息中选取若干个核心概念词, 构建核心概念 层; 根据所述核心概念层, 获取与 各核心概念词相关的领域数据, 得到领域数据库; 所述领 域数据库中包括结构化的领域数据和非结构化的领域数据; 利用IDCNN ‑CRF模型对非结构化的所述领域数据进行实体提取和属性提取, 得到结构 化的领域数据; 根据结构化的各领域数据和各领域数据之间的词间关系, 构建初始知识图谱; 所述初 始知识图谱中包括若干个实体三元组, 所述实体三元组包括头部实体、 尾部实体和头尾关 系; 利用TransE模型将各实体三元组转换为实体向量, 计算各实体向量两两之间的相似度 评分, 并将相似度评分大于预设阈值的两个实体向量融合, 得到融合知识图谱; 对所述融合知识图谱中的实体进行聚类, 判断是否存在新的核心概念词, 得到第一判 断结果; 若所述第一判断结果为是, 则将所述新的核心概念词更新到所述核心概念层中, 并跳 转到步骤“根据所述核心概念层, 获取与各核心概念词相关的领域数据, 得到领域数据库 ”; 若所述第一判断结果 为否, 则将所述融合知识图谱作为 最终的钢铁材 料学知识图谱。 2.根据权利要求1所述的钢铁材料学知识图谱构建方法, 其特征在于, 所述获取钢铁材 料学的文本信息, 从各文本信息中选取若干个核心概念词, 构建核心概念层, 具体包括: 获取钢铁材 料学的若干条文本信息; 对各所述文本信 息进行分词处理, 得到若干个词语, 以及各所述词语的词性、 各所述词 语所属的文本信息和各 所述词语在所属文本信息中的位置; 对各所述词语进行去重, 并按照各所述词语的词性, 对各所述词语进行过滤, 保留词性 为名词, 机构团体, 专用名词, 动词和动名词的词语, 作为保留词语集; 计算所述保留词语集 中各词语的TF ‑IDF分数, 并按照TF ‑IDF分数将各所述词语进行降 序排序; 选择排名前topN个词语作为核心关键词; 根据各所述核心关键词在所属文本信 息中的位置, 在所述核心关键词前后分别记载的 若干个词语中, 选取出现频次大于其他词语出现频次的词语作为核心关联词; 所述核心关 键词和所述核心关联词共同组成核心概念词; 根据各核心概念词之间的词间关系, 构建核心概念层; 所述词间关系包括: 上下关系、 同义关系 、 属性关系 、 概念实例关系以及一般关系。 3.根据权利要求2所述的钢铁材料学知识图谱构建方法, 其特征在于, 根据下式计算所 述保留词语集中各词语的TF ‑IDF分数: 其中, Fm表示所述词 语在各文本信息中出现的次数, N表示所述保留词语集中的词语数权 利 要 求 书 1/4 页 2 CN 115238040 A 2量, Dm表示包括所述词语的文本信息数量, i表示文本信息数量。 4.根据权利要求1所述的钢铁材料学知识图谱构建方法, 其特征在于, 在所述利用 IDCNN‑CRF模型对非结构化的所述领域数据进行实体提取和属性提取之前, 所述钢铁材料 学知识图谱构建方法还 包括: 针对任一非结构化的领域数据, 利用分词算法对所述领域数据进行分词处理, 根据各 分词的词向量计算得到所述领域数据的句向量; 根据各非结构化的领域数据的句向量, 利用k ‑means聚类算法对各非结构化的领域数 据进行聚类, 得到若干个聚类分堆; 分别在各聚类分堆中选取等比例的非结构化的领域数据作为人工标注集; 所述人工标 注集中包括若干个非结构化的领域数据以及各非结构化的领域数据每个字的标注标签; 所 述标注标签包括: 实体、 属性、 属性 值以及无关值; 将所述人工标注集, 按照预设比例分为训练集、 验证集和 测试集; 利用所述训练集训练IDCNN ‑CRF模型, 将非结构化的领域数据作 为输入, 将非结构化的 领域数据每 个字的标注标签作为目标输出, 得到初始IDCN N‑CRF模型; 利用所述验证集对所述初始IDCNN ‑CRF模型的超参数进行调整, 得到调整IDCNN ‑CRF模 型; 将所述测试集输入所述调整IDCNN ‑CRF模型中, 根据所述调整IDCNN ‑CRF模型对非结构 化的领域数据预测输出的每个字的标注标签和测试集中非结构化的领域数据每个字的标 注标签计算评价指标; 若所述评价指标高于预设指标阈值, 则利用所述调整IDCNN ‑CRF对非结构化的所述领 域数据进行实体提取和 属性提取, 得到结构化的领域数据; 若所述评价指标低于预设指标阈值, 则对人工标注集进行重新标注, 并跳转指步骤 “将 非结构化的领域数据作为输入, 将非结构化的领域数据每个字的标注标签作为目标输出, 利用所述训练集训练IDCN N‑CRF模型, 得到初始IDCN N‑CRF模型”。 5.根据权利 要求1所述的钢铁材料学知识图谱构建方法, 其特征在于, 所述TransE模型 的损失函数如下式所示: 其中, S表示所述初始知识图谱的三元组集合; (Eh,El,Et)为三元组集合中的一个三元 组, Eh为三元组中的头部实体, El为三元组中的头尾关系, Et为三元组中的尾部实体, (Eh`, El,Et`)为将三元组的头部实体和尾部实体随机替换后的负例三元 组, γ表示为正确三元 组 和所述负例三元组的容许误差, | |2表示L2范数, []+表示合页损失函数, 取非负结果。 6.根据权利要求1所述的钢铁材料学知识图谱构建方法, 其特征在于, 根据下式计算各 实体向量两 两之间的相似度评分, 具体包括: 其中, EA和EB分别表示 不同的实体向量, n 为实体向量的维度。权 利 要 求 书 2/4 页 3 CN 115238040 A 3

.PDF文档 专利 一种钢铁材料学知识图谱构建方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种钢铁材料学知识图谱构建方法及系统 第 1 页 专利 一种钢铁材料学知识图谱构建方法及系统 第 2 页 专利 一种钢铁材料学知识图谱构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。