专利基于知识图谱的开放领域问答方法及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210964248.4 (22)申请日 2022.08.11 (71)申请人天津泰凡科技有限公司地址 300300 天津市滨海新区经济技术开发区第二大街泰达MSD-G1座11层 1102-108 (72)发明人贾勇哲　马国宁　王林　徐大为　 (74)专利代理机构北京风雅颂专利代理有限公司 11403 专利代理师金含 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06K 9/62(2022.01) (54)发明名称基于知识图谱的开放领域问答方法及相关设备 (57)摘要本申请提供了一种基于知识图谱的开放领域问答方法及相关设备，该方法通过多种匹配方法对问题描述的实体和属性进行提取得到实体属性候选集，能够有效提升实体属性抽取的召回率，避免漏掉问题描述中的隐层信息。基于实体属性候选集进行路径挖掘以得到初始路径，再对初始路径进行组合和筛选以得到带有限制条件的限制组合路径，能够有效降低无效路径的召回，针对多限制问题描述进行精确路径建模，进而降低后续针对路径的算力成本。通过分类模型输出限制组合路径和问题描述的相似度得分，将相似度得分得分最高的限制组合路径对应的知识图谱子图作为推荐答案数据，提升用户的体验感。权利要求书2页说明书11页附图3页 CN 115470328 A 2022.12.13 CN 115470328 A 1.一种基于知识图谱的开放领域问答方法，其特征在于，包括：获取用户输入的问题描述；采用匹配方法对所述问题描述中的实体和属性进行提取，以得到实体属性候选集；基于所述实体属性候选集中的实体和属性，在预先构建的知识图谱中进行路径挖掘，以得到多个初始路径；对全部所述初始路径进行组合，得到多个组合路径；对全部所述组合路径进行筛选，以得到多个限制组合路径；将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测，得到所述限制组合路径与所述问题描述的相似度分数；将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。 2.根据权利要求1所述的方法，其特征在于，所述采用匹配方法对所述问题描述中的实体和属性进行提取，以得到实体属性候选集，包括：通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取，以得到所述实体属性候选集。 3.根据权利要求2所述的方法，其特征在于，所述实体属性候选集包括第一候选集和第二候选集，所述通过精确匹配方法和模糊匹配方法分别对所述问题描述中的实体和属性进行提取，以得到所述实体属性候选集，包括：将所述问题描述与预先构建的字典树进行匹配，以得到所述第一候选集；分别采用倒排索引方法和命名实体识别方法对所述问题描述中的实体进行提取，分别采用Duckling数值抽取方法和Lucene索引方法对所述问题描述中的属性进行提取，以得到所述第二候选集。 4.根据权利要求1所述的方法，其特征在于，所述对全部所述初始路径进行组合，得到多个组合路径，包括：将具有相同答案节点的所述初始路径进行组合，得到所述组合路径。 5.根据权利要求1所述的方法，其特征在于，所述对全部所述组合路径进行筛选，以得到多个限制组合路径，包括：基于所述问题描述确定与其关联的推理变量以及约束条件；根据推理变量的数值大小对全部所述组合路径进行排序，将满足所述约束条件的所述组合路径作为所述限制组合路径。 6.根据权利要求1所述的方法，其特征在于，所述预训练，包括：构建正样本训练集和负样本训练集；将所述正样本训练集和负样本训练集划分为多组正样本子训练集和负样本子训练集，每组正样本子训练集和负样本子训练集对应所述预训练的多轮训练中的一轮训练；对于所述多轮训练中的每轮训练，基于正样本子训练集和负样本子训练集，采用交叉熵损失函数对所述分类模型进行训练；从所述负样本训练集中随机选取N条负样本对经过当前轮训练的所述分类模型进行测试，得到测试结果，其中， N 为正整数；权　利　要　求　书 1/2 页 2 CN 115470328 A 2将不符合预设阈值的测试结果对应的所述负样本添加至下一轮训练对应的负样本子训练集中；响应于达到所述预训练的预设截止条件时，停止所述预训练。 7.根据权利要求1所述的方法，其特征在于，所述分类模型至少包括BERT模型、 ERNIE模型、 BERT‑wwm模型和RoBERTa ‑wwn模型。 8.一种基于知识图谱的开放领域问答装置，其特征在于，包括：获取模块，被配置为获取用户输入的问题描述；提取模块，被配置为采用匹配方法对所述问题描述中的实体和属性进行提取，以得到实体属性候选集；初始路径挖掘模块，被配置为基于所述实体属性候选集中的实体和属性，在预先构建的知识图谱中进行路径挖掘，以得到多个初始路径；组合模块，被配置为对全部所述初始路径进行组合，得到多个组合路径；筛选模块，被配置为对全部所述组合路径进行筛选，以得到多个限制组合路径；分类预测模块，被配置为将每个所述限制组合路径与所述问题描述输入至经过预训练的分类模型中进行分类预测，得到所述限制组合路径与所述问题描述的相似度分数；推荐模块，被配置为将最大所述相似度分数对应的所述限制组合路径在所述知识图谱中匹配的子图作为所述问题描述的推荐答案数据。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。 10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。权　利　要　求　书 2/2 页 3 CN 115470328 A 3

专利 基于知识图谱的开放领域问答方法及相关设备

专利基于知识图谱的开放领域问答方法及相关设备