专利信息溯源方法和装置、及存储介质和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211248880.5 (22)申请日 2022.10.12 (71)申请人北京金堤科技有限公司地址 100086 北京市海淀区知春路6 5号院1 号楼B座20层20 01号 (72)发明人李凯　 (74)专利代理机构北京市浩天知识产权代理事务所(普通合伙) 11276 专利代理师宋菲 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/383(2019.01) G06F 16/955(2019.01) G06F 40/194(2020.01) G06F 40/258(2020.01)G06Q 30/00(2012.01) (54)发明名称信息溯源方法和装置、及存储介质和电子设备 (57)摘要本发明提供了一种信息溯源方法和装置、及存储介质和电子设备，其中，该方法包括：根据第一预设匹配规则，提取溯源文档中的所有链接；遍历链接，解析出每个链接对应的链接文档的链接文档标题；筛选出大于或者等于预设标题字符数量的链接文档标题作为第一相似标题；根据溯源文档的标题和第一相似标题，从第一相似标题中筛选出第二相似标题，并将其对应的链接文档作为相似文档；根据溯源文档的文本内容和相似文档的文本内容，计算溯源文档的文本内容与相似文档的文本内容的文本相似度，并将最大的文本相似度对应的相似文档作为溯源文档的源文档。本发明能够准确、快速地获取到溯源文档的源文档，为信息溯源追踪提供了便利。权利要求书3页说明书12页附图4页 CN 115329050 A 2022.11.11 CN 115329050 A 1.一种信息溯源方法，其特征在于，所述方法包括：根据第一预设匹配规则，提取溯源文档中的所有链接；遍历所述链接，解析出每个所述链接对应的链接文档的链接文档标题；筛选出大于或者等于预设标题字符数量的所述链接文档标题作为第一相似标题；获取所述溯源文档的标题，并根据所述溯源文档的标题和所述第一相似标题，从所述第一相似标题中筛选出第二相似标题，并将其对应的链接文档作为相似文档；获取所述溯源文档的文本内容以及所述相似文档的文本内容，根据所述溯源文档的文本内容和所述相似文档的文本内容，计算所述溯源文档的文本内容与所述相似文档的文本内容的文本相似度，并将最大的所述文本相似度对应的所述相似文档作为所述溯源文档的源文档。 2.根据权利要求1所述的方法，其特征在于，若所述溯源文档中不存在所述链接，或者所述链接文档中不存在所述相似文档，所述方法还包括：从所述溯源文档的文本内容中提取预设数量的字符作为筛选文本，并根据第二预设匹配规则，从所述筛选文本中提取筛选文本关键字；查找预设文档关键字库中是否存在所述筛选文本关键字；若存在，将所述预设文档关键字库中包括所述筛选文本关键字的预设文档作为所述相似文档。 3.根据权利要求1所述的方法，其特征在于，若所述溯源文档中不存在所述链接，或者所述链接文档中不存在所述相似文档，所述方法还包括：若不存在，确定所述溯源文档不存在所述源文档；或者，若不存在，将所述溯源文档的标题转发至目标搜索引擎进行搜索操作，得到至少一个搜索文档链接；获取所述搜索文档链接对应的搜索文档的文本内容；根据所述溯源文档的文本内容和所述搜索文档的文本内容，计算所述溯源文档的文本内容与所述搜索文档的文本内容的文本相似度，并将最大的所述文本相似度对应的所述搜索文档作为所述溯源文档的源文档。 4.根据权利要求2所述的方法，其特征在于，所述方法还包括：若不存在，确定所述溯源文档不存在所述源文档；或者，若不存在，将所述筛选文本关键字转发至目标搜索引擎进行搜索操作，得到至少一个搜索文档链接；获取所述搜索文档链接对应的搜索文档的文本内容；根据所述溯源文档的文本内容和所述搜索文档的文本内容，计算所述溯源文档的文本内容与所述搜索文档的文本内容的文本相似度，并将最大的所述文本相似度对应的所述搜索文档作为所述溯源文档的源文档。 5.根据权利要求1所述的方法，其特征在于，所述获取所述溯源文档的标题，并根据所述溯源文档的标题和所述第一相似标题，从所述第一相似标题中筛选出第二相似标题，并将其对应的链接文档作为相似文档，包括：获取所述溯源文档的标题；根据所述溯源文档的标题和所述第一相似标题，计算所述溯源文档的标题与所述第一权　利　要　求　书 1/3 页 2 CN 115329050 A 2相似标题的标题相似度；基于预设标题相似度阈值和所述标题相似度，从所述第一相似标题中筛选出第二相似标题，并将其对应的链接文档作为相似文档。 6.根据权利要求2所述的方法，其特征在于，所述从所述溯源文档的文本内容中提取预设数量的字符作为筛选文本，并根据第二预设匹配规则，从所述筛选文本中提取筛选文本关键字，包括：分别提取所述溯源文档的文本内容的前M个字符和后N个字符，其中， M、 N 为正整数；将所述溯源文档的文本内容的前M个字符和后N个字符进行拼接作为所述筛选文本；根据正则表达规则，从所述筛选文本中提取符合所述正则表达规则的筛选文本关键字。 7.根据权利要求1所述的方法，其特征在于，所述根据所述溯源文档的文本内容和所述相似文档的文本内容，计算所述溯源文档的文本内容与所述相似文档的文本内容的文本相似度，包括：根据预设标识字符，分别对所述溯源文档的文本内容和所述相似文档的文本内容进行分句处理；分别提取分句处理后的所述溯源文档的文本内容和所述相似文档的文本内容中的最长的预设条数的语句；分别将所述溯源文档的文本内容中的最长的预设条数的语句与所述相似文档的文本内容中的最长的预设条数的语句按照由长到短或者由短到长的顺序排序；根据预设算法，将排序后的所述溯源文档的文本内容中的最长的预设条数的语句分别与所述相似文档的文本内容中的最长的预设条数的语句一一对应进行比较，计算所述溯源文档的文本内容与所述相似文档的文本内容的文本相似度。 8.根据权利要求1所述的方法，其特征在于，若最大的所述文本相似度对应的所述相似文档的数量为多个，所述方法还包括：获取多个所述相似文档的网页源代码；响应于对每个所述网页源代码中的时间属性标签的查找操作，获取多个所述相似文档的发文时间；将多个所述相似文档的发文时间按照时间先后顺序进行排序，将最靠前的所述发文时间对应的所述相似文档作为所述溯源文档的源文档。 9.根据权利要求8所述的方法，其特征在于，若最靠前的所述发文时间对应的所述相似文档的数量为多个或者多个所述相似文档都不存在所述发文时间，所述方法还包括：分别提取多个所述相似文档的文本内容的前L个字符，得到与所述相似文档对应的提取文本，其中， L 为正整数；根据预设的时间正则表达规则，从每个所述提取文本中提取符合所述时间正则表达规则的发文时间；将多个所述相似文档的发文时间按照时间先后顺序进行排序，将最靠前的所述发文时间对应的所述相似文档作为所述溯源文档的源文档。 10.一种信息溯源装置，其特征在于，所述装置包括：提取模块，用于根据第一预设匹配规则，提取溯源文档中的所有链接；权　利　要　求　书 2/3 页 3 CN 115329050 A 3

专利 信息溯源方法和装置、及存储介质和电子设备

专利信息溯源方法和装置、及存储介质和电子设备