全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211248880.5 (22)申请日 2022.10.12 (71)申请人 北京金堤科技有限公司 地址 100086 北京市海淀区知春路6 5号院1 号楼B座20层20 01号 (72)发明人 李凯  (74)专利代理 机构 北京市浩天知识产权代理事 务所(普通 合伙) 11276 专利代理师 宋菲 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/383(2019.01) G06F 16/955(2019.01) G06F 40/194(2020.01) G06F 40/258(2020.01)G06Q 30/00(2012.01) (54)发明名称 信息溯源 方法和装置、 及存储介质和电子设 备 (57)摘要 本发明提供了一种信息溯源方法和装置、 及 存储介质和电子设备, 其中, 该方法包括: 根据第 一预设匹配规则, 提取溯源文档中的所有链接; 遍历链接, 解析出每个链接对应的链接文档的链 接文档标题; 筛选出大于或者等于预设标题字 符 数量的链接文档标题作为第一相似 标题; 根据溯 源文档的标题和第一相似 标题, 从第一相似 标题 中筛选出第二相似标题, 并将其对应的链接文档 作为相似文档; 根据溯源文档的文本内容和相似 文档的文本内容, 计算溯源文档的文本内容与相 似文档的文本内容的文本相似度, 并将最大的文 本相似度对应的相似文档作为溯源文档的源文 档。 本发明能够准确、 快速地获取到溯源文档的 源文档, 为信息溯源 追踪提供了 便利。 权利要求书3页 说明书12页 附图4页 CN 115329050 A 2022.11.11 CN 115329050 A 1.一种信息溯源方法, 其特 征在于, 所述方法包括: 根据第一预设匹配规则, 提取溯源文档中的所有链接; 遍历所述链接, 解析 出每个所述链接对应的链接文档的链接文档标题; 筛选出大于或者 等于预设标题字符数量的所述链接文档标题作为第一相似标题; 获取所述溯源文档的标题, 并根据所述溯源文档的标题和所述第一相似标题, 从所述 第一相似标题中筛 选出第二相似标题, 并将其对应的链接文档作为相似文档; 获取所述溯源文档的文本 内容以及所述相似文档的文本 内容, 根据所述溯源文档的文 本内容和所述相似文档的文本内容, 计算所述溯源文档的文本内容与所述相似文档的文本 内容的文本相似度, 并将最大的所述文本相似度对应的所述相似文档作为所述溯源文档的 源文档。 2.根据权利要求1所述的方法, 其特征在于, 若所述溯源文档 中不存在所述链接, 或者 所述链接文档中不存在所述相似文档, 所述方法还 包括: 从所述溯源文档的文本内容中提取预设数量的字符作为筛选文本, 并根据第 二预设匹 配规则, 从所述筛 选文本中提取筛 选文本关键 字; 查找预设文档关键 字库中是否存在所述筛 选文本关键 字; 若存在, 将所述预设文档关键字库中包括所述筛选文本关键字的预设文档作为所述相 似文档。 3.根据权利要求1所述的方法, 其特征在于, 若所述溯源文档 中不存在所述链接, 或者 所述链接文档中不存在所述相似文档, 所述方法还 包括: 若不存在, 确定所述溯源文档不存在所述源文档; 或者, 若不存在, 将所述溯源文档的标题转发至目标搜索引擎进行搜索操作, 得到至少 一个搜索文档链接; 获取所述搜索文档链接对应的搜索文档的文本内容; 根据所述溯源文档的文本 内容和所述搜索文档的文本 内容, 计算所述溯源文档的文本 内容与所述搜索 文档的文本内容的文本相似度, 并将最大的所述文本相似度对应的所述搜 索文档作为所述溯源文档的源文档。 4.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 若不存在, 确定所述溯源文档不存在所述源文档; 或者, 若不存在, 将所述筛选文本关键字转发至目标搜索引擎进行搜索操作, 得到至少 一个搜索文档链接; 获取所述搜索文档链接对应的搜索文档的文本内容; 根据所述溯源文档的文本 内容和所述搜索文档的文本 内容, 计算所述溯源文档的文本 内容与所述搜索 文档的文本内容的文本相似度, 并将最大的所述文本相似度对应的所述搜 索文档作为所述溯源文档的源文档。 5.根据权利要求1所述的方法, 其特征在于, 所述获取所述溯源文档的标题, 并根据所 述溯源文档的标题和所述第一相似标题, 从所述第一相似标题中筛选出第二相似标题, 并 将其对应的链接文档作为相似文档, 包括: 获取所述溯源文档的标题; 根据所述溯源文档的标题和所述第 一相似标题, 计算所述溯源文档的标题与 所述第一权 利 要 求 书 1/3 页 2 CN 115329050 A 2相似标题的标题相似度; 基于预设标题相似度阈值和所述标题相似度, 从所述第 一相似标题中筛选出第 二相似 标题, 并将其对应的链接文档作为相似文档。 6.根据权利要求2所述的方法, 其特征在于, 所述从所述溯源文档的文本内容中提取预 设数量的字符作为筛选文本, 并根据第二预设匹配规则, 从所述筛选文本中提取筛选文本 关键字, 包括: 分别提取 所述溯源文档的文本内容的前M个字符和后N个字符, 其中, M、 N 为正整数; 将所述溯源文档的文本内容的前M个字符和后N个字符进行拼接作为所述筛 选文本; 根据正则表达规则, 从所述筛选文本中提取符合所述正则表达规则的筛选文本关键 字。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述溯源文档的文本 内容和所述 相似文档的文本内容, 计算所述溯源文档的文本内容与所述相似文档的文本内容的文本相 似度, 包括: 根据预设标识字符, 分别对所述溯源文档的文本 内容和所述相似文档的文本 内容进行 分句处理; 分别提取分句处理后的所述溯源文档的文本内容和所述相似文档的文本内容中的最 长的预设条 数的语句; 分别将所述溯源文档的文本内容中的最长的预设条数的语句与所述相似文档的文本 内容中的最长的预设条 数的语句按照由长 到短或者由短到 长的顺序排序; 根据预设算法, 将排序后的所述溯源文档的文本 内容中的最长的预设条数的语句分别 与所述相似文档的文本内容中的最长的预设条数的语句一一对应进行比较, 计算所述溯源 文档的文本内容与所述相似文档的文本内容的文本相似度。 8.根据权利要求1所述的方法, 其特征在于, 若最大的所述文本相似度对应的所述相似 文档的数量 为多个, 所述方法还 包括: 获取多个所述相似文档的网页源代码; 响应于对每个所述网页源代码中的时间属性标签的查找操作, 获取多个所述相似文档 的发文时间; 将多个所述相似文档的发文时间按照时间先后 顺序进行排序, 将最靠前的所述发文时 间对应的所述相似文档作为所述溯源文档的源文档。 9.根据权利要求8所述的方法, 其特征在于, 若最靠前的所述发文时间对应的所述相似 文档的数量 为多个或者多个所述相似文档都不存在所述发文时间, 所述方法还 包括: 分别提取多个所述相似文档的文本内容的前L个字符, 得到与所述相似文档对应的提 取文本, 其中, L 为正整数; 根据预设的时间正则表达规则, 从每个所述提取文本 中提取符合所述 时间正则表达规 则的发文时间; 将多个所述相似文档的发文时间按照时间先后 顺序进行排序, 将最靠前的所述发文时 间对应的所述相似文档作为所述溯源文档的源文档。 10.一种信息溯源 装置, 其特 征在于, 所述装置包括: 提取模块, 用于根据第一预设匹配规则, 提取溯源文档中的所有链接;权 利 要 求 书 2/3 页 3 CN 115329050 A 3

PDF文档 专利 信息溯源方法和装置、及存储介质和电子设备

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息溯源方法和装置、及存储介质和电子设备 第 1 页 专利 信息溯源方法和装置、及存储介质和电子设备 第 2 页 专利 信息溯源方法和装置、及存储介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。