全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211265167.1 (22)申请日 2022.10.17 (65)同一申请的已公布的文献号 申请公布号 CN 115329051 A (43)申请公布日 2022.11.11 (73)专利权人 成都大学 地址 610000 四川省成 都市龙泉驿区外东 十陵镇 (72)发明人 张志强 王伟钧  (74)专利代理 机构 成都华风专利事务所(普通 合伙) 51223 专利代理师 张巨箭 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/335(2019.01) G06F 40/194(2020.01) G06F 40/279(2020.01) (56)对比文件 CN 112136126 A,2020.12.25CN 10980 0413 A,2019.0 5.24 CN 101714145 A,2010.0 5.26 CN 114780491 A,202 2.07.22 CN 111159361 A,2020.0 5.15 CN 113220865 A,2021.08.0 6 CN 109948121 A,2019.0 6.28 CN 105447026 A,2016.0 3.30 US 201717 7717 A1,2017.0 6.22 EP 2083364 A1,20 09.07.29 付克志 等.基 于N-Level VSM在Web 信息检 索中的研究. 《计算机 工程与应用》 .20 06,(第19 期), 王强 等.基 于语义分组向量空间模型的Web 新闻检索算法. 《电子科技》 .201 1,(第04期), 张志强 等.一种新闻类WORD格式文 件数据 抽取算法研究. 《成 都大学学报 (自然科 学版) 》 .2022,第41卷(第2期), (续) 审查员 廖琼霞 (54)发明名称 一种多视角新闻信息快速检索方法、 系统、 存储介质及终端 (57)摘要 本发明公开了一种多视角 新闻信息快速检 索方法、 系统、 存储介质及终端, 包括: 依据用户 检索的新闻视角描述信息, 进行词汇分割, 构建 新闻视角词汇向量组B; 其中, 对新闻视角词汇向 量组B中的不同新闻视角词汇向量 设置不同 的权值; 根据新闻视角词汇向量 的词汇在新 闻信息库中对每篇新闻文章内容进行检索, 并根 据检索结果构 建新闻视角词 汇检索向量组 B', 并 标识出该词汇在新闻文章内容中的分布权值。 本 发明将用户需求的多类视角新闻描述信息转换 为向量进行处理, 同时, 利用向量相似度计算模 型进行新闻文章的筛选, 提高新闻文章检索效率, 通过调整向量组的构建、 向量的权值和分布 权值, 使得本方法具有可适应性和设置 灵活性。 [转续页] 权利要求书3页 说明书10页 附图2页 CN 115329051 B 2022.12.20 CN 115329051 B (56)对比文件 Jiang-xia YU 等.Thematic Learn ing- based Ful l-text Ret rieval Researc h on British and American Journal istic Reading. 《2019 14th I nternati onal Conference o n Computer Science & Education (ICCSE)》 .2019,2/2 页 2[接上页] CN 115329051 B1.一种多视角新闻信息快速检索方法, 其特 征在于, 所述方法包括以下步骤: S1、 构建新 闻信息库, 其中包括每篇新 闻文章的新闻编号、 新闻题目、 新闻时间、 新闻内 容长度、 新闻热点描述信息以及新闻正文内容; S2、 依据用户检索的新闻视角描述信息, 进行词 汇分割, 构建新 闻视角词汇向量组B; 其 中, 对新闻视角词汇向量组B中的不同新闻视角词汇向量 设置不同的权值; S3、 从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量 , 根据新闻视角词汇 向量 的词汇在新闻信息库中对每篇新闻文章内容进行检索, 并根据 检索结果构建新闻视角词汇检索向量组 B'; 其中, 根据新闻视角词汇向量 的词汇出现在新 闻文章内容的不同位置, 标识出 该词汇在新闻文章内容中的分布权值; S4、 利用向量相似度计算模型依次计算新闻视角词汇向量 和新闻视角词汇检索向量 组B'中每个向量的相似度; 所述新闻视角词汇向量 和新闻视角词汇 检索向量组 B'中每个 向量的相似度计算模型如下: 其中, ; ; ; n表示基于用户检索需求的新闻视角类别个数, 为第j类新闻视角词汇向量 和新闻视角词汇检索向量 的夹角;i表示依据 用户设定的第j类新闻视角描述信息构建的新闻视角词汇向量 Aj中的词汇分量下标值; wi,j 表示向量 Aj中的第i个新闻视角词汇的权值, mj表示向量 Aj中的新闻视角词汇分量总数; 计算夹角 的余弦值, 该值作为向量 和向量 的相似度, 相似度值越大, 则向量 和向量 的夹角 越小, 表明 越靠近 , 则说明了按照向量 在新闻信息库中第 index篇新闻文章内容与用户检索的新闻视角描述信息越吻合; S5、 设定筛选阈值, 从S4中计算的相似度中筛 选出大于筛选阈值的新闻文章编号; S6、 根据S5中筛 选出的新闻文章编号, 从所述 新闻信息库中提取 出对应的新闻文章。 2.根据权利要求1所述的一种 多视角新闻信 息快速检索方法, 其特征在于, 所述对新闻 视角词汇向量组B中的不同新闻视角词汇向量 设置不同的权值, 包括: 根据不同新闻视角词汇向量 在新闻信息检索过程中的重要程度, 设定不同的权值, 权 值的等级设定规则依据用户的需求进行动态调整。 3.根据权利要求1所述的一种 多视角新闻信 息快速检索方法, 其特征在于, 所述根据新 闻视角词汇向量 的词汇出现在 新闻文章内容的不同位置, 标识出该词汇在 新闻文章内容 中的分布权值, 包括:权 利 要 求 书 1/3 页 2 CN 115329051 B 3

PDF文档 专利 一种多视角新闻信息快速检索方法、系统、存储介质及终端

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多视角新闻信息快速检索方法、系统、存储介质及终端 第 1 页 专利 一种多视角新闻信息快速检索方法、系统、存储介质及终端 第 2 页 专利 一种多视角新闻信息快速检索方法、系统、存储介质及终端 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。