(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211265167.1
(22)申请日 2022.10.17
(65)同一申请的已公布的文献号
申请公布号 CN 115329051 A
(43)申请公布日 2022.11.11
(73)专利权人 成都大学
地址 610000 四川省成 都市龙泉驿区外东
十陵镇
(72)发明人 张志强 王伟钧
(74)专利代理 机构 成都华风专利事务所(普通
合伙) 51223
专利代理师 张巨箭
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 40/194(2020.01)
G06F 40/279(2020.01)
(56)对比文件
CN 112136126 A,2020.12.25CN 10980 0413 A,2019.0 5.24
CN 101714145 A,2010.0 5.26
CN 114780491 A,202 2.07.22
CN 111159361 A,2020.0 5.15
CN 113220865 A,2021.08.0 6
CN 109948121 A,2019.0 6.28
CN 105447026 A,2016.0 3.30
US 201717 7717 A1,2017.0 6.22
EP 2083364 A1,20 09.07.29
付克志 等.基 于N-Level VSM在Web 信息检
索中的研究. 《计算机 工程与应用》 .20 06,(第19
期),
王强 等.基 于语义分组向量空间模型的Web
新闻检索算法. 《电子科技》 .201 1,(第04期),
张志强 等.一种新闻类WORD格式文 件数据
抽取算法研究. 《成 都大学学报 (自然科 学版) 》
.2022,第41卷(第2期), (续)
审查员 廖琼霞
(54)发明名称
一种多视角新闻信息快速检索方法、 系统、
存储介质及终端
(57)摘要
本发明公开了一种多视角 新闻信息快速检
索方法、 系统、 存储介质及终端, 包括: 依据用户
检索的新闻视角描述信息, 进行词汇分割, 构建
新闻视角词汇向量组B; 其中, 对新闻视角词汇向
量组B中的不同新闻视角词汇向量
设置不同
的权值; 根据新闻视角词汇向量
的词汇在新
闻信息库中对每篇新闻文章内容进行检索, 并根
据检索结果构 建新闻视角词 汇检索向量组 B', 并
标识出该词汇在新闻文章内容中的分布权值。 本
发明将用户需求的多类视角新闻描述信息转换
为向量进行处理, 同时, 利用向量相似度计算模
型进行新闻文章的筛选, 提高新闻文章检索效率, 通过调整向量组的构建、 向量的权值和分布
权值, 使得本方法具有可适应性和设置 灵活性。
[转续页]
权利要求书3页 说明书10页 附图2页
CN 115329051 B
2022.12.20
CN 115329051 B
(56)对比文件
Jiang-xia YU 等.Thematic Learn ing-
based Ful l-text Ret rieval Researc h on
British and American Journal istic Reading. 《2019 14th I nternati onal
Conference o n Computer Science &
Education (ICCSE)》 .2019,2/2 页
2[接上页]
CN 115329051 B1.一种多视角新闻信息快速检索方法, 其特 征在于, 所述方法包括以下步骤:
S1、 构建新 闻信息库, 其中包括每篇新 闻文章的新闻编号、 新闻题目、 新闻时间、 新闻内
容长度、 新闻热点描述信息以及新闻正文内容;
S2、 依据用户检索的新闻视角描述信息, 进行词 汇分割, 构建新 闻视角词汇向量组B; 其
中, 对新闻视角词汇向量组B中的不同新闻视角词汇向量
设置不同的权值;
S3、 从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
, 根据新闻视角词汇 向量
的词汇在新闻信息库中对每篇新闻文章内容进行检索, 并根据
检索结果构建新闻视角词汇检索向量组 B'; 其中, 根据新闻视角词汇向量
的词汇出现在新
闻文章内容的不同位置, 标识出 该词汇在新闻文章内容中的分布权值;
S4、 利用向量相似度计算模型依次计算新闻视角词汇向量
和新闻视角词汇检索向量
组B'中每个向量的相似度; 所述新闻视角词汇向量
和新闻视角词汇 检索向量组 B'中每个
向量的相似度计算模型如下:
其中,
;
;
; n表示基于用户检索需求的新闻视角类别个数,
为第j类新闻视角词汇向量
和新闻视角词汇检索向量
的夹角;i表示依据
用户设定的第j类新闻视角描述信息构建的新闻视角词汇向量 Aj中的词汇分量下标值; wi,j
表示向量 Aj中的第i个新闻视角词汇的权值, mj表示向量 Aj中的新闻视角词汇分量总数;
计算夹角
的余弦值, 该值作为向量
和向量
的相似度, 相似度值越大,
则向量
和向量
的夹角
越小, 表明
越靠近
, 则说明了按照向量
在新闻信息库中第 index篇新闻文章内容与用户检索的新闻视角描述信息越吻合;
S5、 设定筛选阈值, 从S4中计算的相似度中筛 选出大于筛选阈值的新闻文章编号;
S6、 根据S5中筛 选出的新闻文章编号, 从所述 新闻信息库中提取 出对应的新闻文章。
2.根据权利要求1所述的一种 多视角新闻信 息快速检索方法, 其特征在于, 所述对新闻
视角词汇向量组B中的不同新闻视角词汇向量
设置不同的权值, 包括:
根据不同新闻视角词汇向量
在新闻信息检索过程中的重要程度, 设定不同的权值, 权
值的等级设定规则依据用户的需求进行动态调整。
3.根据权利要求1所述的一种 多视角新闻信 息快速检索方法, 其特征在于, 所述根据新
闻视角词汇向量
的词汇出现在 新闻文章内容的不同位置, 标识出该词汇在 新闻文章内容
中的分布权值, 包括:权 利 要 求 书 1/3 页
2
CN 115329051 B
3
专利 一种多视角新闻信息快速检索方法、系统、存储介质及终端
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:49:09上传分享