(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211358963.X
(22)申请日 2022.11.02
(71)申请人 京华信息科技股份有限公司
地址 510520 广东省广州市天河区高普路
138号京华信息大楼中座
(72)发明人 谢小能 李思伟 蓝建敏 池沐霖
纪绿彬
(74)专利代理 机构 广州专理知识产权代理事务
所(普通合伙) 44493
专利代理师 张凤
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/33(2019.01)
(54)发明名称
一种历史数据的文本 检索方法及系统
(57)摘要
本发明提供了一种历史数据的文本检索方
法及系统, 属于大数据领域, 通过文字检索技术,
获取检索结果, 检索结果为文档的列表; 将检索
结果中的各文档, 根据各个文档与关键词的语义
相似度进行排序, 得到该个关键词的文档序列;
输入多个不同的关键词作为一批关键词, 分别获
取这一批关键词中的各关键词的文档 序列, 再构
建文档对组; 输入多批关键词, 分别获取对应的
多个文档对组; 根据多个文档对组, 计算文本关
节点, 以文本关节点对计算机中储存的文本文档
划分存储空间, 实现了增强历史数据使用的稳定
性与复用性的有益效果。
权利要求书2页 说明书7页 附图2页
CN 115408491 A
2022.11.29
CN 115408491 A
1.一种历史数据的文本检索方法, 在计算机中储存有多个不同的文本文档, 每个文本
文档有其对应的唯一的索引号, 其中以输入的字符串作为关键词对文本文档进行搜索, 其
特征在于, 所述方法包括以下步骤:
S100, 输入一个关键词, 通过文字检索技 术, 获取检索结果, 检索结果 为文档的列表;
S200, 将检索结果中的各文档, 根据各个文档与关键词的语义相似度进行排序, 得到关
键词的文档序列;
S300, 输入多个不同的关键词作为一批关键词, 分别获取这一批关键词中的各关键词
的文档序列, 再构建文档对组;
S400, 输入多批关键词, 分别获取对应的多个文档对组;
S500, 根据多个文档 对组, 计算文本关节点, 以文本关节点对计算机中储存的文本文档
划分存储空间。
2.根据权利要求1所述的一种历史数据的文本检索方法, 其特征在于, 在S100中, 输入
一个关键词, 通过文字检索技术, 获取检索结果, 检索结果为文档的列表的方法为: 将通过
计算机输入设备得到的关键词, 通过包括Elasticsearch的文字检索工具, 获取检索结果,
检索结果 为文档的列表, 文档的列表由检索得到的各个文档的索引号组成。
3.根据权利要求1所述的一种历史数据的文本检索方法, 其特征在于, 在S200中, 将检
索结果中的各文档, 根据各个文档与关键词的语义相似度进行排序, 得到关键词的文档序
列的方法为: 将 检索结果中的各文档, 根据各文档中的文字内容, 使用预训练语言模型计算
各文档中的文字内容与关键词的语义相似度, 通过语义相似度的顺序, 将各个文档的索引
号进行排序得到的序列即为文档序列, 索引序列为 一个文档在计算机存 储系统中的索引。
4.根据权利要求1所述的一种历史数据的文本检索方法, 其特征在于, 在S300中, 输入
多个不同的关键词作为一批关键词, 分别获取这一批关键词中的各关键词的文档序列, 再
构建文档对组的方法为: 分别获取所述一批关键词中的各关键词的文档序列, 各文档序列
的长度相等, 以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵, 记所述一批
关键词中的各关键词的文档序列中文档序列的数量为m, 每个文档序列包含有n个不同的文
档的索引号, 索引号的数值为正整数, 其中, 在m个文档序列中各元素的序号为j, 在文档序
列的n个索引号中各元素的序号为i, i∈[1,n], j∈[1,m], 由此将文档索引矩阵记 为n行m列
的矩阵, 使用i为文档 索引矩阵的行序号, 使用j为文档 索引矩阵的列序号, 文档 索引矩阵中
序号为j的列即为在m个文档序列中序号为j的文档序列, 文档 索引矩阵中列的序号为j而 行
的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号, 记文档 索引矩阵
中列的序号为j而 行的序号为i的元素对应的文档与文档 索引矩阵中序号j的列对应的关键
词的语义相似度为sim(i,j;j), 记文档索引矩阵中列的序号为j而行的序号为i的元素对应
的索引号的数值 为val(i,j);
进而, 构建文档对组的方法为:
构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关
键词的对应的文档对组, 并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号
的元素的对应的索引号;
记文档对组为Du, Du中行序号 为i列序号为j的元素记为Du(i,j);
计算计算机中储 存的各文本文档的索引号的算 术平均值 为val(avg);权 利 要 求 书 1/2 页
2
CN 115408491 A
2则Du(i,j)的数值的计算公式为:
,
,
以此分别计算得到Du中各Du(i,j)的数值, 从而构建Du。
5.根据权利要求1所述的一种历史数据的文本检索方法, 其特征在于, 在S400中, 输入
多批关键词, 分别获取对应的多个文档对组的方法为:
以输入多个不同的关键词作为一批关键词, 则以此重复多次得到多批关键词, 再获取
对应的多个文档对组。
6.根据权利要求4所述的一种历史数据的文本检索方法, 其特征在于, 在S500中, 根据
多个文档对组, 计算文本关节点, 以文本关节点对计算机中储存的文本文档划分存储空间
的方法为:
获取多个不同文档对组, 并将所述多个不同文档对组所组成的序列作为文档对组序
列;
记文档对组序列为Dseq, Dseq中元素的数量记为d, Dseq中元素的序号记为t, t∈[1,
d], Dseq中序号t的元素为Du_t, 各Du_t中行列的数量及行列的序号与Du中行列的数量及行
列的序号继续保持一致, Du_t亦为n行m列, Du_t的行序号为i而列序号为j, Du_t中行序号为
i列序号为j的元素为Du_t(i,j);
对文档对组序列中各个文档对组中相同行序号列序列的位置, 计算各个位置的文本关
节值, 记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j), a(i,j)的数
值的计算公式为:
,
根据各个位置的文本关节值, 选取出文本关节值最大的n个位置, 再根据所述n个位置
在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档, 由此得到n个文本文
档, 再将这 n个文本文档进行去除重复的后组成集 合Nset;
以Nset中的文本文档进行向量化作为聚类的核心, 记Nset中元素的数量为ns, 再将计
算机中储存有的文本文档, 根据聚类的核心进行划分成ns个类别, 将ns个类别在分布式数
据集群中进行存 储区域的划分。
7.一种历史数据的文本检索系统, 其特征在于, 所述一种历史数据的文本检索系统运
行于桌上型计算机、 笔记本电脑、 掌上电脑或云端 数据中心的任一计算设备中, 所述计算设
备包括: 处理器、 存储器及 存储在所述存储器中并在所述处理器上运行的计算机程序, 所述
处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的一种历史数据的文本
检索方法中的步骤。权 利 要 求 书 2/2 页
3
CN 115408491 A
3
专利 一种历史数据的文本检索方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:49:08上传分享