专利一种历史数据的文本检索方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211358963.X (22)申请日 2022.11.02 (71)申请人京华信息科技股份有限公司地址 510520 广东省广州市天河区高普路 138号京华信息大楼中座 (72)发明人谢小能　李思伟　蓝建敏　池沐霖　纪绿彬　 (74)专利代理机构广州专理知识产权代理事务所(普通合伙) 44493 专利代理师张凤 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/33(2019.01) (54)发明名称一种历史数据的文本检索方法及系统 (57)摘要本发明提供了一种历史数据的文本检索方法及系统，属于大数据领域，通过文字检索技术，获取检索结果，检索结果为文档的列表；将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到该个关键词的文档序列；输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组；输入多批关键词，分别获取对应的多个文档对组；根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间，实现了增强历史数据使用的稳定性与复用性的有益效果。权利要求书2页说明书7页附图2页 CN 115408491 A 2022.11.29 CN 115408491 A 1.一种历史数据的文本检索方法，在计算机中储存有多个不同的文本文档，每个文本文档有其对应的唯一的索引号，其中以输入的字符串作为关键词对文本文档进行搜索，其特征在于，所述方法包括以下步骤： S100，输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表； S200，将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列； S300，输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组； S400，输入多批关键词，分别获取对应的多个文档对组； S500，根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间。 2.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S100中，输入一个关键词，通过文字检索技术，获取检索结果，检索结果为文档的列表的方法为：将通过计算机输入设备得到的关键词，通过包括Elasticsearch的文字检索工具，获取检索结果，检索结果为文档的列表，文档的列表由检索得到的各个文档的索引号组成。 3.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S200中，将检索结果中的各文档，根据各个文档与关键词的语义相似度进行排序，得到关键词的文档序列的方法为：将检索结果中的各文档，根据各文档中的文字内容，使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度，通过语义相似度的顺序，将各个文档的索引号进行排序得到的序列即为文档序列，索引序列为一个文档在计算机存储系统中的索引。 4.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S300中，输入多个不同的关键词作为一批关键词，分别获取这一批关键词中的各关键词的文档序列，再构建文档对组的方法为：分别获取所述一批关键词中的各关键词的文档序列，各文档序列的长度相等，以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵，记所述一批关键词中的各关键词的文档序列中文档序列的数量为m，每个文档序列包含有n个不同的文档的索引号，索引号的数值为正整数，其中，在m个文档序列中各元素的序号为j，在文档序列的n个索引号中各元素的序号为i， i∈[1,n]， j∈[1,m]，由此将文档索引矩阵记为n行m列的矩阵，使用i为文档索引矩阵的行序号，使用j为文档索引矩阵的列序号，文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列，文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号，记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j)，记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j)；进而，构建文档对组的方法为：构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关键词的对应的文档对组，并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号的元素的对应的索引号；记文档对组为Du， Du中行序号为i列序号为j的元素记为Du(i,j)；计算计算机中储存的各文本文档的索引号的算术平均值为val(avg)；权　利　要　求　书 1/2 页 2 CN 115408491 A 2则Du(i,j)的数值的计算公式为：，，以此分别计算得到Du中各Du(i,j)的数值，从而构建Du。 5.根据权利要求1所述的一种历史数据的文本检索方法，其特征在于，在S400中，输入多批关键词，分别获取对应的多个文档对组的方法为：以输入多个不同的关键词作为一批关键词，则以此重复多次得到多批关键词，再获取对应的多个文档对组。 6.根据权利要求4所述的一种历史数据的文本检索方法，其特征在于，在S500中，根据多个文档对组，计算文本关节点，以文本关节点对计算机中储存的文本文档划分存储空间的方法为：获取多个不同文档对组，并将所述多个不同文档对组所组成的序列作为文档对组序列；记文档对组序列为Dseq， Dseq中元素的数量记为d， Dseq中元素的序号记为t， t∈[1, d]， Dseq中序号t的元素为Du_t，各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致， Du_t亦为n行m列， Du_t的行序号为i而列序号为j， Du_t中行序号为 i列序号为j的元素为Du_t(i,j)；对文档对组序列中各个文档对组中相同行序号列序列的位置，计算各个位置的文本关节值，记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j)， a(i,j)的数值的计算公式为：，根据各个位置的文本关节值，选取出文本关节值最大的n个位置，再根据所述n个位置在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档，由此得到n个文本文档，再将这 n个文本文档进行去除重复的后组成集合Nset；以Nset中的文本文档进行向量化作为聚类的核心，记Nset中元素的数量为ns，再将计算机中储存有的文本文档，根据聚类的核心进行划分成ns个类别，将ns个类别在分布式数据集群中进行存储区域的划分。 7.一种历史数据的文本检索系统，其特征在于，所述一种历史数据的文本检索系统运行于桌上型计算机、笔记本电脑、掌上电脑或云端数据中心的任一计算设备中，所述计算设备包括：处理器、存储器及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的一种历史数据的文本检索方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115408491 A 3

专利 一种历史数据的文本检索方法及系统

专利一种历史数据的文本检索方法及系统