全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210081578.9 (22)申请日 2022.01.24 (71)申请人 平安国际智慧城市科技股份有限公 司 地址 518000 广东省深圳市前海深港合作 区妈湾兴海 大道3048号前海自贸大厦 1-34层 (72)发明人 邹若奇  (74)专利代理 机构 北京市京大律师事务所 11321 代理人 胡安 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9538(2019.01) G06F 40/194(2020.01)G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 基于搜索语句的搜索方法、 装置、 设备及存 储介质 (57)摘要 本发明涉及大数据领域, 公开了一种基于搜 索语句的搜索方法、 装置、 设备及存储介质。 所述 方法包括: 获取搜索语句和文本数据集, 分别对 其分词以及编码, 得到至少一个搜索关键词向量 和多个文本分词向量, 对向量进行命名实体识别 和语义角色预测; 基于搜索关键词向量和文本分 词向量, 计算搜索语句与文本数据集中每条文本 数据之间的文本相似度, 并分别基于命名实体识 别和语义角色预测的结果, 计算其实体相似度和 语义角色相似度, 进而根据文本相似度、 语义角 色相似度以及实体相似度计算其全局相似度; 按 照全局相似度的大小对文本数据对应的网页链 接降序显示。 本发明通过文本维度、 实体维度以 及语义角色维度对搜索语句进行数据匹配, 搜索 更加准确。 权利要求书3页 说明书15页 附图7页 CN 114329225 A 2022.04.12 CN 114329225 A 1.一种基于 搜索语句的搜索方法, 其特 征在于, 所述基于 搜索语句的搜索方法包括: 获取用户输入的搜索语句和预设搜索 资源池中的文本数据集, 分别对所述搜索语句和 所述文本数据集中的每条文本数据进行分词, 以及分别对分词的结果进行向量化编码, 分 别得到至少一个搜索关键词向量和多个文本分词向量; 对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别; 对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测; 基于所述至少一个搜索 关键词向量和所述多个文本分词向量, 计算所述搜索语句与 所 述文本数据集中每条文本数据之间的文本相似度, 并基于命名实体识别的结果, 计算所述 搜索语句与所述文本数据集中每条文本数据之 间的实体相似度, 以及基于语义角色预测的 结果, 计算所述搜索语句与所述文本数据集中每条文本数据之间的语义角色相似度; 基于预设的计算规则, 对所述搜索语句与 所述文本数据集中每条文本数据之间的文本 相似度、 语义角色相似度以及实体相似度中的至少一种相似度进行计算, 得到所述搜索语 句与所述文本数据集中每条文本数据之间的全局相似度; 获取每条所述文本数据对应的网页链接, 按照所述全局相似度的大小, 对所述网页链 接进行降序排序, 并将排序结果在所述终端输出显示。 2.根据权利要求1所述的基于搜索语句的搜索方法, 其特征在于, 所述对所述至少一个 搜索关键词向量和所述多个文本分词向量进行命名实体识别包括: 获取预设的初始训练数据集, 并基于所述至少一个搜索 关键词向量和所述多个文本分 词向量构建待识别数据集; 以所述初始训练数据集为第 一轮训练数据集, 对预设的命名实体识别模型进行第 一轮 监督训练; 基于第一轮监督训练后的命名实体识别模型对所述待识别数据集进行命名实体识别 与标注, 得到弱标注的待识别数据集; 从本轮得到的弱标注的待识别数据集中提取子集, 并将该子集加入所述初始训练数据 集中, 得到第二轮训练数据集, 并基于第二轮训练数据集对第一轮监督训练后的命名实体 识别模型再次进行监督训练, 如此进 行多轮训练, 直至所述命名实体识别模型收敛时, 输出 当前轮次中待识别数据集的实体识别与标注的结果。 3.根据权利要求2所述的基于搜索语句的搜索方法, 其特征在于, 所述以所述初始训练 数据集为第一轮训练数据集, 对预设的命名实体识别模型进行第一轮监 督训练包括: 调用所述命名实体识别模型中的CRF层网络对所述第一轮训练数据集进行处理, 得到 所述第一轮训练数据集中每 个句子的概 率矩阵; 基于维特比算法对每 个句子的概 率矩阵进行计算, 得到最优标注序列; 根据所述最优标注序列中的识别结果与第 一轮训练数据集中标注结果, 调 整所述命名 实体识别模型的参数。 4.根据权利要求1所述的基于搜索语句的搜索方法, 其特征在于, 所述对所述至少一个 搜索关键词向量和所述多个文本分词向量进行语义角色预测包括: 基于预设的词性分析模型, 依次对目标向量进行正序词性分析和逆序词性分析, 并根 据分析的结果确定目标向量对应分词的词性类型, 其中, 所述 目标向量包括所述至少一个 搜索关键词向量和所述多个文本向量;权 利 要 求 书 1/3 页 2 CN 114329225 A 2根据所述目标向量对应分词的词性类型, 在预设的词性向量库中查找所述目标向量对 应分词的词性向量; 基于预设的角色分析模型, 依次对所述目标向量对应分词的词性向量进行正序语义角 色分析和逆序语义角色分析, 并根据分析的结果确定所述搜索关键词向量的语义角色类型 和每个所述文本分词向量的语义角色类型。 5.根据权利要求4所述的基于搜索语句的搜索方法, 其特征在于, 所述基于预设的角色 分析模型, 依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角 色分析, 并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本 分词 向量的语义角色类型包括: 基于预设的角色分析模型, 依次对所述目标向量对应分词的词性向量进行正序语义角 色分析和逆序语义角色 分析, 得到每 个词性向量对应的第一输出向量和第二输出向量; 根据预设的概率函数, 对每个词性向量对应的第二输出向量和第二输出向量进行计 算, 得到每 个词性向量对应分词的语义角色概 率向量; 基于最大值自变量点集算法, 对每个词性向量对应分词的语义角色概率向量进行处 理, 得到用于表示语义角色类型的序号; 根据所述用于表示语义角色类型的序号, 确定所述搜索 关键词向量的语义角色类型和 每个所述文本分词向量的语义角色类型。 6.根据权利要求1 ‑5中任意一项所述的基于搜索语句的搜索方法, 其特征在于, 所述基 于预设的计算规则, 对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似 度、 语义角色相似度以及实体相似度中的至少一种相似度进行计算, 得到所述搜索语句与 所述文本数据集中每条文本数据之间的全局相似度包括: 当所述搜索关键词向量的数量在第 一预设范围内时, 以所述搜索语句与所述文本数据 集中每条文本数据之间的文本相似度作为全局相似度; 当所述搜索关键词向量的数量在第 二预设范围内时, 将所述搜索语句与所述文本数据 集中每条文本数据之间的实体相似度与语义角色相似度相乘, 得到所述搜索语句与所述文 本数据集中每条文本数据之间的全局相似度。 7.根据权利要求6所述的基于搜索语句的搜索方法, 其特征在于, 在所述当所述搜索 关 键词向量的数量在第二预设范围内时, 将所述搜索语句与所述文本数据集中每条文本数据 之间的实体相似度与语义角色相似度相乘, 得到所述搜索语句与所述文本数据集中每条文 本数据之间的全局相似度之后, 还 包括: 当所述搜索关键词向量的数量在第 三预设范围内时, 将所述搜索语句与所述文本数据 集中每条文本数据之间的文本相似度与语义角色相似度相乘, 得到所述搜索语句与所述文 本数据集中每条文本数据之间的全局相似度; 当所述搜索关键词向量的数量在第四预设范围内时, 将所述搜索语句与所述文本数据 集中每条文本数据之间的文本相似度依次与语义角色相似度以及实体相似度相乘, 得到所 述搜索语句与所述文本数据集中每条文本数据之间的全局相似度。 8.一种基于 搜索语句的搜索装置, 其特 征在于, 所述基于 搜索语句的搜索装置包括: 词向量生成模块, 用于获取用户输入的搜索语句和预设搜索资源池中的文本数据集, 分别对所述搜索语句和所述文本数据集中的每条文本数据进 行分词, 以及分别对分词的结权 利 要 求 书 2/3 页 3 CN 114329225 A 3

PDF文档 专利 基于搜索语句的搜索方法、装置、设备及存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于搜索语句的搜索方法、装置、设备及存储介质 第 1 页 专利 基于搜索语句的搜索方法、装置、设备及存储介质 第 2 页 专利 基于搜索语句的搜索方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。