全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211341694.6 (22)申请日 2022.10.31 (71)申请人 中建电子商务有限责任公司 地址 610000 四川省成 都市青羊区腾飞大 道51号18栋12层1202号 申请人 云筑信息科技 (成 都) 有限公司 (72)发明人 韩雷 蒋敏  (74)专利代理 机构 成都春夏知识产权代理事务 所(特殊普通 合伙) 51317 专利代理师 夏琴 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/31(2019.01) G06F 40/289(2020.01) (54)发明名称 一种基于分词技术提高建筑行业搜索精度 的方法 (57)摘要 本发明公开了一种基于分词技术提高建筑 行业搜索精度的方法, 属于供应搜索技术领域, 包括专业的知识库建立与分词字段录入、 构建分 词字段与知识库地址之间的映射 关系、 构建并加 载IK分词器、 设定分词逻辑、 以及分词搜索与评 分。 本发明创建了适用于建筑行业各类场景的专 业性知识库, 还可根据行业发展实时录入并更 新, 并将专业的知识库与传统的默认词库相结合 进行分词, 极大提高了搜索精度; 并通过修改分 词器的分词逻辑实现词库的隔离, 保证了各词库 之间不受影响。 权利要求书1页 说明书4页 附图1页 CN 115470323 A 2022.12.13 CN 115470323 A 1.一种基于分词技 术提高建筑行业搜索精度的方法, 其特 征在于, 包括以下步骤: 步骤1、 在词库管理系统中创建不同知识库, 并将建筑行业各类场景中的分词字段录入 对应的知识库; 步骤2、 构建 分词字段与知识库地址之间的第一映射关系; 步骤3、 构 建IK分词器, 分布式搜索和分析引擎加载并初始化IK分词器,  并将知识库加 载于分布式搜索和分析引擎的内存中; 步骤4、 在 分布式搜索和分析引擎中写入文本数据并生成文档编号, 根据第 一映射将所 需知识库加载至IK分词器中, 并进行分词得到第一分词, 然后调用IK分词器的默认词库进 行分词得到第二分词, 将第一分词和第二分词组合 一个单词流; 步骤5、 分布式搜索和分析引擎根据 单词流建立倒排索引, 构建分词字段与文档编号之 间的第二映射关系; 步骤6、 在分布式搜索和分析引擎写入搜索词, 调用IK分词器对搜索词进行分词得到分 词字段, 根据第二映射关系得到对应的文档编号和该文档编号对应的文本数据, 对获取 的 文本数据进行相关性评分, 根据评分返回至最终需要的文本数据。 2.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法, 其特征在 于, 所述IK分词器的构建为: 根据分词字段获取对应的知识库地址, 对知识库地址通过降维 算法转化为唯一的关键字, 并在IK分词器中初始 化一个哈希映射存放关键字和对应的知识 库。 3.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法, 其特征在 于, 所述分布式搜索和分析引擎加载并初始化IK分词器后, 根据不同的知识库地址加载知 识库至分布式搜索和分析引擎内存中。 4.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法, 其特征在 于, 所述第一映射关系的构建: 根据不同的分词字段、 以及索引的的映射设置知识库的url 地址。 5.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法, 其特征在 于, 所述知识库的数据结构包括分词字段编号、 分词字段类型、 分词字段、 更新时间、 创建时 间、 更新用户。 6.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法, 其特征在 于, 在所述IK分词器中创建定时任务, 每间隔一小时, 知识库重新加载至 分布式搜索和分析 引擎内存中。 7.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法, 其特征在 于, 所述分布式搜索和分析引擎采用BM25算法对获取的文本数据进行相关性评分。权 利 要 求 书 1/1 页 2 CN 115470323 A 2一种基于分词技术提高建筑行业搜索 精度的方 法 技术领域 [0001]本发明属于供应搜索技术领域, 具体涉及 一种基于分词技术提高建筑行业搜索精 度的方法。 背景技术 [0002]建筑行业供应链系统中, 采购商和供应商两端均有搜索场景。 比如在商机搜索中, 供应商需要搜索有哪些采购商发出了采购需求; 在采购商端中, 采购商发起投标邀请也需 要搜索供应商。 通常供采双方两端会根据约定成俗的字词或者行业特殊术语进行关键字搜 索, 但搜索精度不高。 例如在商机搜索中, 供应商需要搜索 “中国建筑第七局建筑有限公 司”, 常常会输入关键字 “七局”进行搜索, 但这种搜索场景无法获得中 国建筑第七局建筑有 限公司的相关数据。 [0003]因此, 本发明提供了一种基于分词技术提高建筑行业搜索精度的方法, 用于解决 建筑行业整个细分领域的搜索精度。 发明内容 [0004]本发明要解决的技术问题是: 提供一种基于分词技术提高建筑行业搜索精度的方 法, 以至少解决上述部分技 术问题。 [0005]为实现上述目的, 本发明采用的技 术方案如下: 一种基于分词技 术提高建筑行业搜索精度的方法包括以下步骤: 步骤1、 在词库管理系统中创建不同知识库, 并将建筑行业各类场景中的分词字段 录入对应的知识库; 步骤2、 构建 分词字段与知识库地址之间的第一映射关系; 步骤3、 构建IK分词器, 分布式搜索和分析引擎加载 并初始化IK分词器,  并将知识 库加载于分布式搜索和分析引擎的内存中; 步骤4、 在分布式搜索和分析引擎中写入文本数据并生成文档编号, 根据第一映射 将所需知识库加载至IK分词器中, 并进行分词得到第一分词, 然后调用IK分词器的默认词 库进行分词得到第二分词, 将第一分词和第二分词组合 一个单词流; 步骤5、 分布式搜索和分析引擎根据单词流建立倒排索引, 构建分词字段与 文档编 号之间的第二映射关系; 步骤6、 在分布式搜索和分析引擎写入搜索词, 调用IK分词器对搜索词进行分词得 到分词字段, 根据第二映射关系得到对应的文档编号和该文档编号对应的文本数据, 对获 取的文本数据进行相关性评分, 根据评分返回至最终需要的文本数据。 [0006]进一步地, 所述IK分词器的构建为: 根据分词字段获取对应的知识库地址, 对知识 库地址通过降维算法转化为唯一的关键字, 并在IK分词器中初始化一个哈希映射存放关键 字和对应的知识库。 [0007]进一步地, 所述分布式搜索和分析引擎加载并初始化IK分词器后, 根据不同的知说 明 书 1/4 页 3 CN 115470323 A 3

PDF文档 专利 一种基于分词技术提高建筑行业搜索精度的方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分词技术提高建筑行业搜索精度的方法 第 1 页 专利 一种基于分词技术提高建筑行业搜索精度的方法 第 2 页 专利 一种基于分词技术提高建筑行业搜索精度的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。