全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211250778.9 (22)申请日 2022.10.13 (71)申请人 深圳市龙光云众智慧科技有限公司 地址 518133 广东省深圳市宝安区新 安街 道海滨社区N23区海秀路23号龙光世 纪大厦2栋1201 (72)发明人 李韦 谭伟 黎明 王允 朱苑萍  (74)专利代理 机构 北京天盾知识产权代理有限 公司 11421 专利代理师 史炜炜 (51)Int.Cl. G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于Kmeans召回的多模型熵加权检索 方法及系统 (57)摘要 本发明公开了一种基于Kmeans召回的多模 型熵加权检索方法及系统, 方法包括以下步骤: S1.对文档数据集D进行清洗、 聚类, 利用聚类后 的数据集D对BER模型进行微调得到训练好的模 型; S2.将文档数据集D及其关键词输入至训练好 的模型, 输 出候选文档向量; S3.将待检索语句分 别进行不同指标类型的编码, 得到待检索句的综 合向量; S4.利用待检索句的综合向量和已得到 的候选文档向量的各聚类中心确定最相似的簇; S5.计算待检索句与最相似的簇中文档的相似度 值, 按照相似度值进行排序推荐检索结果。 本发 明基于多模 型并行召回策略, 充分考虑语义的相 关性, 提高了 检索响应 速度。 权利要求书3页 说明书6页 附图1页 CN 115309872 A 2022.11.08 CN 115309872 A 1.一种基于Kmeans召回的多模型熵加权检索方法, 其特 征在于, 包括以下步骤: S1.对文档数据集D进行清洗、 聚类, 利用聚类后的数据 集D对BERT模型进行微调得到训 练好的模型; S2.将文档数据集D及其关键词输入至训练好的模型, 输出候选文档向量; S3.将待检索语句分别进行不同指标类型的编码, 得到待检索句的综合向量; S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的 簇; S5.计算待检索句与最相似的簇中文档的相似度值, 按照相似度值进行排序推荐检索 结果。 2.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于, 对文档数据集D进 行清洗具体过程为: 对文档数据集D进 行文本分词、 去停用词、 得到清洗后 数据集 。 3.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于, 步骤S1中还包括: 利用清洗后的文档数据集训练TFIDF算法模型, 得到每个词的TFIDF权重 向量 ,并将训练后的TFIDF算法模型序列化到 本地。 4.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于, 步骤S1中利用聚类后的数据集D对BERT模型进行微调得到训练好的模型, 具体为: 对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心 然后 对样本进行类簇标签标记得到 , , ,利用聚类后的数据集D对BERT模型进行微调 得到训练好的模型, 类别数 是N, 获取微调后的向量, 并保存 模型至本地。 5.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法, 其特征在于, 将文档数据集D及其关键词输入至训练好的模 型, 输出候选文档向量具体为:  利用TFIDF算 法提取文档 数据集D的关键词, 将所述关键词及文档 数据集D输入至训练好的BERT模型, 输 出候选文档向量, 所述文档向量包括 , , 具体表达式为: 其中, 表示清洗后的文档, k表示 中每个样本提取的前k个关键词, 则是经过 微调后的模型。 6.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法, 其特征在于, 在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重, 确定不 同指标的权 重具体步骤为: 离线获取经过验证的与检索相 关度高的候选答案M条, 其中, M≥500, 分别从三个维度 进行检索词与候选文档的量化编码, 所述三个维度包括: 样本的TFIDF表示, 样本原始BERT 向量表示, 样本提取关键词BERT向量表示; 分别计算检索词与候选文档在所述三个维度的余弦距离, 得到3个维度指标共计M条数 据记为 ; 将得到的三个维度指标进行归一 化处理:权 利 要 求 书 1/3 页 2 CN 115309872 A 2其中, 表示第i个样本第j个指标, 表示归一 化处理后的第i个样本第j个指标; 计算各个指标的信息熵 : 其中 ; 由熵值法计算的各个指标的权 重 为: 其中, 表示类簇数, j的取值 为1、 2及3 。 7.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法, 其特征在于, 待检索句的综合向量综合向量表示为:  TFIDF表示待检 索句的TFIDF向量, 表示待检索句的原始BERT向量, 表示待检索句的样本提 取关键词BERT向量。 8.根据权利 要求7所述的一种基于Kmeans召回的多模型熵加权检索方法, 其特征在于, 利用待检索句的综合向量和已得到的候选文档 向量的各聚类中心确定最相似的簇; 具体 为: 计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度, 将相 似度值最大的簇作为 最相似的簇 。 9.根据权利 要求1所述的一种基于Kmeans召回的多模型熵加权检索方法, 其特征在于, 计算待检索句与最相似的簇中文档的相似度值, 表达式为: , , 其中, 表示指标权 重, 、 、 分别表示 三个维度的相似度。 10.一种基于Kmeans召回的多模型熵加权检索系统, 其特征在于, 该系统包括: 存储器、 处理器, 所述存储器中包括一种基于Kmeans召回的多模型熵加 权检索方法程序, 所述一种 基于Kmeans召回的多模型熵加权检索方法程序被所述处 理器执行时实现如下步骤: S1.对文档数据集D进行清洗、 聚类, 利用聚类后的数据 集D对BERT模型进行微调得到训 练好的模型; S2.将文档数据集D及其关键词输入至训练好的模型, 输出候选文档向量; S3.将待检索语句分别进行不同指标类型的编码, 得到待检索句的综合向量; S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的 簇;权 利 要 求 书 2/3 页 3 CN 115309872 A 3

PDF文档 专利 一种基于Kmeans召回的多模型熵加权检索方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Kmeans召回的多模型熵加权检索方法及系统 第 1 页 专利 一种基于Kmeans召回的多模型熵加权检索方法及系统 第 2 页 专利 一种基于Kmeans召回的多模型熵加权检索方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。