全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211305485.6 (22)申请日 2022.10.24 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新 开发区望 江西路666号 申请人 科大讯飞 (北京) 有限公司   河北省讯飞人工智能研究院 (72)发明人 刘洋 王栋 刘权 王士进  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 程琛 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 问题聚类方法、 装置、 电子设备和存 储介质 (57)摘要 本发明提供一种问题聚类方法、 装置、 电子 设备和存储介质, 其中方法包括: 获取第一问题 簇, 所述第一问题簇包括待聚类的第一问题; 确 定所述第一问题簇中的基准问题及其基准回复, 以及所述第一问题簇中的第一问题以所述基准 回复作为对话回复的回复概率; 基于所述第一问 题的回复概率, 对所述第一问题进行聚类, 得到 第二问题簇。 本发明提供的方法、 装置、 电子设备 和存储介质, 基于第一问题以基准回复作为对话 回复的回复概率进行问题聚类, 使得问题聚类的 依据能够更加贴合实际对话场景下的问题语义, 由此保证问题聚类的可靠性, 优化问题聚类效 果。 权利要求书2页 说明书13页 附图3页 CN 115495567 A 2022.12.20 CN 115495567 A 1.一种问题聚类方法, 其特 征在于, 包括: 获取第一问题簇, 所述第一问题簇包括待聚类的第一问题; 确定所述第 一问题簇中的基准问题及其基准 回复, 以及所述第 一问题簇 中的第一问题 以所述基准回复作为对话回复的回复概 率; 基于所述第一问题的回复概 率, 对所述第一问题进行聚类, 得到第二问题簇 。 2.根据权利要求1所述的问题聚类方法, 其特征在于, 所述基于所述第 一问题的回复概 率, 对所述第一问题进行聚类, 得到第二问题簇, 包括: 基于所述第 一问题的回复概率, 以及所述基准问题以所述基准 回复作为对话 回复的概 率, 确定所述第一问题的聚类得分; 基于所述第一问题的聚类得分, 对所述第一问题进行聚类, 得到第二问题簇 。 3.根据权利要求2所述的问题聚类方法, 其特征在于, 所述基于所述第 一问题的聚类得 分, 对所述第一问题进行聚类, 得到第二问题簇, 包括: 基于所述第 一问题的聚类得分, 从所述第 一问题簇 中确定出包括所述基准问题在内的 第二问题簇; 从所述第一问题簇中移出所述第二问题簇, 得到更新后的第一问题簇, 并重新确定所 述第一问题簇中的基准问题及其基准回复, 以及所述第一问题簇中的第一问题的聚类得 分, 直至所述第一问题簇中不存在第一问题。 4.根据权利要求1至3中任一项所述的问题聚类方法, 其特征在于, 所述确定所述第一 问题簇中的基准问题及其基准回复, 包括: 在所述第一问题簇 中存在携带预设回复的问题的情况下, 将所述携带预设回复的问题 确定为所述基准问题, 将所述预设回复确定为所述基准回复; 在所述第一问题簇 中不存在携带预设回复的问题的情况下, 将所述第 一问题簇 中的任 一问题确定为所述基准问题, 并生成所述基准问题的对话回复作为所述基准回复。 5.根据权利要求1至3中任一项所述的问题聚类方法, 其特征在于, 所述获取第一问题 簇, 包括: 基于所述第一问题的语义特 征, 对所述第一问题进行语义聚类, 得到所述第一问题簇 。 6.根据权利要求5所述的问题聚类方法, 其特征在于, 所述对所述第 一问题进行语义 聚 类, 得到所述第一问题簇, 包括: 基于所述第一问题 的语义特征, 以及多个预设问题簇中的预设问题的语义特征, 对所 述第一问题进行语义聚类, 得到多个语义问题簇, 将包含有所述第一问题的语义问题簇作 为所述第一问题簇 。 7.根据权利要求5所述的问题聚类方法, 其特征在于, 所述第 一问题的语义特征的确定 步骤包括: 基于语义特 征模型, 提取第一问题的语义特 征; 所述语义特征模型是基于属于同一预设问题簇的预设问题的语义特征之间的距离, 和/或, 属于不同预设问题簇的预设问题的语义特 征之间的距离训练得到的。 8.根据权利要求1至3中任一项所述的问题聚类方法, 其特征在于, 所述回复概率的确 定步骤包括: 基于对话生成模型, 确定以所述第 一问题为输入、 以所述基准回复为输出的概率, 作为权 利 要 求 书 1/2 页 2 CN 115495567 A 2所述回复概 率; 所述对话生成模型是以对话数据中的上文为样本、 以所述对话数据中的下文为标签训 练得到的。 9.一种问题聚类装置, 其特 征在于, 包括: 问题确定单 元, 用于获取第一问题簇, 所述第一问题簇包括待聚类的第一问题; 概率确定单元, 用于确定所述第一问题簇中的基准问题及其基准回复, 以及所述第一 问题簇中的第一问题以所述基准回复作为对话回复的回复概 率; 聚类单元, 用于基于所述第 一问题的回复概率, 对所述第 一问题进行聚类, 得到第二问 题簇。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至8任一项所 述问题聚类方法。 11.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至8任一项所述问题聚类方法。权 利 要 求 书 2/2 页 3 CN 115495567 A 3

PDF文档 专利 问题聚类方法、装置、电子设备和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 问题聚类方法、装置、电子设备和存储介质 第 1 页 专利 问题聚类方法、装置、电子设备和存储介质 第 2 页 专利 问题聚类方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。