全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211463002.5 (22)申请日 2022.11.16 (71)申请人 北京红棉小 冰科技有限公司 地址 100080 北京市海淀区北四环西路67 号6层608房间 (72)发明人 陈杰  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 王治东 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 9/50(2006.01) (54)发明名称 一种模型评估方法、 装置及电子设备 (57)摘要 本发明提供一种模型评估 方法、 装置及电子 设备, 可以获得待用于评估问答对话模型的问答 数据集; 其中, 问答数据集中包括至少一类问题 对应的问答数据子集, 各问答数据子集均包括相 应类别问题下的至少一个问答对, 各问答对均包 括相对应的问题和标准答案; 基于各问答数据子 集, 评估问答对话模型对各类别问题的回答效 果。 本发明可以有效评估问答对话模 型对于不同 类别问题的回答效果, 从而有效评估问答对话模 型的问题回答效果, 定向优化问答对话模型对相 应类别问题的处理性能, 提高模型优化效率, 减 少相关训练资源的消耗。 权利要求书2页 说明书14页 附图4页 CN 115544236 A 2022.12.30 CN 115544236 A 1.一种模型评估方法, 其特 征在于, 包括: 获得待用于评估问答对话模型的问答数据集; 其中, 所述问答数据集中包括至少一类 问题对应的问答数据子集, 各所述问答数据子集均包括相应类别 问题下的至少一个问答 对, 各所述问答对均包括相对应的问题和标准 答案; 基于各所述问答数据子集, 评估所述问答对话模型对各类别问题的回答效果。 2.根据权利要求1所述的模型评估方法, 其特征在于, 所述基于各所述问答数据子集, 评估所述问答对话模型对各类别问题的回答效果, 包括: 对于任一所述问答数据子集: 将所述问答数据子集中各所述问答对中的问题, 分别输 入到所述问答对话模型中, 获得所述问答对话模型分别针对所述问答数据子集中各问题输 出的模型回答, 基于各问题对应的标准答案和模型回答的比较结果, 确定所述问答对话模 型对目标类别问题的回答效果; 所述目标类别问题为一个与所述问答数据子集相对应的所 述类别问题。 3.根据权利要求2所述的模型评估方法, 其特征在于, 所述基于各问题对应的标准答案 和模型回答的比较结果, 确定所述问答对话模型对与所述问答数据子集相对应的目标类别 问题的回答效果, 包括: 分别获得 各问题对应的标准 答案和模型回答的相似度比较结果; 基于各问题对应的标准答案和模型回答的相似度比较结果, 确定所述问答对话模型对 与所述问答数据子集相对应的目标类别问题的回答效果。 4.根据权利要求1所述的模型评估方法, 其特征在于, 所述获得待用于评估问答对话模 型的问答数据集, 包括: 获得初始问答数据集, 所述初始问答数据集中包括多个所述问答对; 分别将所述初始问答数据集中的各所述问答对输入到训练好的问答分类模型中, 获得 所述问答分类模型分别针对所述初始问答数据集中的各 所述问答对输出的问题类别标识; 将对应同一所述问题类别标识的各 所述问答对确定为 一个所述问答数据子集; 将确定出的各 所述问答数据子集组合 为所述问答数据集。 5.根据权利要求1所述的模型评估方法, 其特征在于, 在所述基于各所述问答数据子 集, 评估所述问答对话模型对各类别问题的回答效果之前, 所述模型评估方法还 包括: 分别确定各 所述问答数据子集中所述问答对的数量; 当一个所述问答数据子集中所述问答对的数量不大于预设数量阈值 时, 添加相应类别 问题下的第一数量的问答对至所述问答数据子集中。 6.根据权利要求1所述的模型评估方法, 其特征在于, 在所述基于各所述问答数据子 集, 评估所述问答对话模型对各类别问题的回答效果之前, 所述模型评估方法还 包括: 分别确定各 所述问答数据子集中所述问答对的数量; 根据已确定出的各所述问答数据子集中所述问答对的数量, 通过添加问答对或减少问 答对的方式, 调整各所述问答数据子集中所述问答对的数量, 以使得调整后的各所述问答 数据子集中所述问答对的数量满足预设比例关系。 7.根据权利要求5或6所述的模型评估方法, 其特征在于, 在所述基于各所述问答数据 子集, 评估所述问答对话模型对各类别问题的回答效果之后, 所述模型评估方法还 包括: 基于所述问答对话模型对各类别问题的回答效果, 评估所述问答对话模型的整体模型权 利 要 求 书 1/2 页 2 CN 115544236 A 2性能。 8.根据权利要求7所述的模型评估方法, 其特征在于, 所述基于所述问答对话模型对各 类别问题的回答效果, 评估所述问答对话模型的整体模型性能, 包括: 分别获得 各类别问题的用于 评估所述问答对话模型的整体模型性能的评估权 重; 基于各类别问题的评估权重和所述问答对话模型对各类别问题的回答效果, 加权评估 出所述问答对话模型的整体模型性能。 9.一种模型评估 装置, 其特 征在于, 包括: 获得 单元和评估单 元; 其中: 所述获得单元, 用于获得待用于评估问答对话模型的问答数据集; 其中, 所述问答数据 集中包括至少一类问题对应的问答数据子集, 各所述问答数据子集均包括相应类别问题下 的至少一个问答对, 各 所述问答对均包括相对应的问题和标准 答案; 所述评估单元, 用于基于各所述问答数据子集, 评估所述问答对话模型对各类别问题 的回答效果。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至8任一项所 述模型评估方法。权 利 要 求 书 2/2 页 3 CN 115544236 A 3

PDF文档 专利 一种模型评估方法、装置及电子设备

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型评估方法、装置及电子设备 第 1 页 专利 一种模型评估方法、装置及电子设备 第 2 页 专利 一种模型评估方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:43:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。