全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210069852.0 (22)申请日 2022.01.21 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 杨燕 李程烽 贺樑  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种用于少样本意图识别系统的自训练模 型构建方法 (57)摘要 本发明公开了一种用于少样本意图识别系 统的自训练模 型构建方法, 其特点是该方法采用 特殊样例选择模块筛选不确定较高的样例, 在每 一次轮自我训练过程中对每一个批次的候选样 例选择不确定性最高的一组样例作为候选列表, 将其通过自适应主动阈值模块筛选, 分为高确定 型样例和特殊样例两种类别, 其中特殊样例即高 不确定性样例送往数据库人工标注, 高确定性样 例作为自训练模 型中的伪标签, 最后将两类标注 并入训练集中进行下一轮自训练迭代。 本发明与 现有技术相比具有加快模型的推理速度和减少 人工标注成本, 降低应用成本和时间成本, 有效 提高了在电商领域意图识别场景下的准确率, 能 够应用在多种不同的场景, 具有广泛的实用意 义。 权利要求书2页 说明书5页 附图1页 CN 114595695 A 2022.06.07 CN 114595695 A 1.一种用于少 样本意图识别系统的自训练模型构建方法, 其特征在于采用自训练教师 模型与主动学习结合的方法, 构建特殊样例 选择模块和自适应主动阈值模块, 在自训练的 过程中筛选出特殊的样例交由数据库进行人工标注, 高确定性样例则作为自训练模型中的 伪标签, 最后将两类标注并入训练集中进行下一轮 自训练迭代, 其自训练教师模型 的构建 和主动学习具体包括如下步骤: 步骤一: 构建一个由教师模型、 已标注数据集和无标注数据集组成的自训练教师模型, 将自训练教师模型从一个已标注数据集Dl开始, 然后教师模型被应用于预测无标注数据集 Du的一个子 集, 并将获得的伪标签加入 到已标注数据集Dl中重新训练教师模型, 进行下一轮 的预测并重复执 行, 直到无 标注数据集Du全部使用或 教师模型满足收敛 标准结束; 所述自训练教师模型由下述a 式进行训练: z(x)=1{y|p(x, y)>t, y∈L}      (a); 其中: 1∈{0, 1}表示取整函数, 当且仅当输入条件成立时取值为1; z是置信度得分; y是 伪标注表示由教师模型对输入的x的预测类别; 步骤二: 构建一个由自一致性的主动学习算法和自适应主动阈值模块组成的特殊样例 选择模块, 其建模过程如下: 2‑1)利用一个BERT的模型作为教师模型, 在给定一个包含有l类标签的意图识别任务 中, 已标注数据集Dl、 无标注数据集Du、 每一轮筛选的主动学习批次大小B和给定一轮对话St ={s0, s1, ..., sl‑1}的条件下, 预测每一轮的对话类别的概率P, 并 由下述b式优化交叉熵损 失函数‑logP: 其中: W为模型的参数; p(yl|xt; W)为模型 预测的对话类别的概 率P; 2‑2)由下述c式计算当前主动学习批次B中每 个类别的预测概 率: 2‑3)将上述预测概 率由下述d式通过最大化置信度分数来 生成每个样例的伪标签: 其中: 是每个样例的伪标签的类别; 2‑4)得到一组由下述e式表示的候选样例集 合: 所述自一 致性的主动学习算法的处 理过程如下: 1)特殊样例选择模块通过训练好的教师模型得到的候选集合Kp和伪标签的预测概率 从已标注数据集Dl中初始化和主动学习批次同样大小的真实标注分 布, 该两个分布由下述f式表示 为: 其中: ε是一个极小的正 值; c是真实的标注类别; 2)计算上述两个分布之间的距离, 得到真实类别与教师模型之间的一致性损失, 该一权 利 要 求 书 1/2 页 2 CN 114595695 A 2致性损失由下述g 式表示为: 其中: Dkl为KL散度; fw为当前自训练轮次的教师模型及其 参数; xk为对应的无 标注样例; 所述自适应主动阈值模块包含了两种阈值, 一种为控制每个类别生成的伪标签的数 量, 另一种为控制应交由数据库人工标注的标签的数量, 利用特殊样例 选择模块中得到的 自一致性损失和当前训练集中真实标注的分布以及当前教师模型 的准确率, 其中: 对每一 个类别所需的两种数量的集 合定义如下述h~i式表示 为: Np=α·Na, α ∈N*        (i); 式中: Na为一个集合, 表示每个意图类别主动学习挑 选的应交由数据库人工标注的标签 的数量; Np为每个意图类别由模型生成的伪标签的数量; B为主动学习批次的大小; 为 取整函数; pi为相应的类别的预测概 率; λ和 α 是放大系数; 步骤三: 在给定了上述一致性损 失和类别平衡的约束后, 且由下述j~k式对这些特殊 样例进行筛 选的置信度得分计算和排序: Score(si)=pk‑Lk(xk, fw)    (j); 其中: Score(  )为当前主动学习批次的的得分; si为预测对话xi的得分, 为内部元 素按从大到小排序; 步骤四: 根据排序的列表和两种类别数量的约束后, 挑选置信度得分较低的作为特殊 样例交由数据库进行人工标注后加入到训练集, 并将高置信度得分的样例作为伪标签加入 到训练集中, 即可利用少量的有标注数据, 在自训练的过程中筛选出特殊的样例交由数据 库进行人工标注, 同时生成高置信度的伪标签。权 利 要 求 书 2/2 页 3 CN 114595695 A 3

PDF文档 专利 一种用于少样本意图识别系统的自训练模型构建方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于少样本意图识别系统的自训练模型构建方法 第 1 页 专利 一种用于少样本意图识别系统的自训练模型构建方法 第 2 页 专利 一种用于少样本意图识别系统的自训练模型构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。