全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211291117.0 (22)申请日 2022.10.21 (65)同一申请的已公布的文献号 申请公布号 CN 115374252 A (43)申请公布日 2022.11.22 (73)专利权人 北京语言大 学 地址 100083 北京市海淀区学院路15号 (72)发明人 殷晓君 宋国龙 李若凡 卢明文  (74)专利代理 机构 北京市广友专利事务所有限 责任公司 1 1237 专利代理师 张仲波 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/247(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (56)对比文件 CN 114996464 A,202 2.09.02 CN 115048511 A,2022.09.13 CN 113223509 A,2021.08.0 6 US 2022237378 A1,202 2.07.28 程勇等.基 于多元语言特 征与深度特 征融合 的中文文本阅读难度自动分级研究. 《中文信息 学报》 .2020,(第04期), 审查员 董静 (54)发明名称 一种基于原生Bert架构的文本分级方法及 装置 (57)摘要 本发明涉及文本分级技术领域, 特别是指一 种基于原生Bert架构的文本分级方法及装置, 方 法包括: 在原生Bert模型的词表中, 增加一个新 的特殊标记[LEVEL]; 获取初始训练样本并进行 预处理, 预处理后的训练样本的序列形式为 [CLS]W1W2W3...Wn[SEP]K, 其 中, W1W2W3...Wn表示 训练样本的文本, K表示训练样本的特殊标记 [LEVEL]的参数值, 即训练样本对应的复杂度等 级; 基于训练样本, 对预训练的原生Bert模型进 行fine‑tuning训练, 得到训练好的复杂度分级 模型; 对初始待分级文本进行预处理, 将预处理 后的待分级文本输入到训练好的复杂度分级模 型中, 得到初始待分级文本对应的复杂度等级。 采用本发明, 可以更加简洁的将Bert模型应用到 文本分级 任务中, 减少参数量, 降低模型复杂度。 权利要求书2页 说明书7页 附图3页 CN 115374252 B 2022.12.23 CN 115374252 B 1.一种基于原生Ber t架构的文本分级方法, 其特 征在于, 所述方法包括: 在预训练的原生Ber t模型的词表中, 增 加一个新的特殊标记[LEVEL]; 获取初始训练样本, 对所述初始训练样本进行预处理, 得到预处理后的训练样本, 所述 训练样本的序列形式为[CLS]W1W2W3...Wn[SEP]K, 其中, W1W2W3...Wn表示训练样本的文本, K 表示训练样本的特殊标记[LEVEL]的参数值, 即训练样本对应的复杂度等级; 基于所述训练样本, 对预训练的原生Bert模型进行 fine‑tuning训练, 得到训练好的复 杂度分级模型; 对初始待分级文本进行预处理, 得到预处理后的待分级文本, 将所述待分级文本输入 到训练好的复杂度分级模型中, 得到所述初始待分级 文本对应的复杂度等级。 2.根据权利要求1所述的方法, 其特征在于, 所述新的特殊标记[LEVEL]  的参数量为 hidden_size。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述训练样本, 对预训练的原生 Bert模型进行fi ne‑tuning训练, 得到训练好的复杂度分级模型, 包括: 在fine‑tuning训练阶段, 设定迭代次数阈值; 对所述训练样本的复杂度等级K进行遮掩, 得到遮掩后的训练样本, 所述遮掩后的训练 样本的序列形式为[CLS]W1W2W3...Wn[SEP][LEVEL]; 基于预训练的原生Bert模型, 对遮掩后的训练样本中的[LEVEL]对应位置的文本进行 预测, 得到预测候选词K对应的概 率; 基于预测候选词K对应的概率, 计算损失函数, 并对预训练的原生B ert模型进行参数更 新; 当训练次数达 到迭代次数阈值时, 完成模型训练, 得到训练好的复杂度分级模型。 4.根据权利要求1所述的方法, 其特征在于, 所述对初始待分级文本进行预处理, 得到 预处理后的待分级 文本, 包括: 将初始待分级文本的序列形式修改为[CLS]T1T2T3...Tm[SEP][LEVEL], 得到预处理后的 待分级文本, 其中, T1T2T3...Tm为初始待分级 文本。 5.根据权利要求4所述的方法, 其特征在于, 所述将所述待分级文本输入到训练好的复 杂度分级模型中, 得到所述初始待分级 文本对应的复杂度等级, 包括: 将预处理后的待分级文本输入到训练好的复杂度分级模型中, 预测所述预处理后的待 分级文本中的[LEVEL]对应的词J, 将预测得到的词J确 定为所述待分级文本对应的复杂度 等级。 6.一种基于原生Ber t架构的文本分级装置, 其特 征在于, 所述装置包括: 增加模块, 用于在预训练的原生Ber t模型的词表中, 增 加一个新的特殊标记[LEVEL]; 预处理模块, 用于获取初始训练样本, 对所述初始训练样本进行预处理, 得到预处理后 的训练样本, 所述训练样本的序列形式为[CLS]W1W2W3...Wn[SEP]K, 其中, W1W2W3...Wn表示训 练样本的文本, K表示训练样本的特殊标记[LEVEL] 的参数值, 即训练样本对应的复杂度等 级; 训练模块, 用于基于所述训练样本, 对预训练的原生Bert模型进行fine ‑tuning训练, 得到训练好的复杂度分级模型; 分级模块, 用于对初始待分级文本进行预处理, 得到预处理后的待分级文本, 将所述待权 利 要 求 书 1/2 页 2 CN 115374252 B 2分级文本输入到训练好的复杂度分级模型中, 得到所述初始待分级文本对应的复杂度等 级。 7.根据权利要求6所述的装置, 其特征在于, 所述新的特殊标记[LEVEL]  的参数量为 hidden_size。 8.根据权利要求6所述的装置, 其特 征在于, 所述训练模块, 进一 步用于: 在fine‑tuning训练阶段, 设定迭代次数阈值; 对所述训练样本的复杂度等级K进行遮掩, 得到遮掩后的训练样本, 所述遮掩后的训练 样本的序列形式为[CLS]W1W2W3...Wn[SEP][LEVEL]; 基于预训练的原生Bert模型, 对遮掩后的训练样本中的[LEVEL]对应位置的文本进行 预测, 得到预测候选词K对应的概 率; 基于预测候选词K对应的概率, 计算损失函数, 并对预训练的原生B ert模型进行参数更 新; 当训练次数达 到迭代次数阈值时, 完成模型训练, 得到训练好的复杂度分级模型。 9.根据权利要求6所述的装置, 其特 征在于, 所述预处 理模块, 进一 步用于: 将初始待分级文本的序列形式修改为[CLS]T1T2T3...Tm[SEP][LEVEL], 得到预处理后的 待分级文本, 其中, T1T2T3...Tm为初始待分级 文本。 10.根据权利要求9所述的装置, 其特 征在于, 所述分级模块, 进一 步用于: 将预处理后的待分级文本输入到训练好的复杂度分级模型中, 预测所述预处理后的待 分级文本中的[LEVEL]对应的词J, 将预测得到的词J确 定为所述待分级文本对应的复杂度 等级。权 利 要 求 书 2/2 页 3 CN 115374252 B 3

PDF文档 专利 一种基于原生Bert架构的文本分级方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于原生Bert架构的文本分级方法及装置 第 1 页 专利 一种基于原生Bert架构的文本分级方法及装置 第 2 页 专利 一种基于原生Bert架构的文本分级方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。