全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210083731.1 (22)申请日 2022.01.21 (71)申请人 中国科学院软件研究所 地址 100190 北京市海淀区中关村南四街 4 号 (72)发明人 刘方超 林鸿宇 韩先培 孙乐  (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 邱晓锋 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 基于多选匹配网络的统一低样本关系抽取 方法及装置 (57)摘要 本发明公开一种基于多选匹配网络的统一 低样本关系抽取方法及装置。 该方法包括: 基于 预训练语言模型和多选标记的关系描述与关系 实例共同编码和匹配机制; 基于大规模纯文本的 开放信息抽取得到的三元组以及通过生成式预 训练语言模 型生成的复述文本, 以及基于此进行 的三元组 ‑复述预训练方式; 基于新任务下小样 本的在线元学习训练方式。 本发 明的基于多选匹 配网络的机制能够统一建模低样本关系抽取任 务中的各类场景, 并提供高效快速的网络架构, 使得模型更加符合实际应用中对模型性能和速 度的多重要求。 权利要求书2页 说明书6页 附图1页 CN 114528400 A 2022.05.24 CN 114528400 A 1.一种基于多选匹配网络的统一低样本关系抽取 方法, 其特 征在于, 包括以下步骤: 将当前任务的所有关系描述 拼接成一条多选语句; 将待分类实例与多选语句合并, 共同输入多选匹配网络的编码器中; 将编码器编码后的待分类实例的表示与多选语句中每个关系的表示进行匹配, 将相似 度最大的关系作为预测结果, 得到关系抽取 结果。 2.如权利要求1所述的方法, 其特 征在于, 通过以下步骤训练所述多选匹配网络: a)在大规模开放域文本中, 通过OpenIE工具抽 取得到(主语, 谓语, 宾语)三元组, 三元 组的每个部分均为原文本中的文本片段; b)将抽取得到的大量三元组, 通过预训练好的生成式语言模型, 生成包含三元组语义 的对应的复述文本; c)提取三元组中的谓语作为对应生成的复述文本的关系描述, 并通过负采样策略, 为 每个实例采样多个负例关系, 按照多选匹配的方式进行关系 预测和抽取, 并计算关系抽取 的损失函数; d)对于每个包含少量标注样本的新任务, 利用少量标注样本的标签计算多选匹配网络 输出的关系抽取 结果的损失函数, 通过在线学习的方式进行多选匹配网络的模型 更新。 3.如权利要求1所述的方法, 其特 征在于, 所述多选匹配网络的损失函数为: 其中, θ为待学习的模型参数; (x,y)为复述 ‑三元组对; I(.)为指示函数, 当yi为该复述 文本x对应的谓词时I(.)为1, 否则为0; z为包含所有关系信息的多选语句; yi表示第i个关 系类别; N表示上文所提关系类别数量; P(yi|x,z; θ )表示当前复述实例x属于关系yi的概率。 4.如权利要求1所述的方法, 其特 征在于, 所述编码器包括: Ber t、 RoBERTa模型。 5.如权利 要求1所述的方法, 其特征在于, 所述大规模开放域文本包括: WikiPedia文章 所包含的文本 。 6.如权利要求1所述的方法, 其特征在于, 所述OpenIE工具包括: 开源的OpenIE  5.0工 具。 7.如权利要求1所述的方法, 其特 征在于, 所述 生成式语言模型包括: T5、 BART模型。 8.一种采用权利要求1~7中任一权利要求所述方法的基于多选匹配网络的统一低样 本关系抽取装置, 其特 征在于, 包括: 模型训练模块, 用于训练多选匹配网络; 关系抽取模块, 用于将当前任务的所有关系描述拼接成一条多选语句, 将待分类实例 与多选语句合并, 共同输入训练完成的多选匹配网络的编码器中, 然后将编码器编码后的 待分类实例的表示与多选语句中每个关系的表示进行匹配, 将相似度最大的关系作为预测 结果, 得到关系抽取 结果。 9.一种电子装置, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所 述计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求 1~7中 任一权利要求所述方法的指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程权 利 要 求 书 1/2 页 2 CN 114528400 A 2序, 所述计算机程序被 计算机执 行时, 实现权利要求1~7中任一权利要求所述的方法。权 利 要 求 书 2/2 页 3 CN 114528400 A 3

PDF文档 专利 基于多选匹配网络的统一低样本关系抽取方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多选匹配网络的统一低样本关系抽取方法及装置 第 1 页 专利 基于多选匹配网络的统一低样本关系抽取方法及装置 第 2 页 专利 基于多选匹配网络的统一低样本关系抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。