全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210089423.X (22)申请日 2022.01.25 (71)申请人 语联网 (武汉) 信息技 术有限公司 地址 430206 湖北省武汉市江夏区东湖高 新技术开发区高新大道999号武汉未 来科技城B区B2栋B座 (72)发明人 蔡洁  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 郑朝然 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/58(2020.01) (54)发明名称 语料分类方法、 垂 直行业机器翻译 方法及装 置 (57)摘要 本发明提供一种语料分类方法、 垂直行业机 器翻译方法及装置, 该方法包括: 基于目标平行 语料库, 获取各目标语料的原文分词和译文分 词; 基于原文分词和译文分词, 获取第一原文句 向量和第一译文句向量; 将第一原文句向量和第 一译文句向量, 分别进行嵌入, 获取第二原文句 向量和第二译文句向量; 基于第一原文句向量、 第一译文句向量、 第二原文句向量和第二译文句 向量, 计算得到目标相似度; 在目标相似度大于 或者等于目标阈值的情况下, 目标语料的类型为 第一目标类型。 本发明提供的语料分类方法、 垂 直行业机器翻译方法及装置, 能够依靠进行简单 的向量计算, 实现对不同语料的分类, 操作简便, 可解释性高。 权利要求书2页 说明书13页 附图2页 CN 114461799 A 2022.05.10 CN 114461799 A 1.一种语料分类方法, 其特 征在于, 包括: 基于目标平行语料库, 获取 各目标语料的原文分词和译 文分词; 基于所述原文分词和所述译 文分词, 获取第一原文句向量和第一译 文句向量; 将所述第一原文句向量和所述第一译文句向量, 分别进行嵌入, 获取第二原文句向量 和所述第二译 文句向量; 基于所述第一原文句向量、 所述第一译文句向量、 所述第二原文句向量和所述第二译 文句向量, 计算得到目标相似度; 在所述目标相似度大于或者等于目标阈值的情况下, 所述目标语料的类型为第 一目标 类型; 其中, 所述目标阈值是基于所述目标平行语料库设定, 所述目标平行语料库的数量可 以为一个或者多个, 所述目标语料为所述目标平行语料库中的文本数据。 2.根据权利要求1所述的语料分类方法, 其特征在于, 在所述计算得到目标相似度之 后, 还包括: 在所述目标相似度小于目标阈值的情况下, 所述目标语料的类型为第二目标类 型; 其中, 所述第一目标类型与所述第二目标类型互斥。 3.根据权利要求1或2所述的语料分类方法, 其特征在于, 所述基于所述第一原文句向 量、 所述第一译文句向量、 所述第二原文句向量和所述第二译文句向量, 计算得到目标相似 度, 包括: 基于所述第一原文句向量和所述第二译 文句向量, 获取第一相似度; 基于所述第一译 文句向量和所述第二原文句向量, 获取第二相似度; 基于所述第一相似度和第二相似度, 进行加权求和, 获取 所述目标相似度。 4.根据权利要求1所述的语料分类方法, 其特征在于, 所述基于所述原文分词和所述译 文分词, 获取第一原文句向量和第一译 文句向量, 包括: 将所述原文分词和所述译 文分词分别进行嵌入, 获取原文词向量和译 文词向量; 将所述原文词向量和所述译文词向量分别进行求和, 获取所述第 一原文句向量和所述 第一译文句向量。 5.一种垂直行业机器翻译方法, 其特 征在于, 包括: 获取目标垂直行业的待翻译源语言文本; 将所述待翻译源语言文本输入预先建立的目标翻译模型, 得到所述待翻译源语言文本 对应的目标语言文本; 其中, 所述目标翻译模型采用所述目标垂直行业的初始训练语料对, 以及采用 如权利 要求1至4中任一所述的语料分类方法从所述 目标平行语料库中获取 的具有目标类型 的增 强训练语料对, 所述 目标类型与所述 目标垂直行业匹配, 所述增强训练语料对与所述初始 训练语料对具有目标比例关系。 6.一种语料分类装置, 其特 征在于, 包括: 分词模块, 用于基于目标平行语料库, 获取 各目标语料的原文分词和译 文分词; 第一获取模块, 用于基于所述原文分词和所述译文分词, 获取第一原文句向量和第一 译文句向量; 第二获取模块, 用于将所述第 一原文句向量和所述第 一译文句向量, 分别进行嵌入, 获权 利 要 求 书 1/2 页 2 CN 114461799 A 2取第二原文句向量和所述第二译 文句向量; 相似度计算模块, 用于基于所述第 一原文句向量、 所述第 一译文句向量、 所述第 二原文 句向量和所述第二译 文句向量, 计算得到目标相似度; 第一分类模块, 用于在所述目标相似度大于或者等于目标阈值的情况下, 所述目标语 料的类型为第一目标类型; 其中, 所述目标阈值是基于所述目标平行语料库设定, 所述目标平行语料库的数量可 以为一个或者多个, 所述目标语料为所述目标平行语料库中的文本数据。 7.一种垂直行业机器翻译装置, 其特 征在于, 包括: 源文本获取模块, 用于获取目标垂直行业的待翻译源语言文本; 翻译模块, 用于将所述待翻译源语言文本输入预先建立的目标翻译模型, 得到所述待 翻译源语言文本对应的目标语言文本; 其中, 所述目标翻译模型采用所述目标垂直行业的初始训练语料对, 以及采用 如权利 要求1至4中任一所述的语料分类方法从所述 目标平行语料库中获取 的具有目标类型 的增 强训练语料对, 所述 目标类型与所述 目标垂直行业匹配, 所述增强训练语料对与所述初始 训练语料对具有目标比例关系。 8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至4任一项所 述语料分类方法的步骤或者如权利要求5所述垂直行业机器翻译方法的步骤。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处理器执行时实现如权利要求1至4任一项所述语料分类方法的步骤或者如权利要 求5所述垂直行业机器翻译方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至4任一项所述语料分类方法的步骤或者如权利要求5所述垂直行业 机器翻译方法的步骤。权 利 要 求 书 2/2 页 3 CN 114461799 A 3

PDF文档 专利 语料分类方法、垂直行业机器翻译方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语料分类方法、垂直行业机器翻译方法及装置 第 1 页 专利 语料分类方法、垂直行业机器翻译方法及装置 第 2 页 专利 语料分类方法、垂直行业机器翻译方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。