(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211408443.5
(22)申请日 2022.11.10
(71)申请人 南京万得资 讯科技有限公司
地址 210019 江苏省南京市 建邺区泰山路
199号22楼
(72)发明人 朱胜 褚佳文 吴宇鹏
(74)专利代理 机构 上海申汇 专利代理有限公司
31001
专利代理师 翁若莹 柏子雵
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06F 40/58(2020.01)
G06F 16/36(2019.01)
(54)发明名称
一种针对垂直领域机器翻译的低资源优化
方法
(57)摘要
本发明公开了一种针对垂直领域机器翻译
的低资源优化方法, 其特征在于, 包括数据准备;
目标识别; 机器清洗; 人工清洗; 重新训练机器翻
译模型。 与现有技术相比, 本发明具有如下有益
效果: 无需大量高质量标注平行语料, 仅需通用
领域语料即可完成机器翻译在专业领域中的冷
启动问题; 无需专业外语专业的人才; 无需高算
力显卡和预训练大模型; 在系统设计过程中主要
分为数据准备、 目标识别、 机器清洗、 人工清洗、
模型训练等几个模块, 可 以按照业务需求、 算力
资源、 技术储备等多个因素自由调整其中的算
法; 字典为构建垂直领域知识图谱奠基; 易于扩
展到任意垂直领域。
权利要求书2页 说明书9页 附图2页
CN 115455964 A
2022.12.09
CN 115455964 A
1.一种针对垂直领域机器翻译的低资源 优化方法, 其特 征在于, 包括以下步骤:
步骤1、 数据准备:
准备用于训练机器翻译模型的双语平行语料数据, 该双语平行语料数据为一个文本数
据集, 文本数据集中的每一行数据由一条源语言 X={x1,x2,...,xn}和一条对应的目标语言 Y
={y1,y2,...,ym}构成;
步骤2、 目标识别:
采用目标检测模型, 在双语平行语料数据的源语言和目标语言中定位垂直领域特定目
标短语和实体, 对于双语平行语料数据中的任意一条双语平行语料数据 Data={X,Y}, 采用
目标检测模型进行目标识别包括以下步骤:
利用目标检测模型对源语言 X={x1,x2,...,xn}进行业务需求所关注的源短语 的检测,
判断在基准字典 Dict={S,T,A}中是否存在与源语言 X对应的k个源短语, 若存在且基准字典
Dict={S,T,A}中同时存在所有与 k个源短语对应的正确翻译的目标短语, 则将双语平行语
料数据Data={X,Y}判定为合格数据, 进入步骤5, 否则将双语平行语料数据 Data={X,Y}中存
在的能够与基准字典 Dict={S,T,A}中的源短语对应的源语言进行标记后, 将双语平行语料
数据Data={X,Y}输出到待清洗数据集, 进行步骤3的清洗, 其中, 基准字典 Dict={S,T,A}是
一个记录了不同业务需求所关注的源短语 S={s1,s2,...,si}、 和其对应正确翻译的目标短
语T={t1,t2,...,ti}以及其对应错误翻译的目标短语 A={a1,a2,...,ai}的字典, 其中, 目标
语言的错 误翻译存在多个, 即 ai={ai1,ai2,..,aij};
步骤3、 机器清洗:
基于步骤2中标记的源语言, 通过基准字典 Dict={S,T,A}进行正则替换清洗, 若至少进
行过一次正则替换清洗, 则进入步骤5, 否则进入步骤4;
步骤4、 基于步骤2中标记的源语言进行 人工清洗, 进入步骤5;
步骤5、 基于上一 步获得的双语平行语料, 重新训练机器翻译模型。
2.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 所
述步骤1中, 所述双语平行语料数据包括基于公开通用领域的双语平行语料数据以及与业
务需求相关的垂直领域双语平行语料 数据。
3.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 所
述步骤1中, 目标语言 Y={y1,y2,...,ym}由基于源语言 X={x1,x2,...,xn}利用机器翻译服务
翻译得到 。
4.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 所
述步骤2中, 目标检测模 型采用实体识别模 型实现, 或者采用基准字典 Dict={S,T,A}和正则
表达式相结合的方式实现, 或者采用基准字典 Dict={S,T,A}和flashtext算法相结合的方
式实现。
5.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 所
述步骤3中, 进行正则替换清洗具体包括以下步骤:
根据步骤2中标记的源语言, 得到基准字典 Dict={S,T,A}中与其对应的错误翻译的目
标 短 语 和 正 确 翻 译 的 目 标 短 语 ,将 错 误 翻 译 的 目 标 短 语 记 为 错 误 翻 译
, 将正确翻译的目标短语记为 正确翻译
;权 利 要 求 书 1/2 页
2
CN 115455964 A
2遍历错误翻译
中的每个短语, 根据错误翻译
中每个短语所对应字符串的长度, 从长到短依次利用正则表达式对目标语言 Y中的错误翻
译用对应的正确翻译
进行替换;
若至少进行了一次替换操作, 则认为机器清洗已完成, 将替换后所获得的双语平行语
料数据视为合格数据, 进入步骤5; 若遍历错误翻 译
后没有发生至少一
次的替换, 则进入步骤5 。
6.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 所
述步骤4中, 基于办公软件对步骤2中标记的源语言进行高亮显示后, 利用该办公软件进行
人工清洗 。
7.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 若
有新的业 务需求时:
根据新的业 务需求更新基准字典 Dict={S,T,A};
判断新的业务需求是否有需要补充新的双语平行语料数据, 若有新的双语平行语料数
据, 则从所述步骤1开始执行, 直至执行完步骤5; 若没有补充的新的双语平行语料数据, 则
从所述步骤2开始执 行, 直至执 行完步骤5 。
8.如权利要求7所述的一种针对垂直领域机器翻译的低资源优化方法, 其特征在于, 对
所述基准字典 Dict={S,T,A}的更新包括:
在所述基准字典 Dict={S,T,A}中添加新的业务需求关注的目标短语和实体, 记录其源
短语、 目标短语和对应错 误翻译的目标短语;
或者根据新的业 务需求, 删除基准字典 Dict={S,T,A}中不需要的目标短语和实体;
或者根据新的业务需求, 改动业务需求所关注的目标短语和实体, 记录其新的源短语、
目标短语和对应错 误翻译的目标短语。权 利 要 求 书 2/2 页
3
CN 115455964 A
3
专利 一种针对垂直领域机器翻译的低资源优化方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:41:21上传分享