专利一种针对垂直领域机器翻译的低资源优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211408443.5 (22)申请日 2022.11.10 (71)申请人南京万得资讯科技有限公司地址 210019 江苏省南京市建邺区泰山路 199号22楼 (72)发明人朱胜　褚佳文　吴宇鹏　 (74)专利代理机构上海申汇专利代理有限公司 31001 专利代理师翁若莹　柏子雵 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/58(2020.01) G06F 16/36(2019.01) (54)发明名称一种针对垂直领域机器翻译的低资源优化方法 (57)摘要本发明公开了一种针对垂直领域机器翻译的低资源优化方法，其特征在于，包括数据准备；目标识别；机器清洗；人工清洗；重新训练机器翻译模型。与现有技术相比，本发明具有如下有益效果：无需大量高质量标注平行语料，仅需通用领域语料即可完成机器翻译在专业领域中的冷启动问题；无需专业外语专业的人才；无需高算力显卡和预训练大模型；在系统设计过程中主要分为数据准备、目标识别、机器清洗、人工清洗、模型训练等几个模块，可以按照业务需求、算力资源、技术储备等多个因素自由调整其中的算法；字典为构建垂直领域知识图谱奠基；易于扩展到任意垂直领域。权利要求书2页说明书9页附图2页 CN 115455964 A 2022.12.09 CN 115455964 A 1.一种针对垂直领域机器翻译的低资源优化方法，其特征在于，包括以下步骤：步骤1、数据准备：准备用于训练机器翻译模型的双语平行语料数据，该双语平行语料数据为一个文本数据集，文本数据集中的每一行数据由一条源语言 X={x1,x2,...,xn}和一条对应的目标语言 Y ={y1,y2,...,ym}构成；步骤2、目标识别：采用目标检测模型，在双语平行语料数据的源语言和目标语言中定位垂直领域特定目标短语和实体，对于双语平行语料数据中的任意一条双语平行语料数据 Data={X,Y}，采用目标检测模型进行目标识别包括以下步骤：利用目标检测模型对源语言 X={x1,x2,...,xn}进行业务需求所关注的源短语的检测，判断在基准字典 Dict={S,T,A}中是否存在与源语言 X对应的k个源短语，若存在且基准字典 Dict={S,T,A}中同时存在所有与 k个源短语对应的正确翻译的目标短语，则将双语平行语料数据Data={X,Y}判定为合格数据，进入步骤5，否则将双语平行语料数据 Data={X,Y}中存在的能够与基准字典 Dict={S,T,A}中的源短语对应的源语言进行标记后，将双语平行语料数据Data={X,Y}输出到待清洗数据集，进行步骤3的清洗，其中，基准字典 Dict={S,T,A}是一个记录了不同业务需求所关注的源短语 S={s1,s2,...,si}、和其对应正确翻译的目标短语T={t1,t2,...,ti}以及其对应错误翻译的目标短语 A={a1,a2,...,ai}的字典，其中，目标语言的错误翻译存在多个，即 ai={ai1,ai2,..,aij}；步骤3、机器清洗：基于步骤2中标记的源语言，通过基准字典 Dict={S,T,A}进行正则替换清洗，若至少进行过一次正则替换清洗，则进入步骤5，否则进入步骤4；步骤4、基于步骤2中标记的源语言进行人工清洗，进入步骤5；步骤5、基于上一步获得的双语平行语料，重新训练机器翻译模型。 2.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤1中，所述双语平行语料数据包括基于公开通用领域的双语平行语料数据以及与业务需求相关的垂直领域双语平行语料数据。 3.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤1中，目标语言 Y={y1,y2,...,ym}由基于源语言 X={x1,x2,...,xn}利用机器翻译服务翻译得到。 4.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤2中，目标检测模型采用实体识别模型实现，或者采用基准字典 Dict={S,T,A}和正则表达式相结合的方式实现，或者采用基准字典 Dict={S,T,A}和flashtext算法相结合的方式实现。 5.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤3中，进行正则替换清洗具体包括以下步骤：根据步骤2中标记的源语言，得到基准字典 Dict={S,T,A}中与其对应的错误翻译的目标短语和正确翻译的目标短语，将错误翻译的目标短语记为错误翻译，将正确翻译的目标短语记为正确翻译；权　利　要　求　书 1/2 页 2 CN 115455964 A 2遍历错误翻译中的每个短语，根据错误翻译中每个短语所对应字符串的长度，从长到短依次利用正则表达式对目标语言 Y中的错误翻译用对应的正确翻译进行替换；若至少进行了一次替换操作，则认为机器清洗已完成，将替换后所获得的双语平行语料数据视为合格数据，进入步骤5；若遍历错误翻译后没有发生至少一次的替换，则进入步骤5 。 6.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，所述步骤4中，基于办公软件对步骤2中标记的源语言进行高亮显示后，利用该办公软件进行人工清洗。 7.如权利要求1所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，若有新的业务需求时：根据新的业务需求更新基准字典 Dict={S,T,A}；判断新的业务需求是否有需要补充新的双语平行语料数据，若有新的双语平行语料数据，则从所述步骤1开始执行，直至执行完步骤5；若没有补充的新的双语平行语料数据，则从所述步骤2开始执行，直至执行完步骤5 。 8.如权利要求7所述的一种针对垂直领域机器翻译的低资源优化方法，其特征在于，对所述基准字典 Dict={S,T,A}的更新包括：在所述基准字典 Dict={S,T,A}中添加新的业务需求关注的目标短语和实体，记录其源短语、目标短语和对应错误翻译的目标短语；或者根据新的业务需求，删除基准字典 Dict={S,T,A}中不需要的目标短语和实体；或者根据新的业务需求，改动业务需求所关注的目标短语和实体，记录其新的源短语、目标短语和对应错误翻译的目标短语。权　利　要　求　书 2/2 页 3 CN 115455964 A 3

专利 一种针对垂直领域机器翻译的低资源优化方法

专利一种针对垂直领域机器翻译的低资源优化方法