全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211382996.8 (22)申请日 2022.11.07 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 吕鹏原 章成全  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/53(2019.01) G06F 16/55(2019.01) G06F 16/583(2019.01) G06N 3/08(2006.01) G06V 10/82(2022.01)G06V 30/148(2022.01) G06V 30/19(2022.01) (54)发明名称 处理文本图像的方法、 神经网络及其训练方 法 (57)摘要 本公开提供了一种处理文本图像的方法、 神 经网络及其训练方法, 涉及人工智能技术领域, 具体为深度学习、 图像处理、 计算机视觉技术领 域, 可应用于OCR等场景。 该方法包括: 将文本图 像输入编码子网络, 以得到第一文本图像特征; 将经训练的多个文本查询特征和第一文本图像 特征输入第一解码子网络, 以得到与多个文本查 询特征对应的多个查询结果特征; 将多个查询结 果特征输入分类子网络, 以得到与多个文本查询 特征对应的多个分类结果; 基于多个分类结果, 在多个文本查询特征中确定至少一个目标查询 特征; 将与至少一个目标查询特征对应的至少一 个查询结果特征和第一文本图像特征输入预测 子网络, 以得到与多个至少一个目标查询特征对 应的文本图像处 理结果。 权利要求书6页 说明书14页 附图6页 CN 115422389 A 2022.12.02 CN 115422389 A 1.一种利用神经网络处理文本图像的方法, 其特征在于, 所述神经网络包括编码子网 络、 第一解码子网络、 分类子网络、 以及预测子网络, 所述方法包括: 将文本图像输入所述编码子网络, 以得到第一文本图像特 征; 将经训练 的多个文本查询特征和所述第 一文本图像特征输入所述第 一解码子网络, 以 得到与所述多个文本查询特 征对应的多个查询结果特 征; 将所述多个查询结果特征输入所述分类子网络, 以得到与所述多个文本查询特征对应 的多个分类结果, 所述分类结果指示对应的文本查询特征是否在所述文本图像中查询到了 文本实例; 基于所述多个分类结果, 在所述多个文本查询特征中确定至少一个目标查询特征, 所 述至少一个目标查询特 征包括查询到了文本实例的文本查询特 征; 以及 将与所述至少一个目标查询特征对应的至少一个查询结果特征和所述第一文本图像 特征输入所述预测子网络, 以得到与所述多个至少一个目标查询特征对应的文本图像处理 结果。 2.根据权利要求1所述的方法, 其特征在于, 所述预测子网络包括文本实例分割子网 络, 其中, 将与所述至少一个目标查询特征对应的至少一个查询结果特征和所述第一文本 图像特征输入所述预测子网络, 以得到与所述多个至少一个目标查询特征对应的文本图像 处理结果包括: 将与所述至少一个目标查询特征对应的至少一个查询结果特征和所述第一文本图像 特征输入所述文本实例分割子网络, 以得到与所述至少一个目标查询特征对应的文本实例 分割结果, 其中, 所述文本实例分割 结果指示所述文本图像中与对应的目标查询特征所查 询到的文本实例对应的文本区域。 3.根据权利要求2所述的方法, 其特征在于, 所述文本实例分割子网络包括掩码嵌入子 网络和第二解码子网络, 其中, 将与所述至少一个目标查询特征对应的至少一个查询结果 特征和所述第一文本图像特征输入所述文本实例分割子网络, 以得到与所述至少一个目标 查询特征对应的文本实例分割结果包括: 将所述第一文本 图像特征输入所述第二解码子网络, 以得到第二文本 图像特征, 所述 第二文本图像特 征具有目标长度、 目标宽度、 以及目标通道数; 分别将所述至少一个查询结果特征中的每一个查询结果特征输入所述掩码嵌入子网 络, 以得到与所述至少一个目标查询特征对应的至少一个掩码嵌入特征, 其中, 所述至少一 个掩码嵌入特 征中的每一个掩码嵌入特 征的向量长度与所述目标通道数相同; 以及 针对所述至少一个目标查询特征中的每一个目标查询特征, 将该目标查询特征的掩码 嵌入特征与所述第二文本图像特征相乘, 以得到与该目标查询特征对应文本实例分割结 果, 所述文本实例分割结果具有所述目标长度和所述目标宽度。 4.根据权利要求3所述的方法, 其特征在于, 所述预测子网络包括字符分割子网络, 其 中, 将与所述至少一个目标查询特征对应的至少一个查询结果特征和所述第一文本图像特 征输入所述预测子网络, 以得到与所述多个至少一个目标查询特征对应的文本图像处理结 果包括: 将所述第一文本 图像特征输入所述字符分割子网络, 以得到多个字符分割结果, 所述 多个字符分割结果与多个字符类别对应, 并且所述多个字符分割结果中的每一个字符分割权 利 要 求 书 1/6 页 2 CN 115422389 A 2结果指示所述文本图像中与该字符分割结果对应的字符类别对应的字符区域; 以及 针对所述至少一个目标查询特征中的每一个目标查询特征, 利用与 该目标查询特征对 应的文本实例分割结果和所述多个字符分割结果, 确定该目标查询特征所查询到的文本实 例的文本内容。 5.根据权利要求4所述的方法, 其特征在于, 将所述第 一文本图像特征输入所述字符分 割子网络, 以得到多个字符分割结果包括: 将所述第一文本图像特征输入所述字符分割子网络, 以得到所述多个字符分割结果和 背景分割结果, 所述背景分割结果指示与所述文本图像中的多个字符对应的多个字符区 域, 其中, 针对所述至少一个目标查询特征中的每一个目标查询特征, 利用与该目标查询 特征对应的文本实例分割结果和所述多个字符分割结果, 确定该目标查询特征所查询到的 文本实例的文本内容包括: 针对所述至少一个目标查询特征中的每一个目标查询特征, 在所述背景分割结果所指 示的多个字符区域中确定位于该目标查询特征对应的文本实例分割结果所指示的文本区 域中的至少一个字符区域; 以及 基于所述多个字符分割结果, 确定所述至少一个字符区域各自对应的字符类别, 以得 到该目标查询特 征所查询到的文本实例的文本内容。 6.根据权利要求4所述的方法, 其特征在于, 所述第 一文本图像特征具有小于所述目标 长度的特征长度和小于所述目标宽度的特征宽度, 所述第二解码子网络和所述字符分割子 网络均被配置为对所述第一文本图像特征进行上采样, 其中, 所述字符分割 结果具有所述 目标长度和所述目标宽度。 7. 根据权利要求1所述的方法, 其特征在于, 所述第一解码子网络包括自注意力子网 络和交叉注意力网络, 其中, 将经训练的多个文本查询特征和所述文本图像特征输入所述 第一解码子网络, 以得到与所述多个文本查询特 征对应的多个查询结果特 征包括: 利用所述自注意力子网络, 基于自注意力机制对所述多个文本查询特征进行处理, 以 得到强化后的多个文本查询特 征; 以及 利用所述交叉注意力 子网络, 基于交叉注意力利用强化后的多个文本查询特征对所述 文本图像特 征进行解码, 以得到所述多个查询结果特 征。 8.一种神经网络的训练方法, 其特征在于, 所述神经网络包括编码子网络、 第 一解码子 网络、 分类子网络、 以及预测子网络, 所述方法包括: 获取样本文本图像和所述样本文本图像中的多个样本文本各自的真实标签; 将所述样本文本图像输入所述编码子网络, 以得到第一文本图像特 征; 将多个文本查询特征和所述第 一文本图像特征输入所述第 一解码子网络, 以得到与 所 述多个文本查询特 征对应的多个查询结果特 征; 将所述多个查询结果特征输入所述分类子网络, 以得到与所述多个文本查询特征对应 的多个分类结果, 所述分类结果指示对应的文本查询特征是否在所述文本图像中查询到了 文本实例; 将所述多个查询结果特征和所述第 一文本图像特征输入所述预测子网络, 以得到与 所 述多个文本查询特 征对应的文本图像处 理结果;权 利 要 求 书 2/6 页 3 CN 115422389 A 3

PDF文档 专利 处理文本图像的方法、神经网络及其训练方法

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 处理文本图像的方法、神经网络及其训练方法 第 1 页 专利 处理文本图像的方法、神经网络及其训练方法 第 2 页 专利 处理文本图像的方法、神经网络及其训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:35:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。