专利文本图像矫正方法、装置、电子设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210110162.5 (22)申请日 2022.01.28 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人范森　乔美娜　刘珊珊　吕鹏原　章成全　姚锟　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师杨静 (51)Int.Cl. G06V 10/24(2022.01) G06V 10/26(2022.01) G06V 10/44(2022.01) (54)发明名称文本图像矫正方法、装置、电子设备以及存储介质 (57)摘要本公开提供了一种文本图像矫正方法、装置、电子设备以及存储介质，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：从待矫正文本图像的待矫正文本区域的边界中确定至少一个第一备选控制点序列；根据至少一个第一备选控制点序列包括的多个第一备选控制点各自的位置信息和与待矫正文本图像对应的预期文本图像的预期控制点序列包括的多个预期控制点各自的位置信息，得到至少一个备选矫正文本图像的备选矫正文本图像数据；根据对至少一个备选矫正文本图像的备选矫正文本图像数据进行评估得到的评估结果，从至少一个备选矫正文本图像中确定目标矫正文本图像。权利要求书4页说明书16页附图6页 CN 114494686 A 2022.05.13 CN 114494686 A 1.一种文本图像矫正方法，包括：从待矫正文本图像的待矫正文本区域的边界中确定至少一个第一备选控制点序列，其中，所述第一备选控制点序列包括多个第一备选控制点；根据所述至少一个第一备选控制点序列包括的多个第一备选控制点各自的位置信息和与所述待矫正文本图像对应的预期文本图像的预期控制点序列包括的多个预期控制点各自的位置信息，得到至少一个备选矫正文本图像的备选矫正文本图像数据；以及根据对所述至少一个备选矫正文本图像的备选矫正文本图像数据进行评估得到的评估结果，从所述至少一个备选矫正文本图像中确定目标矫正文本图像。 2.根据权利要求1所述的方法，其中，所述根据对所述至少一个备选矫正文本图像的备选矫正文本图像数据进行评估得到的评估结果，从所述至少一个备选矫正文本图像中确定目标矫正文本图像，包括：对所述至少一个备选矫正文本图像的备选矫正文本图像数据进行评估，得到所述至少一个备选矫正文本图像各自的评估值；从所述至少一个备选矫正文本图像各自的评估值中确定目标评估值；以及将与所述目标评估值对应的备选矫正文本图像确定为所述目标矫正文本图像。 3.根据权利要求1或2所述的方法，其中，所述对所述至少一个备选矫正文本图像的备选矫正文本图像数据进行评估，得到所述至少一个备选矫正文本图像各自的评估值，包括：利用平整文本图像识别模型处理所述至少一个备选矫正文本图像的备选矫正文本图像数据，得到所述至少一个备选矫正文本图像各自的评估值，其中，所述平整文本图像识别模型是利用训练样本训练预定分类器得到的，所述训练样本包括样本平整文本图像的样本平整文本图像数据和样本扭曲文本图像的样本扭曲文本图像数据，所述样本扭曲文本图像数据是对所述样本平整文本图像数据进行扭曲处理得到的。 4.根据权利要求3所述的方法，其中，所述样本扭曲文本图像数据是对所述样本平整文本图像数据进行扭曲处理得到的，包括：所述样本扭曲文本图像数据是基于预定变换算法，根据第一样本控制点序列包括的多个第一样本控制点各自的位置信息和与所述样本平整文本图像对应的第二样本控制点序列包括的多个第二样本控制点各自的位置信息得到的，其中，所述第一样本控制点序列是根据所述第二样本控制点序列得到的。 5.根据权利要求1～4中任一项所述的方法，其中，所述从待矫正文本图像的待矫正文本区域的边界中确定至少一个第一备选控制点序列，包括：从所述待矫正文本图像的待矫正文本区域的边界中确定多个第二备选控制点序列；以及从所述多个第二备选控制点序列中确定所述至少一个第一备选控制点序列。 6.根据权利要求5所述的方法，其中，所述第二备选控制点序列包括多个第二备选控制点，所述多个第二备选控制点包括所述待矫正文本区域沿阅读方向的第一边界上的M个第二备选控制点和第二边界上的M个第二备选控制点；其中，与第0序号对应的第二备选控制点表征左上角点，与第(M ‑1)序号对应的第二备选控制点表征右上角点，与第M序号对应的第二备选控制点表征右下角点，与第(2M ‑1)序号权　利　要　求　书 1/4 页 2 CN 114494686 A 2对应的第二备选控制点表征左下角点，其中， M是大于或等于1的整数。 7.根据权利要求6所述的方法，其中，所述从所述多个第二备选控制点序列中确定至少一个第一备选控制点序列，包括：针对所述多个第二备选控制点序列中的每个第二备选控制点序列，在根据所述第一边界上的与第k序号对应的第二备选控制点的位置信息、所述第二边界上的与第(k+M)序号对应的第二备选控制点的位置信息、所述第一边界上的与第h序号对应的第二备选控制点的位置信息和所述第二边界上的与第(h+M)序号对应的第二备选控制点的位置信息，确定第k 线段与第h线段未相交的情况下，将所述第二备选控制点序列确定为所述第一备选控制点序列，其中，所述第k线段是根据与所述第k序号对应的第二备选控制点和与所述第(k+M)序号对应的第二备选控制点确定的；其中，所述第h线段是根据与所述第h序号对应的第二备选控制点和与所述第(h+M)序号对应的第二备选控制点确定的；其中， k和h均是大于或等于 0且小于或等于(M ‑1)的整数且k≠ h。 8.根据权利要求6或7所述的方法，其中，所述从所述待矫正文本图像的待矫正文本区域的边界中确定多个第二备选控制点序列，包括：基于预定排序策略，对所述多个第二备选控制点各自的序号进行多次调整，得到每次调整后的序号序列；以及根据所述每次调整后的序号序列，得到每个所述第二备选控制点序列。 9.根据权利要求8所述的方法，其中，所述基于预定排序策略，对所述多个第二备选控制点各自的序号进行多次调整，得到每次调整后的序号序列，包括：针对第i次调整，将与初始序号为第i序号对应的第二备选控制点的序号调整为第0序号，其中， i是大于或等于1且小于或等于(2M ‑1)的整数；在j‑i＞0的情况下，将与初始序号为第j序号对应的第二备选控制点的序号调整为第 (j‑i)序号，其中， j是大于或等于1且小于或等于(2M ‑1)的整数且j≠i；以及在j‑i＜0的情况下，将与初始序号为第j序号对应的第二备选控制点的序号调整为第 (j+2M‑i)序号。 10.根据权利要求1～9中任一项所述的方法，其中，所述根据所述至少一个第一备选控制点序列包括的多个第一备选控制点各自的位置信息和与所述待矫正文本图像对应的预期文本图像的预期控制点序列包括的多个预期控制点各自的位置信息，得到至少一个备选矫正文本图像的备选矫正文本图像数据，包括：基于预定变换算法，根据所述至少一个第一备选控制点序列包括的多个第一备选控制点各自的位置信息和与所述待矫正文本图像对应的预期文本图像的预期控制点序列包括的多个预期控制点各自的位置信息，得到所述至少一个备选矫正文本图像的备选矫正文本图像数据。 11.根据权利要求10所述的方法，其中，所述预定变换算法包括薄板样条插值算法。 12.一种文本图像矫正装置，包括：第一确定模块，用于从待矫正文本图像的待矫正文本区域的边界中确定至少一个第一备选控制点序列，其中，所述第一备选控制点序列包括多个第一备选控制点；权　利　要　求　书 2/4 页 3 CN 114494686 A 3

专利 文本图像矫正方法、装置、电子设备以及存储介质

专利文本图像矫正方法、装置、电子设备以及存储介质