专利一种文本处理方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210921374.1 (22)申请日 2022.08.02 (71)申请人中国银行股份有限公司地址 100818 北京市西城区复兴门内大街1 号 (72)发明人江贵林　荣新淼　汤惠蓉　余胜男　朱凤玲　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师丁曼曼 (51)Int.Cl. G06F 40/131(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 16/242(2019.01)G06F 16/25(2019.01) (54)发明名称一种文本处理方法、装置及电子设备 (57)摘要本申请公开了一种文本处理方法、装置及电子设备，可应用于人工智能领域或金融领域。确定子文本切割得到的字段个数与对应的参考字段个数的大小关系，在大小关系为大于时，对分割得到的字段进行两两合并，得到新字段，确定出新字段中，无须进行分割操作的目标字段，将目标字段以及分割得到的字段中不涉及目标字段的其他字段进行入库操作。在大小关系为小于时，将子文本与位于子文本之后的至少一行文本合并，并执行后续的文本切割以及比对过程。本发明，在字段个数大于或小于对应的参考字段个数的情况下，分别进行相应的处理，从而将与参考字段个数不匹配的文本分割得到的字段成功进行入库操作，相比于直接丢弃的方式，能够提高数据存储的完整性。权利要求书2页说明书9页附图3页 CN 115249006 A 2022.10.28 CN 115249006 A 1.一种文本处理方法，其特征在于，包括：获取待处理文本，并逐行读取所述待处理文本，得到子文本；使用预设分隔符对所述子文本进行分割，得到至少一个字段，并统计所述至少一个字段的字段个数；确定所述字段个数与所述子文本对应的参考字段个数的大小关系；在所述大小关系为大于的情况下，对分割得到的字段进行两两合并，得到新字段；确定出所述新字段中，无须进行分割操作的新字段，并作为目标字段；将所述目标字段以及分割得到的字段中不涉及所述目标字段的其他字段进行入库操作；在所述大小关系为小于的情况下，将所述子文本与位于所述子文本之后的至少一行文本进行合并操作，直至对合并后的文本进行字符串分割操作得到的字段的字段个数不小于对应的参考字段个数时停止；在合并后的文本分割得到的字段的字段个数大于对应的参考字段个数时，执行对分割得到的字段进行两两合并，得到新字段这一步骤，并顺序执行，直至将所述目标字段以及分割得到的字段中不涉及所述目标字段的其他字段进行入库操作时停止。 2.根据权利要求1所述的文本处理方法，其特征在于，对分割得到的字段进行两两合并，得到新字段，包括：将分割得到的字段按照字段的先后顺序进行两两合并，得到新字段。 3.根据权利要求1所述的文本处理方法，其特征在于，确定出所述新字段中，无须进行分割操作的新字段，并作为目标字段，包括：计算所述字段个数与所述参考字段个数的差值；将所述新字段输入预设字段识别模型，以使所述预设字段识别模型输出所述新字段为无须进行分割操作的新字段的概率值；按照新字段的概率值，对新字段进行排序操作，得到排序结果；筛选出概率值大于预设概率阈值的新字段；从筛选出的新字段中，按照排序结果中的排列顺序筛选出符合所述差值的新字段，并作为目标字段。 4.根据权利要求3所述的文本处理方法，其特征在于，在不能从筛选出的新字段中筛选出目标字段的情况下，还包括：将所述子文本作为异常文本，并输出。 5.根据权利要求1所述的文本处理方法，其特征在于，将所述子文本与位于所述子文本之后的至少一行文本进行合并操作，直至对合并后的文本进行字符串分割操作得到的字段的字段个数不小于参考字段个数时停止合并操作，包括：将所述子文本与位于所述子文本之后且紧邻所述子文本的下一行文本进行合并操作；对合并后的文本进行字符串分割操作，得到字段；在所述字段的字段个数小于对应的参考字段个数时，将所述合并后的文本与所述合并后的文本的下一行文本进行合并操作；返回所述对合并后的文本进行字符串分割操作，得到字段这一步骤，并顺序执行，直至对合并后的文本进行字符串分割操作得到的字段的字段个数不小于对应的参考字段个数权　利　要　求　书 1/2 页 2 CN 115249006 A 2时停止。 6.根据权利要求1所述的文本处理方法，其特征在于，在所述大小关系为等于的情况下，还包括：对所述至少一个字段进行入库操作。 7.一种文本处理装置，其特征在于，包括：文本读取模块，用于获取待处理文本，并逐行读取所述待处理文本，得到子文本；文本分割模块，用于使用预设分隔符对所述子文本进行分割，得到至少一个字段，并统计所述至少一个字段的字段个数；比对模块，用于确定所述字段个数与所述子文本对应的参考字段个数的大小关系；字段合并模块，用于在所述大小关系为大于的情况下，对分割得到的字段进行两两合并，得到新字段；字段确定模块，用于确定出所述新字段中，无须进行分割操作的新字段，并作为目标字段；入库操作模块，用于将所述目标字段以及分割得到的字段中不涉及所述目标字段的其他字段进行入库操作；文本合并模块，用于在所述大小关系为小于的情况下，将所述子文本与位于所述子文本之后的至少一行文本进行合并操作，直至对合并后的文本进行字符串分割操作得到的字段的字段个数不小于对应的参考字段个数时停止；所述字段合并模块，还用于在合并后的文本分割得到的字段的字段个数大于对应的参考字段个数时，对分割得到的字段进行两两合并，得到新字段。 8.根据权利要求7 所述的文本处理装置，其特征在于，所述字段合并模块具体用于：将分割得到的字段按照字段的先后顺序进行两两合并，得到新字段。 9.根据权利要求7 所述的文本处理装置，其特征在于，所述字段确定模块包括：差值计算子模块，用于计算所述字段个数与所述参考字段个数的差值；概率值确定子模块，用于将所述新字段输入预设字段识别模型，以使所述预设字段识别模型输出所述新字段为无须进行分割操作的新字段的概率值；排序子模块，用于按照新字段的概率值，对新字段进行排序操作，得到排序结果；第一字段筛选子模块，用于筛选出概率值大于预设概率阈值的新字段；第二字段筛选子模块，用于从筛选出的新字段中，按照排序结果中的排列顺序筛选出符合所述差值的新字段，并作为目标字段。 10.一种电子设备，其特征在于，包括：存储器和处理器；其中，所述存储器用于存储程序；处理器调用程序并用于执行如权利要求1 ‑6任一项所述的文本处理方法。权　利　要　求　书 2/2 页 3 CN 115249006 A 3

专利 一种文本处理方法、装置及电子设备

专利一种文本处理方法、装置及电子设备