全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921374.1 (22)申请日 2022.08.02 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 江贵林 荣新淼 汤惠蓉 余胜男  朱凤玲  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 丁曼曼 (51)Int.Cl. G06F 40/131(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06F 16/242(2019.01)G06F 16/25(2019.01) (54)发明名称 一种文本处 理方法、 装置及电子设备 (57)摘要 本申请公开了一种文本处理方法、 装置及电 子设备, 可应用于人工智 能领域或金融领域。 确 定子文本切割得到的字段个数与对应的参考字 段个数的大小关系, 在大小关系为大于时, 对分 割得到的字段进行两两合并, 得到新字段, 确定 出新字段中, 无须进行分割操作的目标字段, 将 目标字段以及分割得到的字段中不涉及目标字 段的其他字段进行入库 操作。 在大小关系为小于 时, 将子文本与位于子文本 之后的至少一行文本 合并, 并执行后续的文本切割以及比对过程。 本 发明, 在字段个数大于或小于对应的参考字段个 数的情况下, 分别进行相应的处理, 从而将与参 考字段个数不匹配的文本分割得到的字段成功 进行入库操作, 相比于直接丢弃的方式, 能够提 高数据存 储的完整性。 权利要求书2页 说明书9页 附图3页 CN 115249006 A 2022.10.28 CN 115249006 A 1.一种文本处 理方法, 其特 征在于, 包括: 获取待处 理文本, 并逐 行读取所述待处 理文本, 得到 子文本; 使用预设分隔符对所述子文本进行分割, 得到至少一个字段, 并统计所述至少一个字 段的字段个数; 确定所述字段个数与所述子文本对应的参 考字段个数的大小关系; 在所述大小关系为大于的情况 下, 对分割得到的字段进行两 两合并, 得到新字段; 确定出所述新字段中, 无 须进行分割操作的新字段, 并作为目标字段; 将所述目标字段以及分割得到的字段中不涉及所述目标字段的其他字段进行入库操 作; 在所述大小关系为小于的情况下, 将所述子文本与位于所述子文本之后的至少一行文 本进行合并操作, 直至对合并后的文本进 行字符串分割操作得到的字段的字段个数不小于 对应的参 考字段个数时停止; 在合并后的文本分割得到的字段的字段个数大于对应的参考字段个数时, 执行对分割 得到的字段进 行两两合并, 得到新字段这一步骤, 并顺序执行, 直至将所述目标字段以及分 割得到的字段中不涉及所述目标字段的其 他字段进行入库操作时停止 。 2.根据权利要求1所述的文本处理方法, 其特征在于, 对分割得到的字段进行两两合 并, 得到新字段, 包括: 将分割得到的字段按照字段的先后顺序进行两 两合并, 得到新字段。 3.根据权利要求1所述的文本处理方法, 其特征在于, 确定出所述新字段中, 无须进行 分割操作的新字段, 并作为目标字段, 包括: 计算所述字段个数与所述 参考字段个数的差值; 将所述新字段输入预设字段识别模型, 以使所述预设字段识别模型输出所述新字段为 无须进行分割操作的新字段的概 率值; 按照新字段的概 率值, 对新字段进行排序操作, 得到排序结果; 筛选出概率值大于预设概 率阈值的新字段; 从筛选出的新字段中, 按照排序结果中的排列顺序筛选出符合所述差值的新字段, 并 作为目标字段。 4.根据权利要求3所述的文本处理方法, 其特征在于, 在不 能从筛选出的新字段中筛选 出目标字段的情况 下, 还包括: 将所述子文本作为异常文本, 并输出。 5.根据权利要求1所述的文本处理方法, 其特征在于, 将所述子文本与位于所述子文本 之后的至少一行文本进行合并操作, 直至对合并后的文本进 行字符串分割操作得到的字段 的字段个数不小于参 考字段个数时停止合并操作, 包括: 将所述子文本与位于所述子文本之后且紧邻所述子文本的下一行文本进行合并操作; 对合并后的文本进行字符串分割操作, 得到 字段; 在所述字段的字段个数小于对应的参考字段个数时, 将所述合并后的文本与 所述合并 后的文本的下一行文本进行合并操作; 返回所述对合并后的文本进行字符串分割操作, 得到字段这一步骤, 并顺序执行, 直至 对合并后的文本进行字符串分割操作得到的字段 的字段个数不小于对应的参考字段个数权 利 要 求 书 1/2 页 2 CN 115249006 A 2时停止。 6.根据权利要求1所述的文本处理方法, 其特征在于, 在所述大小关系为等于的情况 下, 还包括: 对所述至少一个字段进行入库操作。 7.一种文本处 理装置, 其特 征在于, 包括: 文本读取模块, 用于获取待处 理文本, 并逐 行读取所述待处 理文本, 得到 子文本; 文本分割模块, 用于使用预设分隔符对所述子文本进行分割, 得到至少一个字段, 并统 计所述至少一个字段的字段个数; 比对模块, 用于确定所述字段个数与所述子文本对应的参 考字段个数的大小关系; 字段合并模块, 用于在所述大小关系为大于的情况下, 对分割得到的字段进行两两合 并, 得到新字段; 字段确定模块, 用于确定出所述新字段中, 无须进行分割操作的新字段, 并作为目标字 段; 入库操作模块, 用于将所述目标字段以及分割得到的字段中不涉及所述目标字段的其 他字段进行入库操作; 文本合并模块, 用于在所述大小关系为小于的情况下, 将所述子文本与位于所述子文 本之后的至少一行文本进 行合并操作, 直至对合并后的文本进行字符串分割操作得到的字 段的字段个数不小于对应的参 考字段个数时停止; 所述字段合并模块, 还用于在合并后的文本分割得到的字段的字段个数大于对应的参 考字段个数时, 对分割得到的字段进行两 两合并, 得到新字段。 8.根据权利要求7 所述的文本处 理装置, 其特 征在于, 所述字段合并模块具体用于: 将分割得到的字段按照字段的先后顺序进行两 两合并, 得到新字段。 9.根据权利要求7 所述的文本处 理装置, 其特 征在于, 所述字段确定模块包括: 差值计算子模块, 用于计算所述字段个数与所述 参考字段个数的差值; 概率值确定子模块, 用于将所述新字段输入预设字段识别模型, 以使所述预设字段识 别模型输出 所述新字段为无 须进行分割操作的新字段的概 率值; 排序子模块, 用于按照新字段的概 率值, 对新字段进行排序操作, 得到排序结果; 第一字段筛 选子模块, 用于 筛选出概率值大于预设概 率阈值的新字段; 第二字段筛选子模块, 用于从筛选出的新字段中, 按照排序结果中的排列顺序筛选出 符合所述差值的新字段, 并作为目标字段。 10.一种电子设备, 其特 征在于, 包括: 存 储器和处 理器; 其中, 所述存 储器用于存 储程序; 处理器调用程序并用于执 行如权利要求1 ‑6任一项所述的文本处 理方法。权 利 要 求 书 2/2 页 3 CN 115249006 A 3

PDF文档 专利 一种文本处理方法、装置及电子设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法、装置及电子设备 第 1 页 专利 一种文本处理方法、装置及电子设备 第 2 页 专利 一种文本处理方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。