全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211337416.3 (22)申请日 2022.10.28 (71)申请人 北京澜舟 科技有限公司 地址 100000 北京市海淀区海淀大街3号1 幢10层10 01 (72)发明人 华菁云 王宇龙 周明  (74)专利代理 机构 深圳市智享知识产权代理有 限公司 4 4361 专利代理师 王琴 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/211(2020.01) G06Q 50/18(2012.01) (54)发明名称 一种法律文书案例抽取方法、 系统和存储介 质 (57)摘要 本发明涉及法律文书案例抽取技术领域, 特 别涉及一种法律文书案例抽取方法、 系统和存储 介质, 本发 明的法律文书案例抽取方法包括以下 步骤: 获取待抽取法律文书文本; 将待抽取法律 文书文本划分成句; 获取预测模型; 通过预测模 型预测出属于开头、 其他、 结尾类别的句子; 将开 头、 其他、 结尾类别的句子对应组合得到法律文 书案例抽取结果。 本发明通过预测模 型给待抽取 法律文书文本中的句子分类, 然后再根据句子的 类别对应组合得到案例抽取结果, 可以从长文本 中抽取出任意长度的案例信息文本, 规避了预测 模型的固定长度的输出文本字 符限制, 能够使用 户获得更准确、 丰富的信息。 本发明还提供一种 法律文书案例抽取系统与存 储介质。 权利要求书1页 说明书10页 附图7页 CN 115391496 A 2022.11.25 CN 115391496 A 1.一种法律文 书案例抽取方法, 其特 征在于: 包括以下步骤: 获取待抽取法律文 书文本; 将所述待抽取法律文 书文本划分成句; 获取预测模型; 通过预测模型 预测出属于开头、 其 他、 结尾类别的句子; 将开头、 其 他、 结尾类别的句子对应组合得到法律文 书案例抽取结果。 2.如权利要求1所述的法律文书案例抽取方法, 其特征在于: 将所述待抽取法律文书文 本划分成句包括以下步骤: 基于标点符号将待抽取法律文 书文本划分成句。 3.如权利要求2所述的法律文书案例抽取方法, 其特征在于: 所述标点符号为句号字 符。 4.如权利要求1所述的法律文书案例抽取方法, 其特征在于: 获取预测模型包括以下步 骤: 获取训练数据; 对训练数据进行 标注; 获取初始模型; 利用标注后的训练数据对初始模型进行微调得到预测模型。 5.如权利要求4所述的法律文书案例抽取方法, 其特征在于: 所述初始模型为Mengzi ‑ BERT‑Large模型、 Mengzi ‑BERT‑base模型、 Mengzi ‑BERT‑3B模型中的一种。 6.如权利要求1所述的法律文书案例抽取方法, 其特征在于: 通过预测模型预测出属于 开头、 其他、 结尾类别的句子包括以下步骤: 获取一个句子作为当前句; 将当前句与所述当前句的前后句采用滑窗方式组合作为 一个文本块; 判断文本块中当前句属于开头、 其 他、 结尾中的哪一个 类别。 7.如权利要求6所述的法律文书案例抽取方法, 其特征在于: 判断文本块中当前句属于 开头、 其他、 结尾中的哪一个 类别包括以下步骤: 获取当前句的前后句的字符特 征; 基于前后句的字符特 征判断当前句属于开头、 其 他、 结尾中的哪一类别。 8.一种法律文书案例抽取系统, 其特征在于: 包括内容提取模块、 数据预处理模块、 预 测模块以及后处理模块; 所述数据预 处理模块分别与所述内容提取模块以及所述预测模块 信号连接, 所述预测模块与所述后处 理模块信号连接; 所述内容 提取模块用于获取待抽取法律文 书文本; 所述数据预处 理模块用于将所述待抽取法律文 书文本划分成句; 所述预测模块用于给句子分类, 识别出属于开头、 其 他、 结尾类别的句子; 所述后处 理模块用于将开头、 其 他、 结尾类别的句子对应组合输出案例 抽取结果。 9.如权利要求8所述的法律文书案例抽取系统, 其特征在于: 所述预处理模块包括组合 模块, 所述组合模块用于将划分之后的句子组合形成文本块。 10.一种存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被处理器执 行时实现权利要求1 ‑7任一项所述的法律文 书案例抽取方法。权 利 要 求 书 1/1 页 2 CN 115391496 A 2一种法律文书案例抽取方 法、 系统和存 储介质 技术领域 [0001]本发明涉及法律文书案例抽 取技术领域, 特别涉及一种法律文书案例抽 取方法、 系统和存 储介质。 背景技术 [0002]目前, 在案例抽取中采用的主流方法是使用自然语言处理的预训练模型如BE RT抽 取对应结构化文本, 但有一个弊端是BERT相关模型仅支持小于固定长度 (512字符) 的文本 的输入、 小于固定长度 (512字符) 的文本的输出; 并且, 学术界多关注于对长文本的理解这 一阶段, 而下游任务的输出则是短文本 (如open ‑domain的QA任务) 或标签 (如文档分类任 务) , 针对上下文和答案都为长文本的情况, 学术界研究成果较少, 该问题也是自然语言处 理领域的一大难题。 然而, 在真实业务中, 尤其是对法律文书进行案例抽取时, 待抽取 的公 告文本通常都会超过512字符长度, 这往往会导致文本信息的丢失及抽取不准确; 此外, 抽 取得到的短文本片段化, 无法提供足够丰富的情报信息给用户, 从而导致用户难以获取精 准、 丰富的案例信息 。 发明内容 [0003]为了从长文本中抽取得到长文本结果, 本发明提供了一种法律文书案例抽取方 法、 系统和存 储介质。 [0004]本发明解决技 术问题的方案是提供一种法律文 书案例抽取方法, 包括以下步骤: 获取待抽取法律文 书文本; 将所述待抽取法律文 书文本划分成句; 获取预测模型; 通过预测模型 预测出属于开头、 其 他、 结尾类别的句子; 将开头、 其 他、 结尾类别的句子对应组合得到法律文 书案例抽取结果。 [0005]优选地, 将所述待抽取法律文 书文本划分成句包括以下步骤: 基于标点符号将待抽取法律文 书文本划分成句。 [0006]优选地, 所述标点符号 为句号字符。 [0007]优选地, 获取 预测模型包括以下步骤: 获取训练数据; 对训练数据进行 标注; 获取初始模型; 利用标注后的训练数据对初始模型进行微调得到预测模型。 [0008]优选地, 所述初始模型为Mengzi ‑BERT‑Large模型、 Mengzi ‑BERT‑base模型、 Mengzi‑BERT‑3B模型中的一种。 [0009]优选地, 通过 预测模型 预测出属于开头、 其 他、 结尾类别的句子包括以下步骤: 获取一个句子作为当前句;说 明 书 1/10 页 3 CN 115391496 A 3

PDF文档 专利 一种法律文书案例抽取方法、系统和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种法律文书案例抽取方法、系统和存储介质 第 1 页 专利 一种法律文书案例抽取方法、系统和存储介质 第 2 页 专利 一种法律文书案例抽取方法、系统和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。