全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211009025.9 (22)申请日 2022.08.22 (71)申请人 医渡云 (北京) 技 术有限公司 地址 100191 北京市海淀区花园北路3 5号9 号楼8层801 (72)发明人 梁世浩  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 王辉 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/29(2019.01) G06F 16/332(2019.01) G16H 10/60(2018.01) G16H 50/70(2018.01)G16H 50/80(2018.01) G06F 40/295(2020.01) G06N 3/04(2006.01) (54)发明名称 医疗文本的结构化方法、 装置、 电子设备及 计算机介质 (57)摘要 本公开涉及一种医疗文本的结构化方法、 装 置、 电子设备及计算机可读介质, 属于数据处理 技术领域。 该方法包括: 从流行病学调查报告中 提取出与轨迹相关的待处理的目标文本; 通过预 先训练的地址识别模型得到目标文本中的地址 实体及地址实体对应的字段位置信息; 基于预设 匹配规则得到目标文本中的时间实体和出行方 式实体, 以及时间实体对应的字段位置信息和出 行方式实体对应的字段位置信息; 根据地址实体 对应的字段位置信息、 时间实体对应的字段位置 信息及出行方式实体对应的字段位置信息, 确定 目标文本的结构化输出结果。 本公开通过对流行 病学调查报告中的轨迹信息进行自动化提取和 结构化输出, 可以提升报告处理效率, 降低人工 成本。 权利要求书2页 说明书10页 附图3页 CN 115374202 A 2022.11.22 CN 115374202 A 1.一种医疗文本的结构化方法, 其特 征在于, 包括: 从流行病学调查报告中提取 出与轨迹相关的待处 理的目标文本; 通过预先训练的地址识别模型得到所述目标文本中的地址实体及所述地址实体对应 的字段位置信息; 基于预设匹配规则得到所述目标文本 中的时间实体和出行方式实体, 以及所述时间实 体对应的字段位置信息和所述出 行方式实体对应的字段位置信息; 根据所述地址实体对应的字段位置信 息、 所述时间实体对应的字段位置信 息及所述出 行方式实体对应的字段位置信息, 确定所述目标文本的结构化输出 结果。 2.根据权利要求1所述的医疗文本的结构化方法, 其特征在于, 所述地址识别模型包括 第一地址识别模型和 第二地址识别模型, 所述通过预先训练的地址识别模 型得到所述目标 文本中的地址实体以及所述 地址实体对应的字段位置信息, 包括: 通过预先训练 的第一地址识别模型对所述目标文本 中的地址实体进行识别, 得到第 一 地址实体集合, 及所述第一地址实体集合中各个所述地址实体对应的字段位置信息, 其中, 所述第一 地址识别模型包括基于神经网络的语言模型; 通过预先训练 的第二地址识别模型对所述目标文本 中的地址实体进行识别, 得到第 二 地址实体集合, 及所述第二地址实体集合中各个所述地址实体对应的字段位置信息, 其中, 所述第二 地址识别模型包括 概率分布模型; 将所述第一地址实体集合中的地址实体和所述第二地址实体集合中的地址实体进行 合并, 得到所述目标文本中的地址实体及所述 地址实体对应的字段位置信息 。 3.根据权利要求1所述的医疗文本的结构化方法, 其特征在于, 在所述通过预先训练 的 地址识别模型得到所述目标文本中的地址实体及所述地址实体对应的字段位置信息之后, 所述方法还 包括: 根据各个所述 地址实体对应的字段位置信息对所述 地址实体进行 预处理。 4.根据权利要求3所述的医疗文本的结构化方法, 其特征在于, 所述根据 各个所述地址 实体对应的字段位置信息对所述 地址实体进行 预处理, 包括: 将所述字段位置信息相邻的两个或两个以上的地址实体合并为 一个地址实体。 5.根据权利要求1所述的医疗文本的结构化方法, 其特征在于, 所根据 所述地址实体对 应的字段位置信息、 所述时间实体对应的字段位置信息及所述出行方式实体对应的字段位 置信息, 确定所述目标文本的结构化输出 结果, 包括: 根据所述地址实体中的有 效地址实体对应的字段位置信 息、 所述时间实体对应的字段 位置信息及所述出行方式实体对应的字段位置信息, 判断所述有效地址实体、 所述时间实 体及所述出 行方式实体是否为同一语句中的一组实体; 若是, 则将所述同一语句中的一组实体以三元组的形式进行输出, 得到所述目标文本 的结构化输出 结果。 6.根据权利要求5所述的医疗文本的结构化方法, 其特 征在于, 所述方法还 包括: 根据所述地址实体对应的字段位置信息, 对所述地址实体中的无效地址实体进行过 滤, 得到所述 地址实体中的有效地址实体。 7.根据权利要求6所述的医疗文本的结构化方法, 其特征在于, 所述根据 所述地址实体 对应的字段位置信息, 对所述 地址实体中的无效地址实体进行 过滤, 包括:权 利 要 求 书 1/2 页 2 CN 115374202 A 2根据所述地址实体对应的字段位置信 息, 判断所述地址实体所在字段位置的指定关联 位置所对应字段 是否存在预设否 定词; 若存在, 则将所述 地址实体确定为无效地址实体, 并对所述无效地址实体进行 过滤。 8.根据权利要求1所述的医疗文本的结构化方法, 其特征在于, 所述从流行病学调查报 告中提取 出与轨迹相关的待处 理的目标文本, 包括: 将流行病学调查报告中的各个段落标题与 预设的轨迹关键字进行匹配, 确定出所述流 行病学调查报告中与轨迹相关的目标段落, 并从所述目标段落中获取所述待处理的目标文 本。 9.一种医疗文本的结构化装置, 其特 征在于, 包括: 目标文本获取模块, 用于从流行病学调查报告中提取出与轨迹相关的待处理 的目标文 本; 地址实体识别模块, 用于通过预先训练的地址识别模型得到所述目标文本 中的地址实 体及所述 地址实体对应的字段位置信息; 时间实体识别模块, 用于基于预设匹配规则得到所述目标文本中的时间实体和出行方 式实体, 及所述时间实体对应的字段位置信息和所述出 行方式实体对应的字段位置信息; 结构化输出模块, 用于根据所述地址实体对应的字段位置信息、 所述时间实体对应的 字段位置信息及所述出行方式实体对应的字段位置信息, 确定所述目标文本的结构化输出 结果。 10.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 用于存储一个或多个程序, 当所述一个或多个程序被所述处理器执行时, 使得 所述处理器实现如权利要求1至8中任一项所述的医疗文本的结构化方法。 11.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执 行时实现如权利要求1至8中任一项所述的医疗文本的结构化方法。权 利 要 求 书 2/2 页 3 CN 115374202 A 3

PDF文档 专利 医疗文本的结构化方法、装置、电子设备及计算机介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 医疗文本的结构化方法、装置、电子设备及计算机介质 第 1 页 专利 医疗文本的结构化方法、装置、电子设备及计算机介质 第 2 页 专利 医疗文本的结构化方法、装置、电子设备及计算机介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。