全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211116144.4 (22)申请日 2022.09.14 (71)申请人 山东众阳健康科技 集团有限公司 地址 250000 山东省济南市高新区新 泺大 街1166号奥盛大厦一 号楼12层 (72)发明人 桑波 王文谦 靳恩朝 张述睿  王建坤  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 于凤洋 (51)Int.Cl. G06F 21/62(2013.01) G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/242(2020.01)G16H 10/60(2018.01) G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于FLAT的电子病历数据脱敏方法及 系统 (57)摘要 本发明提出了一种基于FLAT的电子病历数 据脱敏方法及系统, 涉及数据脱敏技术领域, 收 集电子病历文本数据, 对文本数据进行数据泛化 和知识嵌入处理, 得到文字片段序列样本集; 用 文字片段序列 样本集对基于 FLAT和CRF构建的实 体识别模型进行训练; 将待脱敏的电子病历文 本, 输入到训练好的实体识别模型中, 得到电子 病历的敏感实体和实体种类; 根据实体种类, 对 敏感实体进行具体的脱敏处理; 采用以FLAT ‑CRF 模型为主的实体识别方案, 针对已标注的实体采 用同类实体随机替换的泛化方式进行数据增强, 在其字向量和词向量中同时添加实体的表示来 做信息嵌入, 对识别出来的实体进行分类脱 敏处 理, 提高数据脱敏的准确率和推理速度。 权利要求书2页 说明书9页 附图2页 CN 115438379 A 2022.12.06 CN 115438379 A 1.一种基于FLAT的电子病历数据脱敏 方法, 其特 征在于, 包括: 收集电子病历文本数据, 对文本数据进行数据泛化和知识嵌入处理, 得到文字片段序 列样本集; 用文字片段序列样本集对基于FLAT和CRF构建的实体识别模型进行训练; 将待脱敏的 电子病历文本, 输入到训练好的实体识别模型中进行推理, 得到电子病历 的敏感实体和实体种类; 根据实体种类, 对敏感实体进行 具体的脱敏处 理。 2.如权利要求1所述的一种基于FLAT的电子病历数据脱敏方法, 其特征在于, 所述文字 片段, 是字、 词的统称。 3.如权利要求1所述的一种基于FLAT的电子病历数据脱敏方法, 其特征在于, 得到样本 集的具体步骤为: 根据特殊字符、 标点符号、 设定的句子最大长度, 对文本进行分句; 人工标注句子中的实体及实体 类型, 根据实体 类型, 对标注的实体进行 数据泛化处 理; 构建添加姓氏、 地址的知识嵌入表示的字向量和词向量; 对截取后的句子进行分词, 得到每个句子的文字片段序列, 文字片段和文字片段的位 置信息一 起构成模型需要的Flat ‑lattice数据结构单 元。 将文字片段序列中的字和词进行字向量化和词向量化, 得到每个句子文字片段序列矩 阵; 构建文字片段序列矩阵的相对位置编码矩阵。 4.如权利要求3所述的一种基于FLAT的电子病历数据脱敏方法, 其特征在于, 所述数据 泛化, 包括 姓名的姓氏泛化、 地址、 机构名称泛化和日期泛化。 5.如权利要求3所述的一种基于FLAT的电子病历数据脱敏方法, 其特征在于, 所述构建 添加姓氏、 地址的知识嵌入表示的字向量和词向量, 具体为: 根据社会学 科类的字向量词典和词向量词典, 构建字向量和词向量; 在构建的字向量和词向量中添加姓氏、 地址的知识嵌入表示。 6.如权利要求3所述的一种基于FLAT的电子病历数据脱敏方法, 其特征在于, 所述相对 位置编码矩阵, 由文字片段序列矩阵中两两文字片段的相对位置编码组成, 所述相对位置 编码的计算方法为: 使用稠密向量模拟两个不同文字片段之间的相对位置关系, 得到头头、 头尾、 尾头、 尾 尾之间的四个距离; 对四个距离拼接后进行非线性变换, 得到文字片段序列的相对位置编码。 7.如权利要求1所述的一种基于FLAT的电子病历数据脱敏方法, 其特征在于, 所述实体 识别模型, 包括多头自注意力层、 前馈网络层和CRF层, 具体步骤为: 在多头自注意力层, 对文字片段序列矩阵和对应的相对位置编码矩阵, 进行多注意力 的位置编码; 基于位置编码, 对文字片段矩阵进行多头自注意力机制计算; 在前馈网络层, 进行残差连接及归一 化, 得到文字片段编码表示; 在CRF层, 计算文字片段的最高得分, 得 出实体标签。 8.一种基于FLAT的电子病历数据脱敏系统, 其特征在于, 包括样本集构建模块、 模型训 练模块、 实体识别模块和脱敏处 理模块;权 利 要 求 书 1/2 页 2 CN 115438379 A 2样本集构建模块, 被配置为: 收集电子病历文本数据, 对文本数据进行数据泛化和知识 嵌入处理, 得到文字片段序列样本集; 模型训练模块, 被配置为: 用文字片段序列样本集对基于FLAT和CRF构 建的实体识别 模 型进行训练; 实体识别模块, 被配置为: 将待脱敏的电子病历文本, 输入到训练好的实体识别模型中 进行推理, 得到电子病历的敏感实体和实体种类; 脱敏处理模块, 被 配置为: 根据实体种类, 对敏感实体进行 具体的脱敏处 理。 9.计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时实现如 权利要求1 ‑7任一项所述的一种基于FLAT的电子病历数据脱敏 方法中的步骤。 10.电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的程序, 其 特征在于, 所述处理器执行所述程序时实现如权利要求1 ‑7任一项所述的一种基于FLAT的 电子病历数据脱敏 方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115438379 A 3

PDF文档 专利 一种基于FLAT的电子病历数据脱敏方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于FLAT的电子病历数据脱敏方法及系统 第 1 页 专利 一种基于FLAT的电子病历数据脱敏方法及系统 第 2 页 专利 一种基于FLAT的电子病历数据脱敏方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。