全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210758887.5 (22)申请日 2022.06.29 (71)申请人 电子科技大 学 地址 610000 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 殷晋 洪磊  (74)专利代理 机构 成都众恒智合专利代理事务 所(普通合伙) 51239 专利代理师 刘华平 (51)Int.Cl. G16H 50/70(2018.01) G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06F 16/84(2019.01) (54)发明名称 基于健康医疗大数据标准库的多源数据处 理方法与系统 (57)摘要 本发明涉及基于健康医疗大数据标准库的 多源数据处理方法与系统, 包括: 获取各个业务 平台的医疗健康数据, 建立医疗健康数据库; 抽 取医疗健康数据库中的元数据, 并对 元数据的存 储格式进行转换; 对元数据按照元数据的应用类 别进行分类存储, 基于CWM元模型建立元数据标 准库; 对元数据进行解析和融合、 元数据生命周 期管理、 元数据变更管理与元数据标准化处理; 对元数据进行数据质量管理、 元数据标准管理以 及构建元数据知识图谱。 本发明能够对来自不同 业务平台的数据源自动化统一转换以及数据标 准化处理, 基于CWM 元模型建立元数据标准库, 能 够规范对元数据对象 的处理, 便于对 数据进行查 询和维护; 通过对数据的融合治理, 有利于获取 有价值的数据。 权利要求书2页 说明书5页 附图1页 CN 115132366 A 2022.09.30 CN 115132366 A 1.基于健康医疗大 数据标准库的多源数据处 理方法, 其特 征在于, 包括: 获取各个业务平台的医疗健康数据, 建立医疗健康数据库; 抽取所述医疗健康数据库中的元 数据, 并对所述元 数据的存 储格式进行转换; 对所述元数据按照所述元数据的应用类别进行分类存储, 基于CWM元模型建立元数据 标准库; 建立元数据功能组件, 利用所述元数据功能组件对所述元数据进行解析和融合、 元数 据生命周期管理、 元 数据变更 管理与元 数据标准 化处理; 对所述元 数据进行 数据质量管理、 元 数据标准管理以及构建元 数据知识图谱。 2.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法, 其特征在于, 所述抽取所述医疗健康数据库中的元数据的方法为建立多个并行数据抽取进程对所述医 疗健康数据进行ETL数据抽取, 或者对所述 健康数据库日志进行解析。 3.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法, 其特征在于, 所述对所述元 数据按照所述元 数据的应用类别进行分类存 储, 包括: 按照元数据应用类别建立与所述应用类别语义关联的典型词 词表; 对所述元 数据进行文本处 理, 将所述元 数据划分为文本特 征词组合; 根据所述典型词词表对所述文本特征词组合进行匹配, 将匹配结果作为元数据集, 对 所述元数据集进行存 储。 4.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法, 其特征在于, 所述对所述元 数据进行解析和融合包括: 建立基础元 数据语料库, 对所有元 数据基于所述元 数据语料库进行翻译; 利用自然语言处 理算法对所述元 数据进行去重、 归一、 消歧处 理; 建立业务数据模型, 将所述元 数据按照业 务类型分类; 建立知识库, 将分类后的所述元 数据加入所述知识库的对应的目录树中。 5.根据权利要求4所述基于健康医疗大数据标准库的多源数据处理方法, 其特征在于, 所述元数据生命周期管理包括: 按照所述元数据生命周期中每个数据处理节点的进度对所述元数据进行监控, 将对所 述元数据的所有处 理流程生成XML数据流, 转换为标准元 数据格式的XML文件; 基于所述XML数据流, 分析同一个所述XML文件中各个所述元 数据之间的关联。 6.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法, 其特征在于, 所述元数据变更管理包括: 对比每一个数据 处理流程所述元数据的结构变化, 更改到所述 元数据标准库中。 7.根据权利要求1所述基于健康医疗大数据标准库的多源数据处理方法, 其特征在于, 所述元数据标准 化处理包括: 元 数据结构标准 化、 元数据值域标准化与接口服 务标准化。 8.基于健康医疗大数据标准库的多源数据处理系统, 其特征在于, 包括: 元数据获取 层、 元数据存储层、 元数据解析层与元 数据应用层; 所述元数据获取层包括数据库采集单 元、 数据抽取 单元、 数据库解析与验证单 元; 所述数据库采集单 元, 用于获取 各个业务平台的医疗健康数据, 建立医疗健康数据库; 所述数据抽取单元, 用于建立多个并行数据抽取进程对所述医疗健康数据进行ETL数 据抽取, 得到元 数据, 并对所述元 数据的存 储格式进行清洗、 转换;权 利 要 求 书 1/2 页 2 CN 115132366 A 2所述数据库解析与验证单元, 用于获取健康数据库日志并对所述健康数据库日志进行 解析和验证, 并将验证后的所述元 数据发送至所述元 数据存储层; 所述元数据存储层包括: 标准库构建单 元、 入库转换 单元、 分类单 元与数据仓库单 元; 所述标准库构建单 元, 用于基于 CWM元模型建立元 数据标准库; 所述入库转换单元, 用于利用所述公共仓库元模型对所述元数据进行处理, 对所述元 数据的存 储格式进行转换; 所述分类单 元, 用于对所述元 数据按照所述元 数据的应用类别进行分类; 数据仓库单元, 用于将分类后的所述元数据以XML的形式进行描述并通过开发数据仓 库的元数据访问接口, 将所述元 数据导入所述数据仓库中; 所述元数据解析层包括解析和融合组件、 元数据生命周期管理组件、 元数据变更管理 组件与元数据标准化处理组件, 用于对所述数据仓库中的所述元数据进行解析和融合、 元 数据生命周期管理、 元 数据变更 管理与元 数据标准 化处理; 所述元数据应用层包括元数据质量管理单元、 元数据标准管理单元以及元数据知识图 谱构建单元, 用于对所述元数据进行数据质量管理、 元数据标准管理以及构建元数据知识 图谱。权 利 要 求 书 2/2 页 3 CN 115132366 A 3

PDF文档 专利 基于健康医疗大数据标准库的多源数据处理方法与系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于健康医疗大数据标准库的多源数据处理方法与系统 第 1 页 专利 基于健康医疗大数据标准库的多源数据处理方法与系统 第 2 页 专利 基于健康医疗大数据标准库的多源数据处理方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。