全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210835562.2 (22)申请日 2022.07.15 (71)申请人 重庆声光电智联电子有限公司 地址 400064 重庆市南岸区丹龙路7号C 栋 二楼 (72)发明人 王奎 殷庆 李想 位冠飞 郭磊  江曼 陈潇  (74)专利代理 机构 重庆中之信知识产权代理事 务所(普通 合伙) 50213 专利代理师 梁欣 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/31(2019.01) G06F 16/84(2019.01)G06F 16/78(2019.01) G06F 40/295(2020.01) (54)发明名称 一种文物保护的异构多源数据融合处理方 法、 装置及系统 (57)摘要 本发明提供了一种文物保护的异构多源数 据融合处理方法、 装置和系统, 其中, 所述融合处 理方法包括: 构建文物保护的异构多源数据融合 处理模型; 利用构建的异构多源 数据融合处理模 型对原始数据进行结构化、 数据规范化处理, 得 到第一数据集; 利用构建的异构多源 数据融合处 理模型对第一数据进行数据清洗与质量评估, 得 到第二数据集; 利用构建的异构多源 数据融合处 理模型对第二数据进行数据融合和数据摘取, 得 到最终数据集。 相比于现有技术, 本发明具有如 下有益效果: 构建了文物保护的异构多源数据融 合处理系统, 实现了对文物保护场景下的数据处 理、 数据融合; 对接入的数据进行数据治理, 解决 了接入数据中存在的语义冲突、 冗余、 一致性、 质 量等问题。 权利要求书2页 说明书6页 附图2页 CN 115391314 A 2022.11.25 CN 115391314 A 1.一种文物保护的异构多源数据融合处 理方法, 其特 征在于, 所述融合处 理方法包括: 步骤S11: 构建文物保护的异构多源数据融合处 理模型; 步骤S12: 利用构建的异构多源数据融合处理模型对原始数据进行结构化、 数据规范化 处理, 得到第一数据集; 步骤S13: 利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评 估, 得到第二数据集; 步骤S14: 利用构建的异构多源数据融合处理模型对第二数据进行数据融合和数据摘 取, 得到最终数据集。 2.如权利要求1所述的一种 文物保护的异构多源数据融合处理方法, 其特征在于, 在构 建文物保护的异构多源数据融合处 理模型之后, 所述方法还 包括: 根据原始数据的规范性对不同的原始数据进行分类, 得到半结构化原始数据和非结构 化原始数据。 3.如权利要求2所述的一种 文物保护的异构多源数据融合处理方法, 其特征在于, 当所 述原始数据的类型为半结构化原始数据时, 利用构建的异构多源数据融合处理模型对原始 数据进行 结构化、 数据规范化处 理, 得到第一数据集, 包括: 对于以HTML网页、 XML、 WORD和EXCLE等文件形式存储的人员 、 制度等方面的半结构化文 件, 通过信息抽取技术识别文本中的实体、 属性和关系, 并输出为二维表形式的第一数据 集。 4.如权利要求3所述的一种 文物保护的异构多源数据融合处理方法, 其特征在于, 当所 述原始数据的类型为 非结构化原始数据时, 利用构建的异构多源数据融合处理模型对原始 数据进行 结构化、 数据规范化处 理, 得到第一数据集, 包括: 对于原始数据中的视频文件, 通过构建视频信 息核心元数据与其结构化信 息的关联关 系, 实现视频文件到结构化数据的语义映射, 形成第一数据集; 对于原始数据中的实体信息, 通过调研资料、 咨询相关专家、 实体考察和访问信息系 统, 基于字典的命名实体识别技 术建立同该实体的实体链指, 形成第一数据集。 5.如权利要求4所述的一种 文物保护的异构多源数据融合处理方法, 其特征在于, 利用 构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估, 得到第二数据 集, 包括: 针对第一数据集中的每组数值, 当与该组数值的平均值偏差超过两倍标准差时, 判定 为异常值, 并采用该组中位数来 替代该异常值; 对于第一数据集中的结构性 错误, 通过人工识别的方法对该 数据进行 校正; 对于第一数据集中由系统层面造成的重复记录数据, 通过系统依据时间数据判断消除 重复项; 对于第一数据集中由实体的不同表述形成的重复数据, 通过实体链指来实现重复项的 清除; 对于第一数据集中的缺失数据, 通过朴素贝叶斯和决策树将其转化为分类问题进行补 充。 6.一种文物遗 址保护异构数据接入 装置, 其特 征在于, 主 要包括: 数据融合处 理模型构建模块, 用于构建文物保护的异构多源数据融合处 理模型;权 利 要 求 书 1/2 页 2 CN 115391314 A 2数据处理模块, 用于利用构建的异构多源数据融合处理模型对原始数据进行结构化、 数据规范化处 理, 得到第一数据集; 数据清洗与质量评估模块, 用于利用构建的异构多源数据融合处理模型对第 一数据进 行数据清洗与质量评估, 得到第二数据集; 数据融合与 数据摘取模块, 用于利用构建的异构多源数据融合处理模型对第 二数据进 行数据融合和数据摘取, 得到最终数据集。 7.一种文物保护的异构多源数据融合处理系统, 其特征在于, 所述融合处理系统采用 层次化技术架构, 包括基础设施层、 数据资源层、 应用支撑层、 应用服务层和展现层, 各层之 间有统一的数据接口、 数据交换规范、 数字资源编目编码规范和安全保障规范; 所述基础设施层设置在系统的最底层, 包括若干硬件和软件的组合; 所述数据资源层设置在所述基础设施层之上, 用于存储基础原始数据和融合数据; 所 述数据资源层包括基础数据库模块、 业 务数据库模块、 专 题数据库模块和数字数据库模块; 所述应用支撑层 设置在所述数据资源层之上, 用于为所述数据融合处理系统提供应用 支撑; 所述应用支撑层包括组件库模块和基础服 务模块; 所述应用服务层 设置在所述应用支撑层之上, 包括所述文物遗址保护异构数据接入装 置, 用于完成数据清洗、 数据关联、 数据融合等数据治理工作及边缘智能应用; 所述应用服 务层包括元数据管理模块、 主数据管理模块、 血缘分析模块、 资源目录管理模块、 模型管理 模块、 数据上报管理模块和安全策略管理模块; 所述展现层设置 于所述应用服 务层之上, 用于实现与用户的数据交 互。 8.如权利要求7所述的一种 文物保护的异构多源数据融合处理系统, 其特征在于, 所述 资源目录管理模块用于通过 元数据收割机制汇聚数据, 实现对数据的管理。 9.如权利要求8所述的一种 文物保护的异构多源数据融合处理系统, 其特征在于, 所述 资源目录管理模块的管理数据由数据资源元数据构成, 所述数据资源元数据被分为数据资 源分类、 数据资源名称、 数据资源代码、 数据资源提供方、 数据资源提供方代码、 来源系统、 来源数据库、 数据资源摘要、 数据资源格式、 数据项、 共享属性、 共享方式、 开放属性、 更新周 期、 发布日期、 关联资源代码或/和数据服 务。 10.如权利要求8所述的一种文物保护的异构多源数据融合处理系统, 其特征在于, 数 据资源分类还包括业务大类、 业务细类、 管理对象分类、 主题分类和数据类别分类; 数据资 源提供方还包括数据资源提供方名称、 提供方内部部门和 提供方联系方式; 数据资源格式 还包括数据资源格式分类、 数据资源格式类型和其他类型数据资源格式描述; 数据项还包 括数据项名称、 数据类型和扩展数据类型; 共享属性还包括共享类型、 共享条件和共享范 围; 共享方式还包括共享方式分类、 共享方式类型和共享服务方式; 开放属性还包括是否向 社会开放和开放条件; 数据服 务还包括服务类型和服 务地址。权 利 要 求 书 2/2 页 3 CN 115391314 A 3

PDF文档 专利 一种文物保护的异构多源数据融合处理方法、装置及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文物保护的异构多源数据融合处理方法、装置及系统 第 1 页 专利 一种文物保护的异构多源数据融合处理方法、装置及系统 第 2 页 专利 一种文物保护的异构多源数据融合处理方法、装置及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。