全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210238856.7 (22)申请日 2022.03.11 (71)申请人 山东盛大高诚测控技 术有限公司 地址 250000 山东省济南市槐荫区经四路 绿地新城4地块D-2号楼602、 603、 604 室 (72)发明人 纪风超 董海峰 刘勇  (74)专利代理 机构 山东瑞宸知识产权代理有限 公司 37268 专利代理师 于晓丽 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/23(2019.01) G06F 16/22(2019.01) G06F 16/906(2019.01)G06F 16/176(2019.01) G06K 9/62(2022.01) (54)发明名称 多源异构数据融合存 储 (57)摘要 本发明提供多源异构数据融合存储, 涉及数 据存储技术领域。 该多源异构数据融合存储, 包 括HaiNaTable数据库管理系统和存储硬盘, 所述 HaiNaTable数据库管理系统具备开始融合、 新 增、 修改、 主键检索、 结束融合的功能; 所述 HaiNaTable数据库管理系统将数据文件以.Tdb 作为数据存储和以.TIndex作为索引存储, 并实 时存储入所述存储硬盘, 所述索引存储的索引文 件为数据文件的特征信息通过Md5生成的字符串 并存储到Int128中的文件。 通过对数据文件进行 数据存储和索引存储, 这样可以减少索引性能占 用的存储空间, 同时也可以加快数据快速检索的 速度, 通过本发明记载的数据融合方式, 提高了 融合过程中语义相似度、 文本相似度识别时的性 能, 进而保证数据融合的顺利进行和可靠性。 权利要求书1页 说明书3页 附图1页 CN 114595255 A 2022.06.07 CN 114595255 A 1.多源异构数据融合存储, 其特征在于: 包括HaiN aTable数据库管理系统和存储硬盘, 所述HaiNaTable数据库管理系统具 备开始融合、 新增、 修改、 主键检索、 结束融合的功能; 所述HaiNaTable数据库管理系统将数据文件以.Tdb作为数据存储和以.TIndex作为索 引存储, 并实时存 储入所述存 储硬盘; 所述索引存储的索引文件为数据文件的特征信息通过Md5生成的字符串并存储到 Int128中的文件, 所述数据文件的特 征信息包括但不限于主体ID; 所述索引文件包括一级索引和二级索引, 所述一级索引为主体ID判重, 所述二级索引 为元数据信息; 所述HaiNaTable数据库管理系统在新增数据时, 先通过所述主键检索找到需要新增数 据的已存储文件, 然后依据所述特征信息的分类对新增数据和已存储文件进行文本相似 度、 语义相似度、 重要信息是否相同的判重, 之后再进行 数据融合; 所述HaiNaTable数据库管理系统在开始融合后按照融合规则进行数据融合, 在使用结 束融合功能后停止数据融合。 2.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述HaiNaTable数据库 管理系统作为存 储硬盘内存储文件数据访问的入口。 3.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述Int128为128位整 型的数据类型, 且唯一确定 。 4.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述Md5生成的字符串 对应主体ID的表征字符、 存 储文件的偏移量、 数据字节长度。 5.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述数据文件在数据存 储后的存 储文件为 二进制数据。 6.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述HaiNaTable数据库 管理系统在进行主键检索时索引到主体ID。 7.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述元数据信 息为各个 数据文件 对应的特 征信息除主体ID之外的信息 。 8.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述融合规则为根据长 度替换当前值、 拼接 当前值、 当前值小时替换、 当前值大时替换、 当前值为空替换、 高质替换 低质补充。 9.根据权利要求1所述的多源异构数据融合存储, 其特征在于: 所述HaiNaTable数据库 管理系统在开始融合、 结束融合时锁定存 储文件和索引文件。权 利 要 求 书 1/1 页 2 CN 114595255 A 2多源异构数据融合存 储 技术领域 [0001]本发明涉及数据存 储技术领域, 具体为多源异构数据融合存 储。 背景技术 [0002]信息时代数据呈指数级增长, 用户对多源数据融合判重提出了新的要求, 融合时 要求快捷的检索到该 数据是否存在。 [0003]现有的解决方案, 大多采用分布式系统基础架构 (hadoop) 、 SQL数据库管理系统 (my sql) 或者数据库管理系统 (oracle) 作为存储。 限制了融合过程中进行语义相似度、 文 本相似度识别时的性能。 发明内容 [0004](一) 解决的技 术问题 针对现有技术的不足, 本发明提供了多源异构数据融合存储, 解决了现有技术中 以hadoop、 my  sql或者oracle作为存储, 限制了融合过程中进行语义相似度和 文本相似度 识别时性能的问题。 [0005](二) 技术方案 为实现以上目的, 本发明通过以下技术方案予以实现: 包括HaiNaTable数据库管 理系统和存储硬盘, 所述HaiNaTable数据库管理系统具备开始融合、 新增、 修改、 主键检索、 结束融合的功能; 所述HaiNaTable数据库管理系统将数据 文件以.Tdb作为数据存储和以.TIndex作 为索引存 储, 并实时存 储入所述存 储硬盘; 所述索引存储的索引文件为数据文件的特征信息通过Md5生成的字符串并存储到 Int128中的文件, 所述数据文件的特 征信息包括但不限于主体ID; 所述索引文件包括一级索引和二级索引, 所述一级索引为主体ID判重, 所述二级 索引为元 数据信息; 所述HaiNaTable数据库管理系统在新增数据时, 先通过所述主键检索找到需要新 增数据的已存储文件, 然后依据所述特征信息的分类对新增数据和已存储文件进 行文本相 似度、 语义相似度、 重要信息是否相同的判重, 之后再进行 数据融合; 所述HaiNaTable数据库管理系统在开始融合后按照融合规则进行数据融合, 在使 用结束融合功能后停止数据融合。 [0006]优选的, 所述HaiNaTable数据库管理系统作为存储硬盘内存储文件数据访问的入 口。 [0007]优选的, 所述 Int128为128位整型的数据类型, 且唯一确定 。 [0008]优选的, 所述Md5生成的字符串对应主体ID的表征字符、 存储文件的偏移量、 数据 字节长度。 [0009]优选的, 所述数据文件在数据存 储后的存 储文件为 二进制数据。说 明 书 1/3 页 3 CN 114595255 A 3

PDF文档 专利 多源异构数据融合存储

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多源异构数据融合存储 第 1 页 专利 多源异构数据融合存储 第 2 页 专利 多源异构数据融合存储 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:50:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。