专利 多源异构数据融合存储

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210238856.7 (22)申请日 2022.03.11 (71)申请人山东盛大高诚测控技术有限公司地址 250000 山东省济南市槐荫区经四路绿地新城4地块D-2号楼602、 603、 604 室 (72)发明人纪风超　董海峰　刘勇　 (74)专利代理机构山东瑞宸知识产权代理有限公司 37268 专利代理师于晓丽 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/23(2019.01) G06F 16/22(2019.01) G06F 16/906(2019.01)G06F 16/176(2019.01) G06K 9/62(2022.01) (54)发明名称多源异构数据融合存储 (57)摘要本发明提供多源异构数据融合存储，涉及数据存储技术领域。该多源异构数据融合存储，包括HaiNaTable数据库管理系统和存储硬盘，所述 HaiNaTable数据库管理系统具备开始融合、新增、修改、主键检索、结束融合的功能；所述 HaiNaTable数据库管理系统将数据文件以.Tdb 作为数据存储和以.TIndex作为索引存储，并实时存储入所述存储硬盘，所述索引存储的索引文件为数据文件的特征信息通过Md5生成的字符串并存储到Int128中的文件。通过对数据文件进行数据存储和索引存储，这样可以减少索引性能占用的存储空间，同时也可以加快数据快速检索的速度，通过本发明记载的数据融合方式，提高了融合过程中语义相似度、文本相似度识别时的性能，进而保证数据融合的顺利进行和可靠性。权利要求书1页说明书3页附图1页 CN 114595255 A 2022.06.07 CN 114595255 A 1.多源异构数据融合存储，其特征在于：包括HaiN aTable数据库管理系统和存储硬盘，所述HaiNaTable数据库管理系统具备开始融合、新增、修改、主键检索、结束融合的功能；所述HaiNaTable数据库管理系统将数据文件以.Tdb作为数据存储和以.TIndex作为索引存储，并实时存储入所述存储硬盘；所述索引存储的索引文件为数据文件的特征信息通过Md5生成的字符串并存储到 Int128中的文件，所述数据文件的特征信息包括但不限于主体ID；所述索引文件包括一级索引和二级索引，所述一级索引为主体ID判重，所述二级索引为元数据信息；所述HaiNaTable数据库管理系统在新增数据时，先通过所述主键检索找到需要新增数据的已存储文件，然后依据所述特征信息的分类对新增数据和已存储文件进行文本相似度、语义相似度、重要信息是否相同的判重，之后再进行数据融合；所述HaiNaTable数据库管理系统在开始融合后按照融合规则进行数据融合，在使用结束融合功能后停止数据融合。 2.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述HaiNaTable数据库管理系统作为存储硬盘内存储文件数据访问的入口。 3.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述Int128为128位整型的数据类型，且唯一确定。 4.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述Md5生成的字符串对应主体ID的表征字符、存储文件的偏移量、数据字节长度。 5.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述数据文件在数据存储后的存储文件为二进制数据。 6.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述HaiNaTable数据库管理系统在进行主键检索时索引到主体ID。 7.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述元数据信息为各个数据文件对应的特征信息除主体ID之外的信息。 8.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述融合规则为根据长度替换当前值、拼接当前值、当前值小时替换、当前值大时替换、当前值为空替换、高质替换低质补充。 9.根据权利要求1所述的多源异构数据融合存储，其特征在于：所述HaiNaTable数据库管理系统在开始融合、结束融合时锁定存储文件和索引文件。权　利　要　求　书 1/1 页 2 CN 114595255 A 2多源异构数据融合存储技术领域 [0001]本发明涉及数据存储技术领域，具体为多源异构数据融合存储。背景技术 [0002]信息时代数据呈指数级增长，用户对多源数据融合判重提出了新的要求，融合时要求快捷的检索到该数据是否存在。 [0003]现有的解决方案，大多采用分布式系统基础架构（hadoop）、 SQL数据库管理系统（my sql）或者数据库管理系统（oracle）作为存储。限制了融合过程中进行语义相似度、文本相似度识别时的性能。发明内容 [0004]（一）解决的技术问题针对现有技术的不足，本发明提供了多源异构数据融合存储，解决了现有技术中以hadoop、 my sql或者oracle作为存储，限制了融合过程中进行语义相似度和文本相似度识别时性能的问题。 [0005]（二）技术方案为实现以上目的，本发明通过以下技术方案予以实现：包括HaiNaTable数据库管理系统和存储硬盘，所述HaiNaTable数据库管理系统具备开始融合、新增、修改、主键检索、结束融合的功能；所述HaiNaTable数据库管理系统将数据文件以.Tdb作为数据存储和以.TIndex作为索引存储，并实时存储入所述存储硬盘；所述索引存储的索引文件为数据文件的特征信息通过Md5生成的字符串并存储到 Int128中的文件，所述数据文件的特征信息包括但不限于主体ID；所述索引文件包括一级索引和二级索引，所述一级索引为主体ID判重，所述二级索引为元数据信息；所述HaiNaTable数据库管理系统在新增数据时，先通过所述主键检索找到需要新增数据的已存储文件，然后依据所述特征信息的分类对新增数据和已存储文件进行文本相似度、语义相似度、重要信息是否相同的判重，之后再进行数据融合；所述HaiNaTable数据库管理系统在开始融合后按照融合规则进行数据融合，在使用结束融合功能后停止数据融合。 [0006]优选的，所述HaiNaTable数据库管理系统作为存储硬盘内存储文件数据访问的入口。 [0007]优选的，所述 Int128为128位整型的数据类型，且唯一确定。 [0008]优选的，所述Md5生成的字符串对应主体ID的表征字符、存储文件的偏移量、数据字节长度。 [0009]优选的，所述数据文件在数据存储后的存储文件为二进制数据。说　明　书 1/3 页 3 CN 114595255 A 3

专利 多源异构数据融合存储

专利多源异构数据融合存储