专利一种基于机器学习的数据目录分类系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210540984.7 (22)申请日 2022.05.17 (71)申请人海南数造科技有限公司地址 571000 海南省三亚市崖州区崖州湾科技城用友产业园1号楼2层222、 224、 226、 228号 (72)发明人王瀚　杨泽明　杨光　陆柏亨　李玮　鲍立飞　 (74)专利代理机构武汉菲翔知识产权代理有限公司 42284 专利代理师吕小娜 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/289(2020.01) G06F 16/2455(2019.01) (54)发明名称一种基于机器学习的数据目录分类系统 (57)摘要本发明公开了一种基于机器学习的数据目录分类系统，该系统包括：数据目录获取模块：用于获取数据文件的数据目录；数据目录特征词提取排序模块：用于提取每个数据目录特征词并对特征词排序；细致分类分化储存模块：用于根据排序将数据目录逐渐细致分类储存。本发明提供的数据目录分类系统,通过提取每个数据目录特征词并对特征词排序进行分类,使用户通过经过分类的数据目录进行数据查询,提高了数据查询的速度和精准性,方便了用户,同时也降低了数据目录查询的计算量,节约了资源。权利要求书1页说明书5页附图2页 CN 115510941 A 2022.12.23 CN 115510941 A 1.一种基于机器学习的数据目录分类系统，其特征在于，该系统包括：数据目录获取模块：用于获取数据文件的数据目录；数据目录特征词提取排序模块：用于提取每个数据目录特征词并对特征词排序；细致分类分化储存模块：用于根据排序将数据目录逐渐细致分类储存。 2.根据权利要求1所述的一种基于机器学习的数据目录分类系统，其特征在于，数据目录特征词提取排序模块中特征词排序为将每个数据目录特征词按照关键词权重排序模型排序进行排序。 3.根据权利要求2所述的一种基于机器学习的数据目录分类系统，其特征在于，关键词权重排序模型具体生成为： S1，基于提前分类好关键词权重顺序的数据目录，生成目录训练数据集； S2，基于目录训练数据集中各训练数据目录对应的特征词，构建第1权重关键词、第2权重关键词到第N权重关键词对应的决策树，以作为所述基础权重排序器； S3，基于自助采样法从所述训练数据集中选取训练数据，以获取与各所述基础权重排序器对应的训练数据子集； S4，针对每个基础权重排序器，基于对应的训练数据子集对该基础权重排序器进行训练，其中，每个基础权重排序器对应的所述训练数据子集不同； S5，利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证，获得验证结果集； S6，利用所述验证结果集对次级关键词权重排序模型进行模型训练，得到所述关键词权重排序模型。 4.根据权利要求3所述的一种基于机器学习的数据目录分类系统，其特征在于，数据目录获取模块中，需要对获取的数据目录进行中文分词，剔除无用的停用词。 5.根据权利要求4所述的一种基于机器学习的数据目录分类系统，其特征在于，所述数据目录获取模块获取的数据目录包括本地数据库中所有目录。 6.根据权利要求5所述的一种基于机器学习的数据目录分类系统，其特征在于，细致分类分化储存模块包括多个第一分类储存库、第二分类储存库和第三分类储存库，每个第一分类储存库用于存储对应所有第一权重关键词相同的数据目录。 7.根据权利要求6所述的一种基于机器学习的数据目录分类系统，其特征在于，每个第一分类储存库内包括多个第二分类储存库，每个第二分类储存库用于存储该第一分类储存库中对应所有第二权重关键词相同的数据目录。 8.根据权利要求7所述的一种基于机器学习的数据目录分类系统，其特征在于，每个第二分类储存库内包括多个第三分类储存库，每个第三分类储存库用于存储该第二分类储存库中对应所有第三权重关键词相同的数据目录。 9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求 1‑ 8中任意一项所述的基于机器学习的数据目录分类系统。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1‑8中任意一项所述的基于机器学习的数据目录分类系统。权　利　要　求　书 1/1 页 2 CN 115510941 A 2一种基于机器学习的数据目录分类系统技术领域 [0001]本发明涉及数据目录技术领域，尤其涉及一种基于机器学习的数据目录分类系统。背景技术 [0002]数据目录定义和描述了数据库中的有关信息,包括数据元素名、别名、含义、类型、格式、使用范围及约定、来源、用途以及其他数据的关系等。具体来说数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据，帮助数据专业人员收集、组织、访问和充实元数据，从而为数据发现和治理提供支持。 [0003]然而，由于数据目录的数据量非常庞大,如果以传统的条列式选择来管理所有数据,将造成使用上的不便。例如,用户只需要查询某一个时间点的某一台服务器上的数据目录,但是由于没有对数据目录进行分类管理,用户得到的结果将会出现很多不相干的数据, 如此一来会降低用户查询的速度和精准性。发明内容 [0004]本发明提供了一种基于机器学习的数据目录分类系统，以解决上述背景技术中提出的问题。 [0005]为了实现上述目的，本发明采用了如下技术方案： [0006]一种基于机器学习的数据目录分类系统，该系统包括： [0007]数据目录获取模块：用于获取数据文件的数据目录； [0008]数据目录特征词提取排序模块：用于提取每个数据目录特征词并对特征词排序； [0009]细致分类分化储存模块：用于根据排序将数据目录逐渐细致分类储存。 [0010]作为本技术方案的进一步改进方案：，数据目录特征词提取排序模块中特征词排序为将每个数据目录特征词按照关键词权重排序模型排序进行排序。 [0011]作为本技术方案的进一步改进方案：关键词权重排序模型具体生成为： [0012]S1，基于提前分类好关键词权重顺序的数据目录，生成目录训练数据集； [0013]S2，基于目录训练数据集中各训练数据目录对应的特征词，构建第1权重关键词、第2权重关键词到第N权重关键词对应的决策树，以作为所述基础权重排序器； [0014]S3，基于自助采样法从所述训练数据集中选取训练数据，以获取与各所述基础权重排序器对应的训练数据子集； [0015]S4，针对每个基础权重排序器，基于对应的训练数据子集对该基础权重排序器进行训练，其中，每个基础权重排序器对应的所述训练数据子集不同； [0016]S5，利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证，获得验证结果集； [0017]S6，利用所述验证结果集对次级关键词权重排序模型进行模型训练，得到所述关键词权重排序模型。说　明　书 1/5 页 3 CN 115510941 A 3

专利 一种基于机器学习的数据目录分类系统

专利一种基于机器学习的数据目录分类系统