(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210540984.7
(22)申请日 2022.05.17
(71)申请人 海南数造科技有限公司
地址 571000 海南省三 亚市崖州区崖州湾
科技城用友产业园1号楼2层222、 224、
226、 228号
(72)发明人 王瀚 杨泽明 杨光 陆柏亨
李玮 鲍立飞
(74)专利代理 机构 武汉菲翔 知识产权代理有限
公司 42284
专利代理师 吕小娜
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/289(2020.01)
G06F 16/2455(2019.01)
(54)发明名称
一种基于机器学习的数据目录分类系统
(57)摘要
本发明公开了一种基于机器学习的数据目
录分类系统, 该系统包括: 数据目录获取模块: 用
于获取数据文件的数据目录; 数据目录特征词提
取排序模块: 用于提取每个数据目录特征词并对
特征词排序; 细致分类分化储存模块: 用于根据
排序将数据目录逐渐细致分类储存。 本发明提供
的数据目录分类系统,通过提取每个数据目录特
征词并对特征词排序进行分类,使用户通过经过
分类的数据目录进行数据查询,提高了数据查询
的速度和精准性,方便了用户,同时也降低了数
据目录查询的计算 量,节约了资源。
权利要求书1页 说明书5页 附图2页
CN 115510941 A
2022.12.23
CN 115510941 A
1.一种基于 机器学习的数据目录分类系统, 其特 征在于, 该系统包括:
数据目录获取模块: 用于获取 数据文件的数据目录;
数据目录特 征词提取排序模块: 用于提取每 个数据目录特 征词并对特 征词排序;
细致分类分化储 存模块: 用于根据排序将数据目录逐渐细致分类储 存。
2.根据权利要求1所述的一种基于机器学习的数据目录分类系统, 其特征在于, 数据目
录特征词提取排序模块中特征词排序为将每个数据目录特征词按照关键词权重排序模型
排序进行排序。
3.根据权利要求2所述的一种基于机器学习的数据目录分类系统, 其特征在于, 关键词
权重排序模型 具体生成为:
S1, 基于提前分类好关键词权 重顺序的数据目录, 生成目录训练数据集;
S2, 基于目录训练数据集中各训练数据目录对应的特征词, 构建第1权重关键词、 第2权
重关键词到第N权 重关键词对应的决策树, 以作为所述基础权 重排序器;
S3, 基于自助采样法从所述训练数据集中选取训练数据, 以获取与各所述基础权重排
序器对应的训练数据子集;
S4, 针对每个基础权重排序器, 基于对应的训练数据子集对该基础权重排序器进行训
练, 其中, 每 个基础权重排序器对应的所述训练数据子集 不同;
S5, 利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训练数
据子集的训练数据进行验证, 获得验证结果 集;
S6, 利用所述验证结果集对次级关键词权重排序模型进行模型训练, 得到所述关键词
权重排序模型。
4.根据权利要求3所述的一种基于机器学习的数据目录分类系统, 其特征在于, 数据目
录获取模块中, 需要对获取的数据目录进行中文分词, 剔除无用的停用词。
5.根据权利要求4所述的一种基于机器学习的数据目录分类系统, 其特征在于, 所述数
据目录获取模块获取的数据目录包括本地数据库中所有目录 。
6.根据权利要求5所述的一种基于机器学习的数据目录分类系统, 其特征在于, 细致分
类分化储存模块包括多个第一分类储存库、 第二分类储存库和第三分类储存库, 每个第一
分类储存库用于存 储对应所有第一权 重关键词相同的数据目录 。
7.根据权利要求6所述的一种基于机器学习的数据目录分类系统, 其特征在于, 每个第
一分类储存库内包括多个第二分类储存库, 每个第二分类储存库用于存储 该第一分类储存
库中对应所有第二权 重关键词相同的数据目录 。
8.根据权利要求7所述的一种基于机器学习的数据目录分类系统, 其特征在于, 每个第
二分类储存库内包括多个第三分类储存库, 每个第三分类储存库用于存储 该第二分类储存
库中对应所有第三权 重关键词相同的数据目录 。
9.一种终端设备, 其特征在于, 包括处理器、 存储器以及存储在所述存储器中且被配置
为由所述处理器执行的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1‑
8中任意一项所述的基于 机器学习的数据目录分类系统。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括存储的计算
机程序, 其中, 在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权
利要求1‑8中任意一项所述的基于 机器学习的数据目录分类系统。权 利 要 求 书 1/1 页
2
CN 115510941 A
2一种基于机 器学习的数据目录分类系统
技术领域
[0001]本发明涉及数据目录技术领域, 尤其涉及一种基于机器学习的数据目录分类系
统。
背景技术
[0002]数据目录定义和描述了数据库中的有关信息,包括数据元素名、 别名、 含义、 类型、
格式、 使用范围及约定、 来源、 用途以及其他数据的关系等。 具体来说数据目录就是关于企
业数据资产的一个有序清单。 它 可以使用元数据来帮助企业管理数据, 帮助数据专业人员
收集、 组织、 访问和充实元 数据, 从而为数据发现和治理提供支持。
[0003]然而, 由于数据目录 的数据量非常庞大,如果以传统的条列 式选择来管理所有数
据,将造成使用上的不便。 例如,用户只需要查询某一个时间点的某一台服务器上的数据目
录,但是由于 没有对数据目录进 行分类管理,用户得到的结果将会出现很多不相干的数据,
如此一来会降低用户查询的速度和精准 性。
发明内容
[0004]本发明提供了一种基于机器学习的数据目录分类系统, 以解决上述背景技术中提
出的问题。
[0005]为了实现上述目的, 本发明采用了如下技 术方案:
[0006]一种基于 机器学习的数据目录分类系统, 该系统包括:
[0007]数据目录获取模块: 用于获取 数据文件的数据目录;
[0008]数据目录特 征词提取排序模块: 用于提取每 个数据目录特 征词并对特 征词排序;
[0009]细致分类分化储 存模块: 用于根据排序将数据目录逐渐细致分类储 存。
[0010]作为本技术方案 的进一步改进方案: , 数据目录特征词提取排序模块中特征词排
序为将每 个数据目录特 征词按照关键词权 重排序模型排序进行排序。
[0011]作为本技 术方案的进一 步改进方案: 关键词权 重排序模型 具体生成为:
[0012]S1, 基于提前分类好关键词权 重顺序的数据目录, 生成目录训练数据集;
[0013]S2, 基于目录训练数据集中各训练数据目录对应的特征词, 构建第1权重关键词、
第2权重关键词到第N权 重关键词对应的决策树, 以作为所述基础权 重排序器;
[0014]S3, 基于自助采样法从所述训练数据集中选取训练数据, 以获取与各所述基础权
重排序器对应的训练数据子集;
[0015]S4, 针对每个基础权重排序器, 基于对应 的训练数据子集对该基础权重排序器进
行训练, 其中, 每 个基础权重排序器对应的所述训练数据子集 不同;
[0016]S5, 利用训练完成的各所述基础权重排序器分别对所述训练数据集中未被选入训
练数据子集的训练数据进行验证, 获得验证结果 集;
[0017]S6, 利用所述验证结果集对次级关键词权重排序模型进行模型训练, 得到所述关
键词权重排序模型。说 明 书 1/5 页
3
CN 115510941 A
3
专利 一种基于机器学习的数据目录分类系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:10:14上传分享