(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210851818.9
(22)申请日 2022.07.20
(65)同一申请的已公布的文献号
申请公布号 CN 114996360 A
(43)申请公布日 2022.09.02
(73)专利权人 江西现代 职业技术学院
地址 330095 江西省南昌市昌东大 学园区
紫阳大道338号
(72)发明人 章建群 樊振军
(74)专利代理 机构 南昌新天下专利商标代理有
限公司 3 6115
专利代理师 戴继翔
(51)Int.Cl.
G06F 16/27(2019.01)
G06F 16/25(2019.01)G06F 16/2455(2019.01)
G06F 16/22(2019.01)
G06K 9/62(2022.01)
(56)对比文件
CN 114490667 A,202 2.05.13
CN 106484813 A,2017.0 3.08
CN 111367958 A,2020.07.0 3
CN 106776834 A,2017.0 5.31
CN 112966024 A,2021.0 6.15
CN 113962597 A,202 2.01.21
US 20213 65421 A1,2021.1 1.25
US 2015032759 A1,2015.01.2 9
李国清等.矿山 安全隐患辨识与预警大 数据
分析系统研发. 《金属矿山》 .202 2,
审查员 单娟
(54)发明名称
数据分析方法、 系统、 可读存储介质及计算
机设备
(57)摘要
本发明提供一种数据分析方法、 系统、 可读
存储介质及计算机设备, 方法包括: 基于终端设
备发送的待分析数据的数据类型确定数据提取
方式, 并利用数据提取方式提取待分析数据中的
每个区别数据和基础数据; 将基础指标相同的基
础数据进行 组合得到多个基础数据集; 抓取各基
础数据集的数据领域区块, 并提取各区别数据中
的特征指标, 计算出各特征指标在各数据领域区
块中出现的频次; 根据各频次将待分析数据拆分
为多个待分析子数据; 计算出各待分析子数据的
优先级系数, 并根据优先级系数依次对各待分析
子数据进行数据分析。 本发明使得各待分析子数
据的处理能够根据优先级系数来依次进行, 进而
避免同步执行任务影响分析速率 以及增加分析
时间的问题。
权利要求书3页 说明书11页 附图3页
CN 114996360 B
2022.11.18
CN 114996360 B
1.一种数据分析 方法, 其特 征在于, 包括:
接收终端设备发送的待分析数据, 基于所述待分析数据的数据类型确定对应的数据提
取方式, 并利用所述数据提取方式提取所述待分析数据中的每个区别数据和基础数据, 其
中, 当所述待分析数据的数据类型为文本数据时, 所述基础数据为所述待分析数据的数值
特征矩阵中某一词汇的权重值或频率值在所述待分析数据中出现的词频大于基础数据阈
值的词汇, 所述区别数据为所述待分析数据的数值特征矩阵中某一词汇的权重值或频率值
在所述待分析数据中出现的词频小于区别数据阈值的词汇, 当所述待分析数据的数据类型
为图像数据时, 所述待分析数据经图像处理后动物轮廓以及建筑物轮廓的纹理信息为所述
区别数据、 其 余区域的信息为基础数据;
将每个所述基础数据中基础指标相同的基础数据进行组合, 以得到多个 基础数据集;
抓取各所述基础数据集所对应的数据领域区块, 并提取各所述区别数据中的特征指
标, 利用哈希 表算法计算出 各所述特征指标在各 所述数据领域区块中出现的频次;
根据各所述特征指标在各所述数据领域区块中出现的频次将所述待分析数据拆分为
多个待分析子数据;
计算出各所述待分析子数据的优先级系数, 并根据 各所述待分析子数据的优先级系数
依次对各 所述待分析子数据进行 数据分析;
其中, 将每个所述基础数据中基础指标相同的基础数据进行组合, 以得到多个基础数
据集的步骤 包括:
利用关键数据库对各所述基础数据进行关键数据提取, 以得到各所述基础数据的关键
数据;
利用标准数据库对各所述基础数据的关键数据进行相似特征对比, 以得到各所述基础
数据的相似特 征度量;
根据各所述基础数据的相似特征度量对各所述基础数据进行聚类, 以得到多个基础数
据集;
其中, 抓取 各所述基础数据集所对应的数据领域区块的步骤 包括:
当获取到所述基础数据集 时, 将所述基础数据集中所有的基础数据的数据躯干解析成
多个数据字符 X1、X2、X3, 并在包含有各设备终端的数据信息的数据库Yn中对各所述数据字
符X1、X2、X3进行抓取, 以得到含有各 所述数据字符 X1、X2、X3的所有的数据领域区块;
其中, 计算出 各所述待分析子数据的优先级系数的步骤 包括:
获取处理器的运存空间, 并基于所述处理器的运存空间计算出各所述待分析子数据 所
占用所述处 理器的运存空间的数值;
根据各所述待分析子数据所占用所述处理器的运存空间的数值计算出各所述待分析
子数据的优先级系数。
2.根据权利要求1所述的数据分析方法, 其特征在于, 基于所述待分析数据的数据类型
确定对应的数据提取 方式的步骤之前, 所述方法还 包括:
提取所述待分析 数据中具有唯一标识的字符串序列;
将所述字符串序列输入至预设的字符串序列表中进行数据对比, 并根据 数据对比结果
确定所述待分析 数据的数据类型。
3.根据权利要求1所述的数据分析方法, 其特征在于, 基于所述待分析数据的数据类型权 利 要 求 书 1/3 页
2
CN 114996360 B
2确定对应的数据提取方式, 并利用所述数据提取方式提取所述待分析数据中的每个区别数
据和基础数据的步骤 包括:
当所述待分析 数据的数据类型为文本数据时, 对所述待分析 数据进行 预处理;
利用词袋模型将预处理后的待分析数据表示为数值向量, 以得到所述待分析数据的数
值特征矩阵;
根据所述数值特 征矩阵得到所述待分析 数据中的每 个区别数据和基础数据。
4.根据权利要求1所述的数据分析方法, 其特征在于, 基于所述待分析数据的数据类型
确定对应的数据提取方式, 并利用所述数据提取方式提取所述待分析数据中的每个区别数
据和基础数据的步骤 包括:
当所述待分析数据的数据类型为图像数据时, 对所述待分析数据进行平滑处理, 以得
到第一处 理数据;
利用有限差分法计算出所述第 一处理数据的梯度幅值和梯度方向, 并对所述梯度幅值
进行非极大值抑制处 理, 以得到第二处 理数据;
对所述第二处理数据进行像素点及边缘提取, 以得到所述第 二处理数据的每个区别数
据和基础数据。
5.一种数据分析系统, 其特 征在于, 包括:
数据提取模块, 用于接收终端设备发送的待分析数据, 基于所述待分析数据的数据类
型确定对应的数据提取方式, 并利用所述数据提取方式提取所述待分析数据中的每个区别
数据和基础数据, 其中, 当所述待分析数据的数据类型为文本数据时, 所述基础数据为所述
待分析数据的数值特征矩阵中某一词汇的权重值或频率值在所述待分析数据中出现的词
频大于基础数据阈值的词汇, 所述区别数据为所述待分析数据的数值特征矩阵中某一词汇
的权重值或频率值在所述待分析数据中出现的词频小于区别数据阈值的词汇, 当所述待分
析数据的数据类型为图像数据时, 所述待分析数据经图像处理后动物轮廓以及建筑物轮廓
的纹理信息为所述区别数据、 其 余区域的信息为基础数据;
数据组合模块, 用于将每个所述基础数据中基础指标相同的基础数据进行组合, 以得
到多个基础数据集;
数据计算模块, 用于抓取各所述基础数据集所对应的数据领域区块, 并提取各所述区
别数据中的特征指标, 利用哈希表算法计算出各所述特征指标在各所述数据领域区块中出
现的频次;
数据拆分模块, 用于根据各所述特征指标在各所述数据 领域区块中出现的频次将所述
待分析数据拆分为多个待分析子数据;
数据分析模块, 用于计算出各所述待分析子数据的优先级系数, 并根据各所述待分析
子数据的优先级系数依次对各 所述待分析子数据进行 数据分析;
其中, 所述数据组合模块包括:
关键数据提取单元, 用于利用关键数据库对各所述基础数据进行关键数据提取, 以得
到各所述基础数据的关键数据;
相似特征对比单元, 用于利用标准数据库对各所述基础数据的关键数据进行相似特征
对比, 以得到各 所述基础数据的相似特 征度量;
数据聚类单元, 用于根据各所述基础数据的相似特征度量对各所述基础数据进行聚权 利 要 求 书 2/3 页
3
CN 114996360 B
3
专利 数据分析方法、系统、可读存储介质及计算机设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:01:35上传分享