专利数据分析方法、系统、可读存储介质及计算机设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210851818.9 (22)申请日 2022.07.20 (65)同一申请的已公布的文献号申请公布号 CN 114996360 A (43)申请公布日 2022.09.02 (73)专利权人江西现代职业技术学院地址 330095 江西省南昌市昌东大学园区紫阳大道338号 (72)发明人章建群　樊振军　 (74)专利代理机构南昌新天下专利商标代理有限公司 3 6115 专利代理师戴继翔 (51)Int.Cl. G06F 16/27(2019.01) G06F 16/25(2019.01)G06F 16/2455(2019.01) G06F 16/22(2019.01) G06K 9/62(2022.01) (56)对比文件 CN 114490667 A,202 2.05.13 CN 106484813 A,2017.0 3.08 CN 111367958 A,2020.07.0 3 CN 106776834 A,2017.0 5.31 CN 112966024 A,2021.0 6.15 CN 113962597 A,202 2.01.21 US 20213 65421 A1,2021.1 1.25 US 2015032759 A1,2015.01.2 9 李国清等.矿山安全隐患辨识与预警大数据分析系统研发. 《金属矿山》 .202 2, 审查员单娟 (54)发明名称数据分析方法、系统、可读存储介质及计算机设备 (57)摘要本发明提供一种数据分析方法、系统、可读存储介质及计算机设备，方法包括：基于终端设备发送的待分析数据的数据类型确定数据提取方式，并利用数据提取方式提取待分析数据中的每个区别数据和基础数据；将基础指标相同的基础数据进行组合得到多个基础数据集；抓取各基础数据集的数据领域区块，并提取各区别数据中的特征指标，计算出各特征指标在各数据领域区块中出现的频次；根据各频次将待分析数据拆分为多个待分析子数据；计算出各待分析子数据的优先级系数，并根据优先级系数依次对各待分析子数据进行数据分析。本发明使得各待分析子数据的处理能够根据优先级系数来依次进行，进而避免同步执行任务影响分析速率以及增加分析时间的问题。权利要求书3页说明书11页附图3页 CN 114996360 B 2022.11.18 CN 114996360 B 1.一种数据分析方法，其特征在于，包括：接收终端设备发送的待分析数据，基于所述待分析数据的数据类型确定对应的数据提取方式，并利用所述数据提取方式提取所述待分析数据中的每个区别数据和基础数据，其中，当所述待分析数据的数据类型为文本数据时，所述基础数据为所述待分析数据的数值特征矩阵中某一词汇的权重值或频率值在所述待分析数据中出现的词频大于基础数据阈值的词汇，所述区别数据为所述待分析数据的数值特征矩阵中某一词汇的权重值或频率值在所述待分析数据中出现的词频小于区别数据阈值的词汇，当所述待分析数据的数据类型为图像数据时，所述待分析数据经图像处理后动物轮廓以及建筑物轮廓的纹理信息为所述区别数据、其余区域的信息为基础数据；将每个所述基础数据中基础指标相同的基础数据进行组合，以得到多个基础数据集；抓取各所述基础数据集所对应的数据领域区块，并提取各所述区别数据中的特征指标，利用哈希表算法计算出各所述特征指标在各所述数据领域区块中出现的频次；根据各所述特征指标在各所述数据领域区块中出现的频次将所述待分析数据拆分为多个待分析子数据；计算出各所述待分析子数据的优先级系数，并根据各所述待分析子数据的优先级系数依次对各所述待分析子数据进行数据分析；其中，将每个所述基础数据中基础指标相同的基础数据进行组合，以得到多个基础数据集的步骤包括：利用关键数据库对各所述基础数据进行关键数据提取，以得到各所述基础数据的关键数据；利用标准数据库对各所述基础数据的关键数据进行相似特征对比，以得到各所述基础数据的相似特征度量；根据各所述基础数据的相似特征度量对各所述基础数据进行聚类，以得到多个基础数据集；其中，抓取各所述基础数据集所对应的数据领域区块的步骤包括：当获取到所述基础数据集时，将所述基础数据集中所有的基础数据的数据躯干解析成多个数据字符 X1、X2、X3，并在包含有各设备终端的数据信息的数据库Yn中对各所述数据字符X1、X2、X3进行抓取，以得到含有各所述数据字符 X1、X2、X3的所有的数据领域区块；其中，计算出各所述待分析子数据的优先级系数的步骤包括：获取处理器的运存空间，并基于所述处理器的运存空间计算出各所述待分析子数据所占用所述处理器的运存空间的数值；根据各所述待分析子数据所占用所述处理器的运存空间的数值计算出各所述待分析子数据的优先级系数。 2.根据权利要求1所述的数据分析方法，其特征在于，基于所述待分析数据的数据类型确定对应的数据提取方式的步骤之前，所述方法还包括：提取所述待分析数据中具有唯一标识的字符串序列；将所述字符串序列输入至预设的字符串序列表中进行数据对比，并根据数据对比结果确定所述待分析数据的数据类型。 3.根据权利要求1所述的数据分析方法，其特征在于，基于所述待分析数据的数据类型权　利　要　求　书 1/3 页 2 CN 114996360 B 2确定对应的数据提取方式，并利用所述数据提取方式提取所述待分析数据中的每个区别数据和基础数据的步骤包括：当所述待分析数据的数据类型为文本数据时，对所述待分析数据进行预处理；利用词袋模型将预处理后的待分析数据表示为数值向量，以得到所述待分析数据的数值特征矩阵；根据所述数值特征矩阵得到所述待分析数据中的每个区别数据和基础数据。 4.根据权利要求1所述的数据分析方法，其特征在于，基于所述待分析数据的数据类型确定对应的数据提取方式，并利用所述数据提取方式提取所述待分析数据中的每个区别数据和基础数据的步骤包括：当所述待分析数据的数据类型为图像数据时，对所述待分析数据进行平滑处理，以得到第一处理数据；利用有限差分法计算出所述第一处理数据的梯度幅值和梯度方向，并对所述梯度幅值进行非极大值抑制处理，以得到第二处理数据；对所述第二处理数据进行像素点及边缘提取，以得到所述第二处理数据的每个区别数据和基础数据。 5.一种数据分析系统，其特征在于，包括：数据提取模块，用于接收终端设备发送的待分析数据，基于所述待分析数据的数据类型确定对应的数据提取方式，并利用所述数据提取方式提取所述待分析数据中的每个区别数据和基础数据，其中，当所述待分析数据的数据类型为文本数据时，所述基础数据为所述待分析数据的数值特征矩阵中某一词汇的权重值或频率值在所述待分析数据中出现的词频大于基础数据阈值的词汇，所述区别数据为所述待分析数据的数值特征矩阵中某一词汇的权重值或频率值在所述待分析数据中出现的词频小于区别数据阈值的词汇，当所述待分析数据的数据类型为图像数据时，所述待分析数据经图像处理后动物轮廓以及建筑物轮廓的纹理信息为所述区别数据、其余区域的信息为基础数据；数据组合模块，用于将每个所述基础数据中基础指标相同的基础数据进行组合，以得到多个基础数据集；数据计算模块，用于抓取各所述基础数据集所对应的数据领域区块，并提取各所述区别数据中的特征指标，利用哈希表算法计算出各所述特征指标在各所述数据领域区块中出现的频次；数据拆分模块，用于根据各所述特征指标在各所述数据领域区块中出现的频次将所述待分析数据拆分为多个待分析子数据；数据分析模块，用于计算出各所述待分析子数据的优先级系数，并根据各所述待分析子数据的优先级系数依次对各所述待分析子数据进行数据分析；其中，所述数据组合模块包括：关键数据提取单元，用于利用关键数据库对各所述基础数据进行关键数据提取，以得到各所述基础数据的关键数据；相似特征对比单元，用于利用标准数据库对各所述基础数据的关键数据进行相似特征对比，以得到各所述基础数据的相似特征度量；数据聚类单元，用于根据各所述基础数据的相似特征度量对各所述基础数据进行聚权　利　要　求　书 2/3 页 3 CN 114996360 B 3

专利 数据分析方法、系统、可读存储介质及计算机设备

专利数据分析方法、系统、可读存储介质及计算机设备