全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211037559.2 (22)申请日 2022.08.26 (71)申请人 宁博数字技 术有限公司 地址 100000 北京市朝阳区光 华路15号院2 号楼10层10 01、 1002、 1003内176 (72)发明人 王永顺 吴楠 齐海茂 赵飞飞  郭向国 张克猛  (74)专利代理 机构 河北亿顺捷知识产权代理事 务所(普通 合伙) 13152 专利代理师 薛丽婷 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) (54)发明名称 一种用于产业分析的数据仓库设计及数据 分析加速系统 (57)摘要 本发明公开了一种用于产业分析的数据仓 库设计及数据分析加速系统, 涉及产业分析技术 领域。 本发 明系统包括数据仓库设计模块和数据 分析加速模块: 数据仓库设计模块用于对数据源 进行存储并根据需要进行操作; 数据分析加速模 块用于存储的数据进行构建和分析, 数据仓库设 计模块包括ODS层、 DWD层、 DWM层和ADS层; ODS层 用于存储从各种数据来源抽取的数据; DWD层用 于做数据清洗。 本发明在宏观层面上对于产业研 究分析建模、 产业信息化系统建设有着积极作 用; 微观层面上是对产业内的企业进行综合评估 的基石, 可以更好的帮助政府了解企业的发展情 况; 对各地政府分析地方企业经营状况, 产业区 域分布、 产业集群聚集分布等也有很好的提速作 用。 权利要求书2页 说明书8页 附图1页 CN 115309724 A 2022.11.08 CN 115309724 A 1.一种用于产业分析的数据仓库设计及数据分析加速系统, 其特征在于: 所述系统包 括数据仓库设计模块和数据分析加速模块: 所述数据仓库设计模块用于对数据源进行存 储并根据需要 进行操作; 所述数据分析加速模块用于存 储的数据进行构建和分析。 2.根据权利要求1所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 所述数据仓库设计模块包括OD S层、 DWD层、 DWM层和AD S层; 所述ODS层用于存 储从各种数据来源抽取的数据; 所述DWD层用于做数据清洗; 所述DWM层是对数据进行汇总 、 聚合和指标计算, 同时对处 理的结构进行储 存; 所述ADS层是存储直接支撑应用开发的数据。 3.根据权利要求1所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 所述数据分析加速模块包括数据清洗与预聚合分析模块、 数据元数据管理模块 和数据质量 监测模块: 所述数据清洗与预聚合分析模块用于对结构化信息清洗并对已有数据按照维度做聚 合; 所述数据元 数据管理模块用于对元 数据进行创建、 存 储、 整合和控制; 所述数据质量 监测模块用于对数据质量的好坏检测来判断信息的精准度。 4.根据权利要求3所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 所述数据清洗与预聚合分析模块包括创建 ODS层、 创建DWD层和创建DWM层; 所述创建ODS层通过指定抽取内容及补全, 同时将已有的结构化和非结构化数据归纳 成结构化数据表存 储在大数据平台 中并存储元数据信息 。 5.根据权利要求4所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 所述创建DWD层步骤如下: S1: 数据获取后, 需要 进行多种转换操作后进入目标 数据仓库; S2: 将已有的数据根据事实和维度进行维度建模。 6.根据权利要求5所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, S1步骤中的数据转换步骤如下: 将收集到的文本、 xml、 图片等非结构化数据统一处 理成了结构化数据; 对结构化信息做基础的数据清洗 。 7.根据权利要求6所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 所述数据清洗包括: A.数据字段命名规范统一; B..不同数据类型存 储格式统一; C.数据统计单位统一; D.数据异常值处 理金额过 大或者日期不 合法; E.数据空值描述统一。 8.根据权利要求4所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 所述创建DWM层通过对已有数据按照维度做出聚合和宽表的制作。 9.根据权利要求3所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其权 利 要 求 书 1/2 页 2 CN 115309724 A 2特征在于, 所述元 数据通过以下 方面收集: ⑴.是采集原企业数据就是 结构化数据我们会保存下原 始的元数据信息; ⑵.采集是从网页上获取的信息, 我们会根据网页内容补充元 数据信息; ⑶.采集从非结构化数据中提取 出结构化数据, 这种情况有我们 创建元数据信息 。 10.根据权利要求3所述的一种用于产业分析的数据仓库设计及数据分析加速系统, 其 特征在于, 数据质量的检测指标如下: a.企业各个事实表每日新增数据量曲线图; b.企业各个事实表按照省份汇总数据量, 对于数据量 为零的情况进行报警; c.监控各事实表的关键字段, 对每日更新数据进行空值率检测、 唯一性检测、 字段重复 率检测和字段格式错 误率检测, 并将结果绘制成图表展现在网页上。权 利 要 求 书 2/2 页 3 CN 115309724 A 3

PDF文档 专利 一种用于产业分析的数据仓库设计及数据分析加速系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于产业分析的数据仓库设计及数据分析加速系统 第 1 页 专利 一种用于产业分析的数据仓库设计及数据分析加速系统 第 2 页 专利 一种用于产业分析的数据仓库设计及数据分析加速系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。