全网唯一标准王
ICS 35.020 CCS L 70 DB52 贵 州 省 地 方 标 准 DB52/T 1541.2—2020 政务数据平台 第 2 部分:数据归集规范 Government data platform —Part 2:data ingestion specification 2020 - 11 - 20 发布 贵州省市场监督管理局 2020 - 12 - 20 实施 发 布 DB52/T 1541.2—2020 目 次 前言 ................................................................................ II 1 范围 .............................................................................. 1 2 规范性引用文件 .................................................................... 1 3 术语和定义 ........................................................................ 1 4 缩略语 ............................................................................ 3 5 总体要求 .......................................................................... 3 6 网络环境 .......................................................................... 3 7 归集流程 .......................................................................... 4 8 数据采集 .......................................................................... 4 9 数据清洗加工 ...................................................................... 5 10 数据整合 ......................................................................... 6 11 数据更新 ......................................................................... 6 I DB52/T 1541.2—2020 前 言 本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起 草。 本文件是DB52/T 1541的第2部分。DB52/T 1541已经发布了以下部分: ——第 2 部分:数据归集规范; ——第 3 部分:数据存储规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云 上贵州大数据产业发展有限公司、信通达智能科技有限公司。 本文件主要起草人:王嘉卉、宿睿智、刘彦嘉、田野、武波、徐凯琳、文小成、杨德康、朱小洪、 冯丹尼、郑如顺、杨建雄、黄明锋、秦晓东、邵建平、戚玉峰、赵飞、张洋、孙瑾。 II DB52/T 1541.2—2020 政务数据平台 第 2 部分:数据归集规范 1 范围 本文件规定了政务数据平台数据归集的术语和定义、缩略语、总体要求、网络环境、归集流程、数 据采集、数据清洗加工、数据整合及数据更新。 本文件适用于政务数据平台可共享政务数据和可开放公共数据的归集。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本 (包括所有的修改单)适用于本 文件。 GB/T 38664.2-2020 信息技术 大数据政务数据开放共享 第2部分:基本要求 DB52/T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 DB52/T 1541.3-2020 政务数据平台 第3部分:数据存储规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据归集 data ingestion 面向特定场景或领域对数据进行采集、清洗加工和整合的活动。 3.2 贴源层 operational data store 存储由源系统采集而来、未经处理的原始数据。 3.3 公共层 common data model 存储经过清洗加工后符合质量要求的可复用的公共数据。 3.4 主题层 data mart 存储整合后面向业务、应用的数据集合。 1 DB52/T 1541.2—2020 3.5 (国家电子政务网)政务外网 NEGN extranet 满足各级政务部门面向社会提供服务和管理的业务网络,简称政务外网。 [来源:GB/T 25647—2010,3.4.3] 3.6 政务数据 government data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 [来源:GB/T 38664.1—2020,3.1] 3.7 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述。 [来源:GB/T35295—2017,2.2.13] 3.8 半结构化数据 semi-structured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如<title></title>,表面上看是结构化数据,但<title></title> 之间的数据却是千变万化,这是典型的半结构化数据。 [来源:DA/T 82—2019,2.8] 3.9 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 [来源:GB/T35295—2017,2.1.25] 3.10 数据剖析 data profiling 对数据的结构、内容、关系和来源进行调研,以达到认识数据的目的。 3.11 数据采集定义 data collection definition 基于数据剖析结果,明确待采集数据的存储结构、存储位置和采集策略。 2 DB52/T 1541.2—2020 3.12 数据读取 data extraction 将待采集数据从其原始存储区域读到临时存储区域的过程。 3.13 数据写入 data loading 将数据读取过程中临时存储的数据最终持久化存储的过程。 3.14 全量更新 full update 使用新的数据对历史数据进行完全覆盖。 3.15 增量更新 incremental update 将两次更新间隔发生变更的数据同步到存储区域。 4 缩略语 下列缩略语适用于本文件。 ACID:数据库事务特征原子性、一致性、隔离型和持久性(Atomicity Durability) CSV:逗号分隔文件格式(Comma-Separated Values) JSON:对象标记(JavaScript Object Notation) XML:可扩展标记语言(eXtensible Markup Language) 5 Consistency Isolation 总体要求 5.1 数据归集安全应符合 GB/T 38664.2-2020 的要求。 5.2 应记录并保留归集过程中历史数据的变化和移动情况,确保数据归集的可追溯性。 5.3 数据归集过程中不应造成数据的缺失和遗漏,确保数据的完整性。 5.4 应如实准确地处理数据,不应虚构或篡改数据;应准确记录数据,不应存在异常或错误数据,确 保数据的准确性。 6 网络环境 来源于不同网络环境的原始数据应根据以下要求进行归集: a) 原始数据位于政务外网环境的,对数据直接归集; b) 原始数据位于专网环境的,应建立与政务外网之间的安全传输通道,采取必要的安全措施保障 数据传输安全性,对专网环境数据的归集; 3 DB52/T 1541.2—2020 c) 原始数据位于互联网环境的,应建立与政务外网之间的安全传输通道,采取必要的安全措施保 障数据传输安全性,对互联网环境数据的归集。 7 归集流程 数据归集总体流程见图1,流程包含以下内容: a) 将原始数据不进行处理地采集存放在政务数据平台的贴源层中; b) 对贴源层中的数据进行清洗加工使其满足政务数据平台使用的质量要求,清洗加工后的数据存 放在政务数据平台的公共层中; c) 对公共层中的数据进行个性化面向应用、业务的整合,最终数据存放在政务数据平台的主题层 中; d) 当原始数据发生更新时,应依照采集、清洗加工、整合的步骤对更新数据进行归集。 图1 8 数据归集总体流程 数据采集 8.1 采集数据类型 采集数据包括结构化数据、半结构化数据、非结构化数据,接入形式包括数据库、文件、接口、消 息队列。 8.2 采集流程 8.2.1 数据剖析 数据剖析应包括以下内容: a) 业务分析:对数据来源业务进行探查分析; b) 接入方式分析:对源数据存储位置、提供方式进行分析; c) 结构分析:对数据的含义、类型、长度、结构进行分析; 4 DB52/T 1541.2—2020 d) 内容分析:对数据内容进行分析,包括如数据总数、分布情况、平均值、中位数、最大值、最 小值等数据统计分析; e) 关联分析:对数据之间存在的依赖关系、主外键关系进行分析。 8.2.2 数据采集定义 8.2.2.1 存储结构 应根据源数据选择合适的类型、长度、精度对数据进行存储。 8.2.2.2 存储逻辑介质 8.2.2.2.1 8.2.2.2.2 8.2.2.2.3 结构化数据应选择结构化数据库存储

pdf文档 DB52-T 1541.2-2020 政务数据平台 第2部分:数据归集规范 贵州省

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB52-T 1541.2-2020 政务数据平台 第2部分:数据归集规范 贵州省 第 1 页 DB52-T 1541.2-2020 政务数据平台 第2部分:数据归集规范 贵州省 第 2 页 DB52-T 1541.2-2020 政务数据平台 第2部分:数据归集规范 贵州省 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2022-09-30 14:49:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。