全网唯一标准王
ICS 35.020 CCS L 70 DB52 贵 州 省 地 方 标 准 DB52/T 1540.3—2020 政务数据 第 3 部分:数据清洗加工规范 Government data——Part 3:Data cleaning and processing specification 2020 - 11 - 20 发布 贵州省市场监督管理局 2020 - 12 - 20 实施 发 布 DB52/T 1540.3—2020 目 次 前言 ................................................................................ II 1 范围 .............................................................................. 1 2 规范性引用文件 .................................................................... 1 3 术语和定义 ........................................................................ 1 4 缩略语 ............................................................................ 2 5 环境要求 .......................................................................... 2 6 过程要求 .......................................................................... 3 附录 A(资料性) 典型业务数据转换规则表 ............................................. 10 I DB52/T 1540.3—2020 前 言 本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起 草。 本文件是DB52/T 1540的第3部分。DB52/T 1540已经发布了以下部分: ——第3部分:数据清洗加工规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云 上贵州大数据产业发展有限公司、信通达智能科技有限公司。 本文件主要起草人:徐凯琳、宿睿智、陈凤杰、朱永龙、郑如顺、杨建雄、田野、黄明峰、刘军、 秦晓东、韦超、罗森、常丹丹、安小敏、骆进、邵建平、刘彦嘉、孙瑾。 II DB52/T 1540.3—2020 政务数据 第 3 部分:数据清洗加工规范 1 范围 本文件规定了政务数据清洗加工的术语和定义、缩略语、环境要求和过程要求。 本文件适用于政务数据的清洗加工。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 DB52/T 1126—2016 政府数据 数据脱敏工作指南 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据清洗加工 data cleaning and processing 运用一定方法修正识别到的数据问题,提高数据质量的过程。 3.2 政务数据 government data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 [来源:GB/T 38664.1—2020,3.1] 3.3 噪声数据 noisy data 无意义数据,或所有难以被机器正确理解和翻译的数据。 3.4 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用 关系模型予以有效描述。 [来源:GB/T 35295—2017,2.2.13] 1 DB52/T 1540.3—2020 3.5 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 [来源:GB/T 35295—2017,2.1.25] 3.6 半结构化数据 semi-structured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如<title></title>,表面上看是结构化数据,但<title></title> 之间的数据却是千变万化,这是典型的半结构化数据。 [来源:DA/T 82—2019,2.8] 3.7 表结构 table structure 为主体层内容提供表示语义的一种存储范例。 [来源:GB/T 35295—2017,2.2.14] 4 缩略语 下列缩略语适用于本文件。 ETL:数据的抽取、转换和加载(Extract Transform Load) ELT:数据的抽取、加载和转换(Extract Load Transform) 5 环境要求 5.1 敏感数据脱敏处理应按 DB52/T 1126—2016 的规定进行,并在保证数据安全不被泄露的环境下进 行清洗加工。 5.2 应在与互联网隔绝的安全环境下处理政务数据,环境支持数据可存储、可转化,数据清洗加工工 作应符合贵州省“一云一网一平台”安全技术的相关规定,并确保数据的机密性和完整性。 5.3 数据清洗加工人员应经过相应的技术和安全培训,具有数据清洗加工的能力,并能按照数据安全 处理相关制度完成清洗加工过程。 2 DB52/T 1540.3—2020 6 过程要求 6.1 6.1.1 清洗加工流程 数据清洗加工 ETL 流程见图 1。 图1 数据清洗加工 ETL 流程 3 DB52/T 1540.3—2020 6.1.2 对于海量数据,宜使用数据清洗加工 ELT 流程见图 2。 图2 6.2 数据清洗加工 ELT 流程 数据抽取 6.2.1 应具备全量抽取和增量抽取两种方式。 6.2.2 抽取来源应能支撑抽取操作,使用生产库,或通过前置库等方式进行抽取。 6.2.3 应支持结构、半结构和非结构等不同类型数据的抽取。 6.2.4 抽取目的地的存储容量应能支持抽取来源的数据总量,数据抽取目的地的表结构应与抽取来源 的表结构保持一致。 6.2.5 增量抽取(更新)应确定增量更新的方式,抽取的数据应有字段可区分,如更新时间等。 4 DB52/T 1540.3—2020 6.3 定义规则 6.3.1 应分析抽取目标数据的范围、体量、类型、内容、关系、质量等信息,全面认识数据情况。 6.3.2 以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和 其他相关方的需求、期望,确定切实可操作的数据清洗加工目标及规则。 6.4 数据过滤 数据过滤包括以下操作: a) 将非结构化和半结构化数据转化为结构化数据; b) 对噪声数据进行删除; c) 对业务数据中不符合应用规则的数据进行删除; d) 过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。 6.5 数据检核 6.5.1 检核要求 6.5.1.1 非空检核 应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。 6.5.1.2 长度检核 数据长度应满足转换要求的字段长度。 6.5.1.3 数据量检核 过滤后的数据总量应与原始抽取的数据总量吻合。 6.5.1.4 数据类型和值检核 数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间 类型时,还需检验时间字符串类型的数据,应符合时间格式。 6.5.2 检核步骤 数据检核步骤如下: a) 按 6.5.1 规定检核数据资源是否满足要求; b) 当不满足检核要求时,应进行数据错误标识; c) 当满足检核要求时,直接进行数据转换。 6.6 错误标识 6.6.1 错误类型 常见数据的错误类型如下: a) 残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺; b) 错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等; c) 重复数据:相同的记录出现多条或多条记录代表同一实体。 5 DB52/T 1540.3—2020 6.6.2 识别方法 可采用统计学方法、数据挖掘、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规 则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。 6.6.3 标识步骤 错误标识步骤如下: a) 按 6.6.2 推荐的方法,分析筛选出数据资源中存在的数据问题; b) 按 6.6.1 的类型,对数据问题进行分类,标识错误。 6.7 修正处理 6.7.1 残缺数据处理 6.7.1.1 处理策略 按照字段缺失比例和字段重要性,分别制定策略。残缺数据处理策略制定参考图见图3。 重 要 性 高 特征:重要性高,缺失率高 策略:1.尝试去其他渠道取数补全 2.使用其他字段通过计算获取 3.去除字段,并在结果中表明 特征:重要性高,缺失率低 策略:1.通过计算进行填充 2.通过经验或业务知识估计 低 高 特征:重要性低,缺失率低 策略:不做处理或简单填充 特征:重要性低,缺失率高 策略:去除该字段 缺 失 率 低 图3 残缺数据处理策略制定参考图 6.7.1.2 去除字段 备份当前数据,直接删掉不需要的字段。 6.7.1.3 填充缺失内容 按以下方式填充缺失内容: a) 不同指标的计算结果填充:通过数据项与数据项之间的逻辑联系,采取一定的列拆分、列计算 等方式得到缺失内容,如年龄字段缺失,但具有公民身份证号,可从公民身份证号提取年龄数 据; b) 同一指标的计算结果填充:采取均值、中位数、众数等方式进行填充,如时间序列缺失,可使 用前后的均值填充; 6 DB52/T 1540.3—2020 c) 重新获取:当缺失率高且非常重要的数据项,应采取重新抽取不同数据源的数据进行关联对比 填充。

pdf文档 DB52-T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 贵州省

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB52-T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 贵州省 第 1 页 DB52-T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 贵州省 第 2 页 DB52-T 1540.3-2020 政务数据 第3部分:数据清洗加工规范 贵州省 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2022-09-30 15:09:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。