全网唯一标准王
ICS 35.020 CCS L 70 DB52 贵 州 省 地 方 标 准 DB52/T 1540.4—2021 政务数据 第 4 部分:数据质量评估规范 Government data—part 4:data quality assessment specification 2021 - 08 - 18 发布 贵州省市场监督管理局 2021 - 12 - 01 实施 发 布 DB52/T 1540.4—2021 目 次 前言 ................................................................................ II  1 范围 .............................................................................. 1  2 规范性引用文件 .................................................................... 1  3 术语和定义 ........................................................................ 1  4 评估指标 .......................................................................... 2  5 评估方法 .......................................................................... 4  6 评估流程 .......................................................................... 5  7 评估结果应用 ...................................................................... 6  附录 A(资料性) 评估指标分值 ........................................................ 7  参考文献 ............................................................................. 8  I DB52/T 1540.4—2021 前 言 本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起 草。 本文件是DB52/T 1540的第4部分。DB52/T 1540已经发布了以下部分: 第1部分:术语; 第2部分:元数据管理规范; 第3部分:数据清洗加工规范; 第 4部分:数据质量评估规范; 第 5部分:共享交换基本要求; 第 6部分:安全技术规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会(GZ/TC 17)归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、贵 州省信息中心、贵州省量子信息和大数据应用技术研究院、云上贵州大数据产业发展有限公司、重庆昱 普生科技发展有限公司。 本文件主要起草人:韦超、刘彦嘉、韩朱旸、蒋开明、徐明春、田野、杨鹏、唐昶、张洋、姚茂峰、 关艳梅、杨建国、陈驰、雷伟、陆莹、郑如顺、黄明峰、刘军、韩朱旸、谭璐、王仕品、黄小梅、钟凯 馨、潘伟杰、邵建平、谭敏、王珂。 II DB52/T 1540.4—2021 政务数据 第 4 部分:数据质量评估规范 1 范围 本文件规定了政务数据质量评估的指标、方法、流程和结果应用等要求。 本文件适用于政务数据质量评估工作。 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本文件。 3.1 数据 data 对事实、概念或指令的一种形式化表示,适用于以人工或自动方式进行通信、解释或处理。 [来源:GB/T 35295-2017,2.2.1] 3.2 政务部门 government department 各级地方党委、人大、政府、政协、法院、检察院及其直属各部门(单位),以及法律法规授权具 有行政职能的事业单位和社会组织。 3.3 政务数据 government data 政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 [来源:GB/T 38664.1—2020,3.1] 3.4 数据质量 data quality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。 [来源:GB/T 25000.12—2017,4.3] 1 DB52/T 1540.4—2021 4 评估指标 4.1 指标框架 数据质量评估指标框架见图1。评估指标包括以下内容: a) 内容质量:包括数据规范性、准确性、完整性和可用性; b) 过程质量:包括数据处理过程的处理效果、一致性; c) 效用质量:包括数据可访问性、时效性。 图1 4.2 指标说明 数据质量评估指标说明见表1。 2 数据质量评估指标框架图 DB52/T 1540.4—2021 表1 一级指 二级指 标 标 三级指标 指标描述 命名规范性 数据库、数据集、数据元的命名方式符合相关命名规范的情况。 元数据规范性 规范性 数据质量评估指标说明 元数据描述符合相关规范的情况。 参考数据规范性 参考数据符合既有格式及规范的情况。 数据权限规范性 是否基于相关法律法规制定数据安全权限的规范性文件。 敏感字段脱敏占比 已脱敏字段占全部字段的比例。 数据格式(数据类型、数据范围、数据长度、精度、编码等) 数据格式合规性 准确性 内容 质量 数据重复率 脏数据出现率 可用性 质量 特定数据字段、记录、文件或数据集唯一标识的程度,具体体 现为满足唯一性的数据集个数与总数据集个数的比例。 脏数据出现率低于阈值的数据集的比例。 数据元符合数据元管理要求,不存在值为空的现象。 数据记录空值率 数据记录内容中存在空值的情况。 数据记录缺失率 (融合应用时)数据记录内容覆盖所有数据,不存在缺失现象。 数据字段可用性 数据字段值有效、可用的比例。 依赖字段可用性 存在依赖关系的字段同时非空的比例。 数据集可用性 数据集由多个字段组成,根据字段的可用率计算整个数据集的 可用率。 数据接口调用能够准确、正常的返回请求的比例。 处理效 数据合格率 校验后符合数据定义和规则的数据与总体数据的比例。 果 清洗保留率 清洗后的数据量占清洗前数据总量的比例。 一致性 相同数据一致性 关联数据一致性 可访问 效用 特定字段、记录、文件或数据集中存在重复数据的比例。 数据元素空值率 数据接口可用性 过程 用代码等。具体体现为满足格式要求的数据集字段数占总数据 集的字段总数的比例。 数据唯一性 完整性 是否满足预期要求,如手机号、身份证号、性别、统一社会信 性 质量 时效性 数据字段可访问率 同一数据在不同位置存储或被不同应用或用户使用时,数据的 一致情况。 符合基础数据元组合的数据集的比例。 可访问的数据字段的数量与总数的比例。 数据集可访问率 可访问的数据集的数量与数据集总数的比例。 数据接口有效性 可访问接口正确性。 时段数据正确性 日期范围的记录或者频率分布符合业务需求的情况。 时点数据正确性 特定时点的记录数、频率分布或延迟时间符合业务需求的情况。 数据时序正确性 数据时序的正确性。 3 DB52/T 1540.4—2021 5 评估方法 5.1 检核方法 数据质量评估按照评估指标对数据质量进行检核,检核方法包括: a) 系统检核:使用数据质量管理系统等数据质量工具实现自动检核,如自定义 SQL 语句检核; b) 人工检核:根据评估指标,结合个人专业判断进行数据检核,如资料对比、经验判断等。 5.2 检核方式 5.2.1 全量检核 对涉及的所有数据进行逐一检核数据质量。 5.2.2 增量检核 对涉及的数据,在特定的范围和时间段内新增的数据进行逐一检核数据质量。 5.2.3 抽样检核 按照抽样方案,对抽取的数据进行逐一检核数据质量。 5.3 分值设计 评估指标分值设计用绝对权数表示,绝对权数等同于各指标满分分值。各层级评估指标分值设计见 附录A。 5.4 结果计算 评估对象的最终评估总得分按公式(1)进行计算。一级指标得分按公式(2)计算,二级指标得分 按公式(3)进行计算。 3 P   Fi ...................................... (1) i 1 n Fi   Sij ....................................... (2) j a m Sij   Tijk ....................................... (3) k b 式中: P ——评估对象最终总得分; i ——第 i 个一级指标; Fi ——第 i 个一级指标实际得分; j ——第 j 个二级指标; a ——分解于第 i 个一级指标的起始二级指标序号; n ——分解于第 i 个一级指标的结尾二级指标序号; Sij ——第 j 个二级指标(分解于第 i 个一级指标)实际得分; 4 DB52/T 1540.4—2021 k ——第 k 个二级指标; b ——分解于第 j 个一级指标的起始二级指标序号; m ——分解于第 j 个一级指标的结尾二级指标序号; Tijk ——第 k 个三级指标(分解于第 j 个二级指标)实际得分。 6 评估流程 6.1 流程图 数据质量评估流程见图2,包括评估准备、指标选择、规则确定、评估实施、结果核验、报告编制。 图2 6.2 数据质量评估流程图 评估准备 评估前应了解具体业务对特定政务数据的需求,确定评估目的、对象及范围、评估方式,编制数据 质量评估方案。 6.3 指标选择 根据明确的评估目的,按照第3章规定选择合适的评估指标,并确定评估指标分值。 6.4 规则确定 根据选定的评估指标、评估对象确定数据质量检核规则。 6.5 评估实施 6.5.1 自评估 按照数据质量评估方案确定

pdf文档 DB52-T 1540.4-2021 政务数据 第4部分:数据质量评估规范 贵州省

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB52-T 1540.4-2021 政务数据 第4部分:数据质量评估规范 贵州省 第 1 页 DB52-T 1540.4-2021 政务数据 第4部分:数据质量评估规范 贵州省 第 2 页 DB52-T 1540.4-2021 政务数据 第4部分:数据质量评估规范 贵州省 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2022-10-09 13:22:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。